Claude3 发布，或将全面超越 GPT-4？

张华 2024年03月31日 08:18 21 0

欧易（OKX）交易所 - 全球顶尖数字货币交易所

注册立即领取价值高达 6,0000 元的数字货币盲盒，邀请码：vip1234，享受 20%手续费减免。

刚刚，anthropic 宣布推出 claude 3 模型系列，该系列在广泛的认知任务中树立了新的行业基准。该系列包括三种最先进的模型，按能力递增排列：claude 3 haiku、claude 3 sonnet 和 claude 3 opus。每个后续模型都提供了越来越强大的性能，允许用户为其特定应用程序选择最佳的智能、速度和成本平衡。

Opus 和 Sonnet 现已可在 claude.ai 和 Claude API 中使用，后者目前已在 159 个国家 / 地区全面提供。Haiku 将很快推出。

Claude3 发布，或将全面超越 GPT-4？-第1张图片-易算准

Opus，Anthropic最智能的模型，在大多数常见的 AI 系统评估基准上表现优异，包括本科水平的专家知识（MMLU）、研究生水平的专家推理（GPQA）、基本数学（GSM8K）等。它在复杂任务上表现出接近人类水平的理解和流畅度，引领着通用智能的前沿。

Claude 3 模型展现了在分析和预测、内容创建的细节性、代码生成以及在非英语语言如西班牙语、日语和法语等进行对话方面的强大能力。

以下是 Claude 3 模型与Anthropic同行在多个能力基准 [1] 上的比较：

Claude3 发布，或将全面超越 GPT-4？-第2张图片-易算准

Claude 3 模型可以支持即时客户聊天、自动完成和数据提取任务，其中响应必须是即时的和实时的。

在智能领域中，Haiku 是一款性价比极高的模型，拥有市场上最快的速度。它能够在不到三秒的时间内解读一篇信息密集的 arXiv 研究论文（约10,000个标记），其中包含图表和图形。Anthropic公司在不久的将来将进一步优化其性能，Haiku的表现也将得到提升。

对于绝大多数工作负载而言，Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍上述，并且具有更高水平的智能。它擅长于需要快速响应的任务，如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似，但具有更高水平的智能。

Claude 3 模型具有与其他领先模型相当的复杂视觉能力。它们可以处理各种视觉格式，包括照片、图表、图形和技术图表。Anthropic 特别激动地向企业客户提供这种新的模态，其中一些客户的知识库中有多达 50% 的内容以各种格式编码，例如 PDF、流程图或演示幻灯片。

Claude3 发布，或将全面超越 GPT-4？-第3张图片-易算准

以前的 Claude 模型经常做出不必要的拒绝，表明缺乏上下文理解。在这方面Anthropic已经取得了实质性进展：Opus、Sonnet 和 Haiku 拒绝回答那些接近系统警戒线的提示的可能性明显降低，比以前的模型更少。如下图所示，Claude 3 模型对请求有更加细致入微的理解，识别出真正的危害，并且拒绝回答无害提示的频率明显降低。

Claude3 发布，或将全面超越 GPT-4？-第4张图片-易算准

各种规模的企业都依赖于Anthropic的模型为他们的客户服务，这使得Anthropic的模型输出在规模上保持高准确性至关重要。为了评估这一点，Anthropic使用了一套大量的复杂、事实性问题，针对当前模型的已知弱点。Anthropic将响应分类为正确答案、错误答案（或幻觉）和不确定性的承认，其中模型表示不知道答案而不是提供错误信息。与 Claude 2.1 相比，Opus 在这些具有挑战性的开放式问题上的准确性（或正确答案）实现了两倍的提高，同时还减少了错误答案的水平。

除了产生更可信的响应外，Anthropic很快将在Anthropic的 Claude 3 模型中启用引用，以便它们可以指向参考资料中的精确句子来验证其答案。

Claude3 发布，或将全面超越 GPT-4？-第5张图片-易算准

Claude 3 系列模型在推出时将提供一个 20 万标记的上下文窗口。但是，所有三个模型都能够接受超过 100 万标记的输入，Anthropic可能会将此提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示，模型需要强大的召回能力。「Needle In A Haystack」（NIAH）评估测量模型从大量数据语料库中准确召回信息的能力。Anthropic通过对每个提示使用 30 个随机针 / 问题对之一，并在多样化的众包语料库文档上进行测试，增强了这一基准的稳健性。

Claude 3 Opus 不仅实现了近乎完美的召回，超过了 99% 的准确性，而且在某些情况下，它甚至通过识别「针」句似乎是人为插入到原始文本中的来识别评估本身的局限性。

Claude3 发布，或将全面超越 GPT-4？-第6张图片-易算准

Anthropic开发了 Claude 3 系列模型，使其在能力的同时也具备了可信赖性。Anthropic有几个专门的团队跟踪和减轻各种风险，从错误信息和 CSAM 到生物滥用、选举干扰和自主复制技能等。Anthropic不断开发方法，例如《宪法 AI 》，以提高Anthropic模型的安全性和透明度，并调整Anthropic的模型以减轻由新模态可能引发的隐私问题。

解决越来越复杂模型中的偏见是一项持续努力，Anthropic在这个新版本中取得了进展。如模型卡所示，根据问答偏见基准（BBQ），Claude 3 显示出比Anthropic先前的模型更少的偏见。Anthropic始终致力于推进减少偏见并促进模型更大中立性的技术，确保它们不偏向于任何特定的党派立场。

虽然与以前的模型相比，Claude 3 模型系列在生物知识、网络相关知识和自主性方面有所进步，但根据Anthropic的负责任扩展政策，它仍然处于 AI 安全等级 2（ASL-2）。Anthropic的红队评估（与Anthropic的白宫承诺和 2023 年美国行政命令一致进行）得出结论，目前模型对灾难性风险的潜在性可以忽略不计。Anthropic将继续密切监视未来的模型，以评估它们与 ASL-3 门槛的接近程度。Claude 3 模型卡中提供了更多安全细节。

Claude 3 模型在遵循复杂的多步指令方面表现更好。它们特别擅长遵循品牌语音和响应指南，并开发用户可以信赖的面向客户的体验。此外，Claude 3 模型在生成流行结构化输出方面表现更佳，例如 JSON 格式——这样就更容易对 Claude 进行指导，用于自然语言分类和情感分析等用例。

Claude 3 Opus 是Anthropic最智能的模型，在高度复杂的任务上表现出市场最佳性能。它可以在开放式提示和未见情况下出色地流畅进行，并具有类似人类的理解能力。Opus 向Anthropic展示了生成式 AI 所能实现的极限。

Claude3 发布，或将全面超越 GPT-4？-第7张图片-易算准

Claude 3 Sonnet 在智能和速度之间取得了理想的平衡——特别是对于企业工作负载而言。与同行相比，它以较低的成本提供强大的性能，并且专为大规模 AI 部署的高耐用性而设计。

Claude3 发布，或将全面超越 GPT-4？-第8张图片-易算准

Claude 3 Haiku 是Anthropic最快、最紧凑的模型，可实现几乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建无缝的 AI 体验，模拟人类交互。

Claude3 发布，或将全面超越 GPT-4？-第9张图片-易算准

Opus 和 Sonnet 今天就可以在Anthropic的 API 中使用，该 API 现在已经普遍可用，开发人员可以立即注册并开始使用这些模型。Haiku 将很快推出。Sonnet 正在为 claude.ai 上的免费体验提供支持，而 Opus 则适用于 Claude Pro 订阅用户。

Sonnet 也可以通过亚马逊的 Bedrock 和 Google Cloud 的 Vertex AI 模型花园进行使用，Opus 和 Haiku 很快也将推出。

Anthropic认为模型智能远未达到极限，并计划在接下来的几个月内频繁更新 Claude 3 模型系列。Anthropic还很高兴地发布了一系列功能，以增强Anthropic模型的能力，特别是针对企业用例和大规模部署。这些新功能将包括工具使用（也称为函数调用）、交互式编码（也称为 REPL）以及更先进的代理能力等。

上述就是Claude3 发布，或将全面超越 GPT-4？的详细内容，更多请关注币圈之家官网其它相关文章！

标签： 100 币圈

本文地址： https://www.yisuanzhun.com/qukuai/185722.html