slot deposit pulsa slot mahjong slot gacor slot gacor slot gacor resmi slot gacor 2025 slot gacor terpercaya slot gacor 2025 slot gacor hari ini slot gacor hari ini slot gacor hari ini
如何选择合适的大语言模型
17611538698
webmaster@21cto.com

如何选择合适的大语言模型

人工智能 5 401 2025-03-25 02:24:24

图片

现在,各个国内外大厂纷纷推出各种大模型(LLM)。

那么,哪种模型最适合自己呢?我们是只要单独一种模型,还是应该混合搭配以完成不同的工作?答案并不总是那么显而易见,请你别担心——我们已经为你做好了一些功课。

在这篇文章中,我们将分解这些 AI 助手的模型,解释它们最擅长什么以及如何充分利用它们。

有助于比较大语言模型的指标

首先,让我们先来定义有助于比较大模型的指标。 

  • 速度– 模型生成响应的速度有多快?

     

    如果一个模型比另一个模型慢,那也不一定是坏事。有些模型需要额外的时间,因为它们使用基于推理的方法,这可以得到更精确的答案。根据你想要达成的任务,这个指标可能比较重要。比如,如果你绝对需要快速响应。

    在本文中,我们将以每秒令牌数(TPS)计算的内部速度之数据。 

     

  • 幻觉率——人工智能很强大,但仍然不完美

     

    有些大语言模型更容易产生错误或误导性的答案。幻觉率越低越好。在今天这篇文章中,我们采用GitHub 的幻觉率数据。 

     

    地址:https://github.com/vectara/hallucination-leaderboard

     

  • 上下文窗口大小——这定义了模型一次可以处理多少代码。

     

    上下文窗口越大,AI 一次可以“记住”的内容就越多,这对于处理复杂项目至关地重要。

     

  • 编码性能– 此指标突出显示模型处理编码任务的能力。

 

几个可靠的基准有助于我们评估大语言模型: 

  • HumanEval+

    https://openlm.ai/coder-evalplus/

     

    它衡量 LLM 在一定尝试次数内解决 Python 编码问题的能力。最高分为 100,高分意味着模型可靠,可以一次性生成正确的代码。

     

  • ChatBot Arena

    https://openlm.ai/chatbot-arena/

     

    根据真实用户反馈对 LLM 进行排名,使其成为当今最具活力和实用性的 AI 基准之一。如果您在这里看到更高的数字,则表示该模型在基于投票的正面比较中始终优于其他模型。

     

  • Aider 的多语言基准测试

    https://aider.chat/docs/leaderboards/#polyglot-leaderboard

     

    通过检查其解决方案是否正确运行来评估 LLM 用多种编程语言编写和修复代码的能力。高分表明 LLM 在使用多种编程语言进行编码时具有高度准确性和可靠性,这意味着它是各种开发任务的不二之选。

 

哪种 LLM 适合用于你的编码任务

 

现在,我们已经定义了指标,让我们看看 AI 助手(Assistant) 支持的 LLM 进行的比较吧。 

 

大语言模型

编码性能

速度(TPS

幻觉发生率

上下文窗口

OpenAI

GPT-4o

OpenAI 当前最先进、最可靠的 GPT 模型, GPT-4o 提供深度理解与闪电般的响应。

HumanEval+87.2

ChatBot Arena1,377

Aider27.1%

53.20 ±15.57

1.5

128K Tokens

GPT-4o mini

这是一个较小的模型,将 GPT-4o 的功能提炼到一个紧凑、低延迟的封装中。

HumanEval+83.5

ChatBot Arena1,283

Aider55.6%

62.78 ±19.72

1.7

128K Tokens

o1

o1系列模型经过强化学习训练,能够处理复杂的推理。它们先思考,再做出反应,形成详细的内部思路,从而提供更准确、更合乎逻辑、结构更合理的答案。

HumanEval+89

ChatBot Arena1,358

Aider61.7%

134.96 ±35.58

2.4%

10 万个Tokens

o1-mini

这是一个更小、更经济的推理模型,其编码性能几乎与完整的 o1 模型相当。尽管其规模较小,但它处理编码挑战的能力几乎与 o1 模型相当,这一点从它们在 ChatBot Arena 上的得分可以看出。

HumanEval+89

ChatBot Arena1,353

Aider32.9%

186.98 ±47.55

1.4

10 万个Tokens

o3-mini

最新的小型推理模型 o3-mini 具有出色的 STEM 功能,尤其擅长编码。它保持了 o1‑mini 的低成本和速度,同时匹配大型 o1 模型的编码性能并提供更快的响应。这使其成为编码和逻辑问题解决任务的非常有效的选择。

HumanEval+-

ChatBot Arena1,353

Aider60.4%

155.01 ±45.11

0.8

10 万个Tokens

Google

Gemini 2.0 Flash

这是一种针对效率和性能进行了优化的高速、低延迟模型。它是实现动态、代理驱动体验的理想选择。

HumanEval+-

ChatBot Arena1,356

Aider22.2%

103.89 ±23.60

0.7%

100 万个Tokens

Gemini 1.5 Flash

这是 Google 的轻量级 AI 模型,针对速度和效率至关重要的任务进行了优化。Gemini 1.5 Flash 在大多数任务上都能提供高质量的性能,可与更大的模型相媲美,同时具有更高的成本效益和响应速度。

HumanEval+75.6

ChatBot Arena1,254

助手:-

112.57 ±24.03

0.7%

100 万个Tokens

Gemini 1.5 专业版

Gemini 1.5 Pro 是一款强大的 AI 模型,专为对大规模数据进行深度推理而构建,擅长分析、分类和总结大量内容。它可以处理超过 100,000 行代码,并具有高级理解能力,非常适合复杂的多模式任务。

HumanEval+79.3

ChatBot Arena1,291

助手:-

45.47 ±7.78

0.8

1-200 万个Tokens

Anthropic

Claude 3.7 Sonnet

这是 Anthropic 最先进的编码模型。它在速度和质量之间取得了平衡,它擅长通过编码代理、深度问题解决和智能自动化进行全周期的软件开发。

HumanEval+-

ChatBot Arena1,364

Aider64.9%

46.43 ±7.35

20 万个Tokens

Claude 3.5 Sonnet

迄今为止最智能的 Anthropic 模型 Claude 3.5 Sonnet 是一款多功能的 LLM,可用于编码、代码迁移、错误修复、重构和翻译。它支持代理工作流,提供深入的代码理解以及强大的解决问题的能力。

HumanEval+-

ChatBot Arena1,327

Aider51.6%

43.07 ±7.03

4.6

20 万个Tokens

Claude 3.5 Haiku

这项快速、经济高效的 LLM 课程擅长实时编码、聊天机器人开发、数据提取和内容审核等。

HumanEval+-

ChatBot Arena1,263

Aider28.0%

42.90 ±6.83

4.9

20 万个Tokens

 

LLM 领域广阔且发展迅速,没有一种模式在各个方面都表现出色。根据我们的基准,以下是各个关键类别的领先者:

  • 幻觉发生率:Gemini 2.0 Flash

  • 速度:GPT-4o-mini、Gemini 1.5 Flash 和 Gemini 2.0 Flash

  • 通用智能(非推理模型):GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku 和 Gemini 1.5 Pro

  • 具有推理能力的一般智能:Claude 3.7 Sonnet、o1、o1-mini 和 o3-mini

 

本地大模型

 

如果你需要 AI Assistant 离线工作或希望避免与 LLM API 提供商共享代码,你也可以选择此选项!AI Assistant 支持本地模型,通过ollama和LM Studio提供。

 

 

目前最强大的模型是 Qwen-2.5-Coder 和 Deepseek R1,但你可以使用 ollama 系列中任何足够小以适合自己硬件的模型。


作者:场长

评论