17611538698
webmaster@21cto.com

新的语言模型技术栈全解

人工智能 0 1249 2023-06-17 07:55:35

导读:


ChatGPT凭借大型语言模型(LLMs)引发了科技创新的巨浪,越来越多的公司将自然语言交互的能力引入到他们的产品中。语言模型API的采用正在逐渐形成新的技术栈。


几乎所有公司都在产品中用到语言模型

我们看到了一些神奇的自动完成(auto-complete)功能,应用范围从编程(Sourcegraph, Warp, Github)到数据科学(Hex)。我们看到更好的聊天机器人,应用于从客户支持、员工支持到消费者娱乐的各个领域。

一些公司正在用AI优先的视角重塑整个工作流程:视觉艺术(Midjourney)、营销(Hubspot, Attentive, Drift, Jasper, Copy, Writer)、销售(Gong)、接触中心(Cresta)、法律(Ironclad, Harvey)、会计(Pilot)、生产力(Notion)、数据工程(dbt)、搜索(Glean, Neeva)、购物(Instacart)、消费支付(Klarna)以及旅行计划(Airbnb)。这些只是几个例子,而且只是个开始

65%的公司已经将应用投入生产,比两个月前的50%有所提高,其余的公司仍在实验阶段。

94%的公司正在使用基础模型API,在我们的样本中,OpenAI的GPT是首选,占比达到了91%,但是,Anthropic在上个季度的关注度增长到了15%。(有些公司使用多个模型)。

88%的公司认为检索技术,如向量数据库,将继续是他们技术栈的关键部分。检索模型通过检索相关上下文来提高结果的质量,减少“幻觉”(不准确之处),并解决数据实时性的问题。一些公司使用专门构建的向量数据库(如Pinecone,Weaviate,Chroma,Qdrant,Milvus等),而其他公司则使用pgvector或AWS的产品。

38%的公司对像LangChain这样的LLM编排和应用开发框架感兴趣,一些公司用它进行原型设计,而其他公司则将其投入生产。在过去的几个月里,采用率有所提高。

不到10%的公司正在寻找用于监控LLM输出、成本或性能并进行A/B测试提示的工具。我们认为,随着越来越多的大公司和受监管的行业开始采用语言模型,这些一数字可能会增加。

15%的公司从头开始或使用开源资源构建了自定义的语言模型,通常还会使用LLM API。从几个月前开始,自定义模型的训练意义增加了。这需要自己的计算堆栈、模型中心、托管、训练框架、实验跟踪等,来自Hugging Face,Replicate,Foundry,Tecton,Weights & Biases,PyTorch,Scale等受人喜爱的公司对此提供了支持。

图片

新的语言模型技术栈

大家一致认为,LLM API将继续作为一个关键支柱,其次是检索机制和像LangChain这样的开发框架。

开源和自定义模型的训练和调整也在增长。语言模型技术栈的其他领域也很重要,但成熟度较低。

图片

新的语言模型技术栈

公司们希望根据自己的上下文来定制语言模型


公司希望在他们的数据上启用自然语言交互——包括开发文档、产品库存、人力资源或IT规则等。在某些情况下,公司也希望根据用户的数据定制他们的模型:你的个人笔记、设计布局、数据指标和代码库等。

目前,有三种主要的方式来定制语言模型:

从头开始训练自定义模型,难度最高。

这是解决此问题的最传统且最困难的方式,它通常需要高度熟练的机器学习科学家、大量相关的数据、训练基础设施和计算能力。

微调基础模型,难度中等。

这是通过使用进一步的专有或领域特定数据对预训练模型的权重进行额外训练来进行微调,开源创新也使这种方法越来越可行,但它仍然通常需要一个成熟的团队。

一些实践者私下承认,微调比听起来要难得多,可能会产生意想不到的后果,如模型漂移和无预警的“破坏”模型的其他技能。虽然这种方法有很大的可能性会变得更为常见,但目前对大多数公司来说仍然遥不可及。但再次强调,这种情况正在快速改变。

使用预训练模型并检索相关上下文,难度最低。

人们经常认为他们想要一个专门为他们微调的模型,但实际上他们只是希望模型在正确的时间推理他们的信息。有许多方法可以在正确的时间向模型提供正确的信息:向SQL数据库提出结构化查询,搜索整个产品目录,调用一些外部API或使用嵌入检索。

我们面临着两种技术栈的选择:一种是利用LLM API的技术栈(更倾向于闭源,针对开发人员设计);另一种是训练自定义语言模型的技术栈(更倾向于开源,历史上针对更复杂的机器学习团队设计)。

随着人工智能的关注度提高和开源开发的加速,越来越多的公司对训练和微调自己的模型产生了兴趣。

我们认为,随着时间的推移,LLM API技术栈和自定义模型技术栈会越来越融合。例如,一家公司可能会从开源项目中训练自己的语言模型,但又通过向量数据库来进行检索以解决数据实时性的问题。为自定义模型堆栈构建工具的智能初创公司也正在努力扩展他们的产品,以适应LLM API革命的需求。

现在,与语言模型打交道的人群已经明显扩大到所有类型的开发者,我们相信将会看到更多面向开发者的AI应用工具集合。


作者:万能的大雄

参考:https://www.sequoiacap.com/article/llm-stack-perspective/

评论