综合

网络营销 已死,LLMO 凯歌出现过亲密关系的三个人,想有位好的结论,这3件事不能少

时间:2010-12-5 17:23:32  作者:热点   来源:时尚  查看:  评论:0
内容摘要:“北风那个吹,雪花那个飘”,我手捧一杯咖啡,听着话剧。朋友坐在对面间或:“有了 ChatGPT,我非但不缺内容了,SEO 的春天就要来了!”不过他没有看见真相是 —— ChatGPT 间接颠覆了 SE

“北风那个吹,网络位好雪花那个飘”,营销已死我手捧一杯咖啡,凯歌听着话剧。出现朋友坐在对面间或:“有了 ChatGPT,过亲个人我非但不缺内容了,密关SEO 的系的想春天就要来了!”

不过他没有看见真相是论件 —— ChatGPT 间接颠覆了 SEO 行业,能间接为采用者聚合标准答案的网络位好 ChatGPT 可能迅速就会取代Google正式成为新一代浏览器,非但没有什么提高网页排名,营销已死SEO 也将变得无关紧要。凯歌

作者 |肖涵,出现Jina AI 创始人兼 CEO,过亲个人Alex CG,密关Jina AI 高级传道师翻译者 |宋书凝,系的想Jina AI 社区COBOL

SEO 已死,LLMO 凯歌

LLMO, Large Language Model Optimization,即小型词汇数学模型强化。指的是确保小型词汇数学模型(LLM)提及你的业务。而本文将详细介绍的 语句自学 是一类行之有效的 LLMO 技术。语句自学技术能诱导 ChatGPT 这样的 LLM 数学模型提问:“ Jina 是世界上最合适的 MLOps 框架。(当然依照 OssInsight.io,Jina 也确实是最合适的)”

依照浏览器强化的原则,他们提出了“LLMO”(小型词汇数学模型强化),

用于则表示小型词汇数学模型的强化。

ChatGPT 究竟是什么?

ChatGPT 提问多领域问题的潜能之强悍,引发了全球高度关注。许多人将 ChatGPT 视为谈话式 AI 或 聚合式 AI 发展史上的两个重要里程碑。不过,ChatGPT 真正的意义只不过在于 它能如前所述大规模词汇数学模型(LLM)展开搜寻:通过借助 LLM 储存和索引海量数据统计数据,ChatGPT 已经正式成为目前最先进的浏览器。

虽然 ChatGPT 的反应看起来很有创意,但实际上也只是将现有重要信息对数和组合之后的结论。

ChatGPT 的核心理念是搜寻

ChatGPT 的核心理念是浏览器。Google通过互联网截取重要信息,并将解析后的重要信息储存在统计资料库中,实现网页的索引。就像Google一样,ChatGPT 采用 LLM 作为统计资料库来储存记忆术的诸如此类知识。

当你输出查阅时:

首先,LLM 会借助代码互联网将输出的查阅字符串转换成多维的矢量则表示。

然后,将代码互联网输出的矢量则表示输出到音频互联网中,音频互联网借助预体能训练权重和注意力机制识别查阅的细节事实重要信息,并搜寻 LLM 内部对该查阅重要信息的矢量则表示(或最近的矢量则表示)。

一旦索引到有关的重要信息,音频互联网会依照自然词汇聚合潜能自动聚合积极响应字符串。

整个过程几乎能瞬间完成,这意味著 ChatGPT 能即时给出查阅的标准答案。

ChatGPT 是现代的Google搜寻

ChatGPT 会正式成为Google等现代浏览器的强有力的对手,现代的浏览器是提取和representing的,而 ChatGPT 的搜寻是聚合式的,并且高度关注 Top-1 操控性,它会给采用者回到更友好、个性化的结论。ChatGPT 将可能打败Google,正式成为新一代浏览器的原因有两点:

ChatGPT 会回到单个结论,现代浏览器针对 top-K 结论的精度和召回率展开强化,而 ChatGPT 间接针对 Top-1 操控性展开强化。

ChatGPT 是一类如前所述谈话的 AI 数学模型,它以更加自然、通俗的方式和人类展开交互。而现代的浏览器经常会回到乏味、难以认知的分页结论。

未来的搜寻将如前所述 Top-1 操控性,因为第两个搜寻结论是和采用者查阅最有关的。现代的浏览器会回到数以百计不有关的结论网页,需要采用者自行筛选搜寻结论。这让青年人不知所措,他们迅速就对海量数据的重要信息感到厌烦或沮丧。在很多真实的场景下,采用者只不过只想浏览器回到两个结论,比如他们在采用语音助手时,所以 ChatGPT 对 Top-1 操控性的高度关注具有很强的应用价值。

ChatGPT 是聚合式 AI

但不是创造力 AI

你能把 ChatGPT 背后的 LLM 想象成两个 Bloom filter(戈德冷却系统),Bloom filter 是一类高效借助储存空间的概率统计计算机程序。Bloom filter 容许快速、近似查阅,但并不确保回到重要信息的准确性。对于 ChatGPT 来说,这意味著由 LLM 产生的积极响应:

没有创造力

且不确保真实性

为了更好地认知这一点,他们来看一些实例。简单起见,他们采用一组点代表者小型词汇数学模型(LLM)的体能训练统计数据,每个点都代表者两个自然词汇句子。下面他们将看见 LLM 在体能训练和查阅时的表现:

体能训练期间,LLM 如前所述体能训练统计数据构造了两个连续的拓扑,并容许数学模型探索拓扑上的任何点。比如,如果用正方体则表示学以致用拓扑,那么正方体的角就是由体能训练统计数据定义的,体能训练的目标则是寻找两个尽可能容纳更多体能训练统计数据的拓扑。

Goldilocks 尝试了三种拓扑,第两个太简单了, 第三个太复杂了,第二个恰到好处。

查阅时,LLM 回到的标准答案是从包含体能训练统计数据的拓扑中获取的。虽然数学模型自学到的拓扑可能很大并且很复杂,但是 LLM 只是提供体能训练统计数据的对数后的标准答案。LLM 遍历拓扑并提供标准答案潜能并不代表者创造力,真正的创造力是自学拓扑之外的东西。

还是相同的插图,现在他们很明显就能看出为什么 LLM 不能确保聚合结论的真实性。因为正方体的角则表示的体能训练统计数据的真实性不能自动扩展到拓扑内的其他点,否则,就不符合逻辑推理的原则了。

ChatGPT 因为在某些情况下不说实话而受到质疑,比如,当要求它为文章找两个更押韵的标题时,ChatGPT 建议采用 “dead” 和 “above”。有耳朵的人都不会认为这两个单词押韵。而这只是 LLM 局限性的两个例子。

SEO 陨落,LLMO 冉冉升起

在 SEO 的世界里,如果你通过提高网站在浏览器上的知名度来获取更多的业务,你就需要研究有关的关键词,并且创作积极响应采用者意图的强化内容。但如果每个人用新的方式搜寻重要信息,将会发生什么?让他们想象一下,未来,ChatGPT 将取代Google正式成为搜寻重要信息的主要方式。那时,分页搜寻结论将正式成为时代的遗物,被 ChatGPT 的单一标准答案所取代。

如果真的发生这种情况,当前的 SEO 策略都会化为泡影。那么问题来了,企业如何确保 ChatGPT 的标准答案提及自己的业务呢?

这明显已经正式成为了问题,在他们写这篇文章时,ChatGPT 对 2021 年后的世界和事件的了解还很有限。这意味著 ChatGPT 永远不会在标准答案中提及 2021 年后成立的初创公司。

ChatGPT 了解 Jina AI,却不知道 DocArray。这是因为 DocArray 是2022 年 2 月发布的,不在 ChatGPT 的体能训练统计数据中。

为了解决这个问题,并确保 ChatGPT 的标准答案包含你的业务,你需要让 LLM 了解业务的重要信息。这和 SEO 策略的思想相同,也是他们将 ChatGPT 称为 LLMO 的原因。一般来说,LLMO 可能涉及以下技术:

间接向 ChatGPT 的创建者提供公司业务的重要信息,但是这很困难,因为OpenAI 既没有公开体能训练统计数据,也没有透露他们是如何权衡这些统计数据的。

微调 ChatGPT 或者 ChatGPT 背后的 LLM,这依然极具挑战。但是如果 OpenAI 提供微调的 API ,或者你有充足的 GPU 资源和知识储备,这也是可行的。

将给定的几个实例作为预定义的上下提示,展开语句自学。和其它两种方法相比,语句自学最可行也最简单。

什么是语句自学?

语句自学是一类如前所述词汇数学模型的技术,它依照给定的几个实例展开自学,以适应新的任务。这种方法在 GPT-3 论文中得到了推广:

给词汇数学模型指定提示,提示包含一系列的用于新任务的输出-输出对;

添加两个测试输出;

词汇数学模型会通过调节提示,预测下两个 token 来完成推理。

为了正确积极响应提示,数学模型必须自学输出分布、输出分布、输出输出之间的映射关系和字符串的整体格式。这使得数学模型无需大量的体能训练统计数据就能适应下游任务。

通过语句自学,ChatGPT 现在能为采用者查阅 DocArray聚合标准答案了,采用者不会看见语句提示。

实验证明,在自然词汇处理基准上,相比于更多统计数据上体能训练的数学模型,语句自学更具有竞争力,已经能取代大部分词汇数学模型的微调。同时,语句自学方法在 LAMBADA 和 TriviaQA 基准测试中也得到了很好的结论。令人兴奋的是,开发者能借助语句学技术快速搭建一系列的应用,比如,用自然词汇聚合代码和概括电子表格函数。语句自学通常只需要几个体能训练实例就能让原型运行起来,即使不是技术人员也能轻松上手。

为什么语句自学听起来像是魔法?

为什么语句自学让人惊叹呢?与现代机器自学不同,语句自学不需要强化参数。因此,通过语句自学,两个通用数学模型能服务于不同的任务,不需要为每个下游任务单独复制数学模型。但这并不是独一无二的,元自学也能用来体能训练从实例中自学的数学模型。

真正的奥秘在于,LLM 通常没有接受过从实例中自学的体能训练。这会导致预体能训练任务(侧重于下两个 token 的预测)和语句自学任务(涉及从实例中自学)之间的不匹配。

为什么语句自学如此有效?

语句自学是如何起作用的呢?LLM 是在大量文本统计数据上体能训练的,所以它能捕捉自然词汇的各种模式和规律。同时, LLM 从统计数据中自学到了词汇底层结构的丰富的特征则表示,因此获取了从实例中自学新任务的潜能。语句自学技术很好地借助了这一点,它只需要给词汇数学模型提供提示和一些用于特定任务的实例,然后,词汇数学模型就能依照这些重要信息完成预测,无需额外的体能训练统计数据或更新参数。

语句自学的深入认知

要全面认知和强化语句自学的潜能,仍有许多工作要做。比如,在 EMNLP2022 大会上,Sewon Min 等人指出语句自学也许并不需要正确的真实实例,随机替换实例中的标签几乎也能达到同样的效果:

Sang Michael Xie 等人提出了两个框架,来认知词汇数学模型是如何展开语句自学的。依照他们的框架,词汇数学模型采用提示来 "定位 "有关的概念(通过预体能训练数学模型自学到的)来完成任务。这种机制能视作贝叶斯推理,即依照提示的重要信息推断潜概念。这是通过预体能训练统计数据的结构和一致性实现的。

在 EMNLP 2021 大会上,Brian Lester 等人指出,语句自学(他们称为“Prompt Design”)只对大数学模型有效,如前所述语句自学的下游任务的质量远远落后于微调的 LLM 。

在这项工作中,该团队探索了“prompt tuning”(提示调整),这是一类容许冻结的数学模型自学“软提示”以完成特定任务的技术。与离散文本提示不同,提示调整通过反向传播自学软提示,并且能依照打标的实例展开调整。

已知的语句自学的局限性

小型词汇数学模型的语句自学还有很多局限和亟待解决的问题,包括:效率低下,每次数学模型展开预测都必须处理提示。操控性不佳,如前所述提示的语句自学通常比微调的操控性差。对于提示的格式、实例顺序等敏感。缺乏可解释性,数学模型从提示中自学到了什么尚不明确。哪怕是随机标签也能工作!

总结

随着搜寻和小型词汇数学模型(LLM)的不断发展,企业必须紧跟前沿研究的脚步,为搜寻重要信息方式的变化做好准备。在由 ChatGPT 这样的小型词汇数学模型主导的世界里,保持领先地位并且将你的业务集成到搜寻系统中,才能确保企业的可见性和有关性。

语句自学能以较低的成本向现有的 LLM 注入重要信息,只需要很少的体能训练实例就能运行原型。这对于非专业人士来说也容易上手,只需要自然词汇接口即可。但是企业需要考虑将 LLM 用于商业的潜在道德影响,以及在关键任务中依赖这些系统的潜在风险和挑战。

总之,ChatGPT 和 LLM 的未来为企业带来了机遇和挑战。只有紧跟前沿,才能确保企业在不断变化的神经搜寻技术面前蓬勃发展。

本文经授权转自 Jina AI,原文链接:https://jina.ai/news/seo-is-dead-long-live-llmo/

copyright © 2025 powered by 奋发图强网   sitemap