差不多就是这样了。我可以在这里更深入地探讨这个问题的这一部分,但主要观点是,我们最终会弄清楚当前 AI 架构(Transformer)的障碍是什么。当我们通过混合和重新混合数据、计算和算法发现没有进一步的进展时,我们就会知道需要进行结构性变革(架构性变革)。在此之前,很难知道。此外,我们仍然需要在三个方面发挥多种杠杆作用。对于数据,合成数据(由模拟生成)、精选数据(由人类生成)和混合数据(两者的混合)仍可取得进展。对于计算部分,我们才刚刚开始扩展芯片基础设施,以了解我们能走多远。我们还需要探索所有可能的方法来改进算法的底层预训练技术。
推理架构
在推理方面,一旦模型完成预训练,就可以在其基础上构建不同的架构。
以检索增强生成(RAG)为例:检索增强生成(RAG)是一种通过引用外部知识源来增强生成式 AI 模型的准确性和可靠性的技术。它涉及将大型语言模型 (LLM) 链接到指定的一组文档,从而允许模型使用原始训练数据中未包含的当前和特定领域的信息增强其响应。该方法通过整合来自外部资源的实时、可验证的事实,提高了人工智能输出的及时性、背景性和准确性。这是过去两年中快速发展的另一个角度,使 LLM 变得更加专业化、准确和安全(因为它们可以在一组文档上选择性地启用)。简而言之,我们正处于从通用人工智能(如ChatGPT)向专门的通用人工智能系统发展的阶段,虽然这些系统仍然是通用的,但通过垂直化可以变得非常有效(例如,人工智能律师、人工智能会计师、人工智能分析师)等等)。RAG 本身是一个价值数十亿美元的产业……
训练后
在过去的两年里,我们已经取得了很多成就,甚至在培训后的层面上也是如此。
这提醒我们,引发当前 Agentic AI 浪潮的论文《思维链提示》(CoT)直到 2022 年初才问世。就像 2017 年发表并催生 ChatGPT 的 Transformer 论文 (Attention Is All You Need) 一样,CoT 也是 Google Research 和 Brain 团队的努力成果!我将在这项研究的后面部分更多地讨论思路链,但现在,值得记住的是,其中很多都是关于训练后技术,这些技术推动了ChatGPT 4o 之类的技术的兴起:ChatGPT 4o 是指 OpenAI GPT 模型的特定版本,它是 GPT-4 模型变体,以生成类似人类的文本响应和处理复杂任务的高级功能而闻名。
模型的绩效评估
正如 Sam Altman 所强调的那样,在扩展方面还没有遇到障碍。问题仍然是,我们是否在衡量/评估模型的性能(在评估方面)而不是其能力方面遇到了障碍!
如上所述,思路链 (CoT) 提示 是一种用于增强大型语言模型 (LLM) 推理能力的技术,通过要求它们将复杂问题分解为一系列合乎逻辑的中间步骤。这种方法通过逐步引导模型解决问题来模仿人类的推理,从而获得更准确、更可解释的结果。多模态性和思路链的结合也推动我们走向“代理人工智能”的定义。 代理人工智能(AI智能体)Agentic AI 是指能够自主行动和决策的人工智能系统。这些系统通常被称为人工智能代理,可以独立追求目标、做出决策、处理复杂情况并适应不断变化的环境,而无需人工直接干预。它们利用强化学习和进化算法等先进技术来优化其行为并实现人类创造者设定的特定目标。请记住,Agentic AI 没有单一的定义。学术环境中的代理人工智能可能更多地与“代理”有关,或者与这些人工智能代理独立做出复杂决策的能力有关。在商业领域,未来几年,代理人工智能将主要关注这些代理可以在非常受限的环境中实现的特定业务成果和任务,以确保其准确性、可靠性和安全性是优先事项。
与最初的人工智能浪潮相比,Agentic AI 有何不同?
自 2019 年 GPT-2 推出以来,过去五年来,Gen AI 范式一直基于提示。
简而言之,LLM 根据给定的指令完成任何任务。输出的质量高度依赖于输入(提示)的质量。然而,在过去的几周里,我们终于看到了 Agentic AI 的崛起,这是一种新型人工智能,可以使用先进的推理和规划独立解决复杂问题。与响应单一请求的常规人工智能不同,代理人工智能可以处理多步骤任务,例如改善供应链、发现网络安全风险或帮助医生处理文书工作。它的工作原理是收集数据、设计解决方案、执行任务并从结果中学习以不断改进。
与 Prompting 相比,Agentic AI 的关键特征是什么?
• 自主解决问题: Agentic AI 使用复杂的推理和迭代规划来独立解决复杂的多步骤任务。 • 四步流程: 感知(收集数据)、推理(生成解决方案)、行动(通过 API 执行任务)和学习(通过反馈不断改进)。 • 提高生产力: 自动执行日常任务,使专业人员能够专注于更复杂的挑战,从而提高效率。 • 数据集成: 该技术使用检索增强生成 (RAG) 等技术来访问广泛的数据,以获得准确的输出和持续改进。
Agentic AI 浪潮是何时开始的?
事情开始于两年前。事实上,引发当前 Agentic AI 浪潮的论文《思维链提示》(CoT)直到 2022 年初才问世。
就像 2017 年发表并催生 ChatGPT 的 Transformer 论文 (Attention Is All You Need) 一样,CoT 也是 Google Research 和 Brain 团队的努力成果!谷歌研究和大脑团队的研究人员于 2022 年初发表的“思维链提示”(CoT)论文对于提升大型语言模型 (LLM) 的功能发挥了关键作用。该技术通过引导 LLM 生成反映人类解决问题过程的中间步骤来增强 LLM 的推理能力:
简而言之,在未来几年里,智能手机仍将是“人工智能的中央枢纽”,直到出现新的原生形态。不过,未来3-5年,iPhone仍将是AI初期发展的关键平台。以 AI iPhone为例 (趋势数据如下):在苹果最新的 iPhone 机型中,具体来说是 iPhone 16,苹果集成了被称为“ Apple Intelligence ”的先进人工智能(AI)功能(趋势数据如下):Apple Intelligence是 Apple 开发的一套生成式 AI 功能,集成在其 iPhone、Mac 和 iPad 等产品中。不过,该系统仍处于萌芽阶段,将增强 Siri、写作、图像创建和个人助理等功能。它旨在通过设备上处理和私有云计算简化和加速日常任务,同时优先考虑用户隐私。与此同时,在我们看到 AI 原生设备(例如将 AR 与它们相结合)出现之前,智能手机将是第一个被彻底改造的设备。目前,在智能手机方面,人工智能革命正朝着超个性化的方向发展,每个参与者都发挥自己的特色:
苹果利用设备内置人工智能来保护隐私,
三星通过智能优化提高性能,
Google 通过令人惊叹的增强功能提升了摄影水平,
华为添加了方便日常生活的实用工具。
每个品牌都带来独特的人工智能驱动功能,将手机变成强大的个人助理。以下是各智能手机厂商的 AI 策略细分:
Apple iPhone:Apple 专注于将隐私与先进的 AI 功能相结合。借助其 Apple Intelligence 平台,iPhone 提供了用于电子邮件和文档管理的语言模型等工具以及 Image Playground 和 Genmoji 等创意功能。Apple 坚定致力于在设备上处理,最大限度地减少数据传输,吸引了注重隐私的用户。
三星 Galaxy:三星 Galaxy S24 Ultra 搭载 Exynos 芯片组,通过 AI 优化的内核彰显高性能。其场景优化器相机功能可自动调整各种场景的设置,而智能性能优化可提高响应速度并延长电池寿命,使其成为重度用户的可靠选择。
这一浪潮始于十年前,当时这些大型科技公司试图主宰“语音助手”市场,但最终未能如愿。这些助手并没有兑现承诺。以 Siri 为例,由于缺乏实用性,它最终成为了一个长期失败的产品。然而,我们是否会通过生成式人工智能看到这些设备的复兴?例如,智能扬声器(例如 Alexa、Siri、Google Home)和耳机可能成为日常工作流程的核心。这些设备中的对话界面可以实现无缝、无屏幕的安排、提醒或信息检索等任务的执行。
AI音乐是指利用人工智能算法创作或辅助创作的音乐作品、制作或表演。这些算法分析大量的音乐数据集,学习模式,并生成原创作品或模仿特定风格,从而将音乐制作的各个方面从作曲到表演转变。AI 音乐工具可协助完成混音、母带制作和声音设计等任务,同时增强听众的音乐可访问性和个性化。最近有消息称,YouTube 开始尝试在其短片中推出 AI 音乐功能:
由于 YouTube 能够确保其生态系统内的正确归属和版税处理,因此 AI 混音可以简化广告商的许可流程。
AI视频生成
AI 视频生成 已成为当前 AI 范式的主流。事实上,标记一切的能力也使图像和视频生成方面取得了令人瞩目的突破。人工智能视频生成中的标记化涉及将视频数据分解为模型可以处理的更小的结构化组件(标记)。这类似于大型语言模型 (LLM) 处理文本的方式,但视频生成中的标记代表视觉、时间以及有时的音频元素。因此,至关重要的是要了解人工智能中的视频生成本质上是一个多模式问题,需要集成和同步文本、音频和视频标记以创建连贯、高质量的输出。
AI 视频生成:好莱坞商业用例
例如,最近,Meta 发布了一款能够制作真实电影和音乐的 Gen AI 视频生成器,提示是:“一只毛茸茸的考拉熊在冲浪。它有灰白色的皮毛和圆圆的鼻子。冲浪板是黄色的。考拉熊用爪子抓住冲浪板。考拉熊的面部表情很专注。阳光灿烂。”
这是 Meta 如何通过其现在的 AI 模型将多种数据类型组合为一个整体的完美示例。它展示了 Meta 如何做到了:
有趣的是,Meta 瞄准好莱坞和创作者,融合了专业和休闲用例。这就是为什么 Meta 在开发过程中与电影制作人和视频制作人合作的原因。然而,尽管人工智能视频生成现阶段进展迅速,但值得记住的是,由于成本高、生成时间长,它尚未供公众使用。此外,所有这些人工智能图像和视频生成器的一个关键问题是对训练数据源的理解有限,这引发了争议。对于 Meta 的案例,该模型很可能已经针对来自 Meta 平台(例如 Facebook 和 Meta Ray-Ban 智能眼镜)的用户生成内容和照片进行了训练。Meta 并不是唯一一家在为创作者提供 AI 视频生成方面取得快速进步的公司。事实上,它与其他 AI 视频工具(如RunwayML 的 Gen 3和OpenAI 的 Sora)竞争,但提供了视频编辑和集成音频等附加功能。所有这些参与者都将创意人员作为这些即将推出的平台的主要用户。 AI 视频生成:生产力商业用例谷歌刚刚推出了另一个重要的 AI 视频生成角度,其 Google Vids 可供 Workspace Labs 和 Gemini Alpha 用户使用,预计年底全面上市。主要特点包括:
人工智能辅助故事板:利用 Google 的 Gemini 技术根据用户提示和文件生成包含建议场景、库存媒体和背景音乐的可编辑大纲。
产品内录音室:用户可以使用内置提词器录制自己、自己的屏幕或音频,以帮助自信地传递信息。
广泛的内容库:提供数百万高质量、免版税的媒体资产,包括图像和音乐,以丰富视频内容。
自定义选项:提供各种可适应的模板、动画、过渡和照片效果,以个性化和增强视频。
无缝协作:可在 Google Workspace 环境内轻松共享和协作编辑,类似于文档、表格和幻灯片。
生产力用例也具有巨大的潜力!
AI 视频生成的主要亮点
技术基础
标记化:将视频分解为更小的组件(标记),例如视觉、时间和音频元素,从而使 AI 能够处理多模式数据。
多模式集成:文本、音频和视频标记的同步对于创建连贯、高质量的输出至关重要。
商业用例
好莱坞和创意产业
Meta 的 Gen AI 视频生成器:
根据文本提示生成逼真的视频(例如,冲浪的考拉)。
支持视频编辑、添加背景和修改元素,同时保留原始内容。
集成音频生成(13B 参数模型),将声音和音轨与视觉效果同步。
与电影制作人和视频制作人合作,针对专业和业余创作者。
限制:
成本高,生成时间长。
使用用户生成内容的训练数据可能引起争议。
竞争对手:
RunwayML 的 Gen 3和OpenAI 的 Sora也在这个领域取得了进展,它们以创作者为目标,但功能和重点领域各不相同。
然而,随着时间的推移,我们会发现人工智能原生的新形态。其中一些将涉及将其制成随身携带的屏幕(AR 眼镜)或消失的屏幕,使事情在后台发生(脑机接口),或者更好的是,环境智能可能成为一个很好的替代方案。然而事实是,这似乎是 AR 眼镜终于变得可行的十年。然而,尽管这可能是 AR 眼镜的十年,但正如我将向您展示的那样,在我们获得更激进的东西(如脑机接口)之前,它们可能只是一种过渡形式。或者可能是其他东西,如 Ambient AI,完全不需要佩戴接口。我将谈及它们两者...
AR 眼镜
AR 眼镜 是一种可穿戴设备,它采用了增强现实技术,可将数字内容叠加到用户的现实世界视图上。它们通常具有内置显示器、传感器和摄像头,可通过数字信息增强现实效果。AR 眼镜并不是什么新鲜事物。谷歌早在 2012 年就推出了第一款 AR 眼镜!这最终是一次巨大的失败。关于它的文章不计其数,讨论了时机不佳、成本、奇怪的界面以及其他因素如何导致了它的失败。然而,AR/VR 生态系统已经爆炸式增长。Snapchat 等该领域的顶尖企业纷纷推出新款眼镜。Meta 正在推出一项令人印象深刻的概念,名为 Meta Orion。那么苹果怎么样?由于 Apple 的 Vision Pro 无法扩展,该公司正在迅速改变方向,以使其 AR 努力发挥作用。事实上,苹果正在通过一项代号为“Atlas”的新内部研究探索智能眼镜的潜力,旨在收集员工对现有产品的反馈。该计划由苹果产品系统质量团队牵头,表明苹果可能进入目前由 Meta 主导的智能眼镜领域。通过计划更多的焦点小组,苹果正在评估如何在这个新兴的可穿戴技术领域增强和差异化其产品。简而言之:
进军 AR/VR 可穿戴设备:苹果的“Atlas”项目表明其对 AR/VR 可穿戴设备市场的兴趣,特别是智能眼镜,而 Meta 目前在该领域处于领先地位。