当前位置:
2025年全球11大AI商业趋势

2025年全球11大AI商业趋势

2025-01-18 14:06 Gennaro Cuofano
目录如下:

1.人工智能扩展

  • 模型的功能正在不断扩展,利用数据(合成、精选)、计算能力和算法方面的创新。

  • 检索增强生成 (RAG) 等技术增强了专门的 AI 应用。
  • 推理架构和后训练方法的持续发展,例如思路链(CoT)提示。


2. 多模式人工智能

  • 整合文本、图像、视频和音频,创建功能更加丰富的AI系统。

  • 支持视频生成、自主决策和上下文理解等高级应用。


3. 代理人工智能

  • 出现具有多步推理、规划和学习能力的自主系统。

  • 应用程序包括个人代理、基于角色的代理(例如法律或编码助理)以及用于客户服务的公司代理。


4.人工智能数据中心

  • 大规模投资(2024 年将达到 2000 亿美元)建设配备高性能芯片、冷却系统和可扩展基础设施的专用 AI 数据中心。

  • 探索核能和液体冷却等可持续能源解决方案。


5. 主权人工智能

  • 各国开发独立的人工智能基础设施以增强经济和技术主权。

  • 例如:丹麦专注于医疗保健的人工智能超级计算机、日本的人工智能驱动的 5G 电信网络以及阿联酋的人工智能全球测试平台。


6.通用机器人

  • 世界建模和灵巧性的进步使机器人能够适应复杂的环境。

  • 主要参与者:波士顿动力公司、特斯拉(Optimus)和物理智能(pi-zero)。


7.人工智能广告

  • 人工智能增强的广告定位和优化推动了 Google、Meta 和 TikTok 等平台的收入大幅增长。

  • 将人工智能融入搜索、创意工具和分析中。


8. AI 视频和音乐生成

  • 用于视频故事板、编辑和多模式内容创建的人工智能驱动工具。

  • 好莱坞(Meta 的 Gen AI)和生产力(Google Vids)中的应用。
  • 人工智能音乐增强个性化、发现和货币化机会。


9. 自动驾驶汽车

  • 大型语言模型 (LLM) 的进步,例如 Waymo 的 EMMA 集成了多模式功能,以实现更好的导航和安全性。

  • 专注于端到端模型,实现无缝决策。


10. AR 眼镜和 AI 硬件

  • Meta Orion 等 AR 眼镜和苹果的“Atlas”项目是 AI 交互的过渡形式。

  • 探索脑机接口 (BCI) 和环境智能以实现下一代用户体验。


11. 能源创新

  • 人工智能日益增长的能源需求刺激了可持续电力解决方案的创新,并可能引发一场能源革命。


【正文】
自从 2022 年 11 月 30 日我们迎来著名的“ChatGPT 时刻”以来,人工智能行业一直很忙碌!
自那时以来,我们已经取得了巨大的进步,并且产生了更加令人印象深刻的噪音。
这就是为什么当 ChatGPT 于 2022 年 11 月 30 日推出时,整个商业格局显然发生了变化。作为一个建立了小型但成功的数字业务的人,我知道一切都将改变。
所以,从那天起,我就在思考这个领域会如何发展。当我尝试了所有的人工智能工具,推出了几款人工智能应用,为我的社区增添了价值,并作为一名高管和企业家在人工智能行业进行了尽可能多的实验时,我开发了自己的内部指南针。
这种内部指南针已经成熟,成为我所说的“人工智能融合” 。
或者未来 10 到 30 年人工智能行业将如何发展,通过回顾互联网如何从商业互联网发展到 Web,从长远角度看待该领域。
牢记这一指南针,让我们探索一下 2025 年将形成的一些重要趋势。
在人工智能行业,我们必须采取双刃剑的方法:
  • 一方面,着眼于短期,看看哪些新兴趋势能够让我们向前迈一步。
  • 相反,必须有非常长远的眼光,以避免陷入影响人工智能行业的所有短期事件的噪音中。
这就是我的方法,这也是下面研究的内容。
让我们从一些趋势开始,帮助您了解 2024 年我们的发展方向、未来的障碍以及巨大的可能性。

人工智能扩展

AI 扩展 是指将人工智能系统的功能和部署从最初的概念验证或小规模实施扩展到广泛的企业级应用。
从基础层面来说,它涉及提高计算能力、数据量以及人工智能模型处理更大数据集和更复杂任务的能力,确保整个组织高效可靠地运行。
随着 2024 年即将结束,人们开始激烈争论人工智能是否能够跟上当前的创新水平,或者我们是否已经缺乏扩展这些模型的能力。
无数期刊报道了这些基础模型(如 OpenAI GPT 或 Anthropic 的 Claude 模型)的进展大幅放缓,凸显并强调了这些前人工智能实验室可能陷入深深的困境。
老实说,虽然这种担心确实能促成许多此类出版物的订阅,但却是毫无根据的。
萨姆·奥特曼强调“没有墙”来指出目前人工智能领域的关键问题......
总而言之,最近几周有很多关于人工智能进步放缓的讨论。
虽然这很引人注目,但我认为这些担忧是没有根据的,至少目前如此。
为什么?
我们还有许多角度可以改进这些AI模型。
事实上,除了基础架构(Transformer)之外,这些模型在过去两年中已经得到了极大的改进,包括新的架构(例如 RAG)和后训练技术(如思维链推理)。
我们才刚刚开始,因此从商业角度来看我们将看到许多改进。
提醒一下,截至 2024 年 11 月,根据 SimilarWeb 的数据,ChatGPT 已成为全球第 8 大网站,超过了雅虎和 Reddit 等网站,并向维基百科迈进!
事实上,OpenAI 的首席执行官 Sam Altman 保证人工智能不会遇到“性能障碍”,以反驳人们对模型进步收益递减的担忧。
当然,Sam Altman 很纠结,因为他在 OpenAI 上投入了巨额资金。那么为什么要相信他呢?
尽管有报道称即将推出的模型只会取得适度的进步,但 Altman 和其他人仍然保持乐观。人工智能实验室正在探索合成数据等新技术,以进一步突破人工智能的极限。
换句话说,作为多年来一直关注这个行业的人,现在有四个角度来看待这个问题:

预训练

在训练前阶段,有三个主要杠杆:

  • 数据,
  • 计算能力,
  • 和算法。
差不多就是这样了。
我可以在这里更深入地探讨这个问题的这一部分,但主要观点是,我们最终会弄清楚当前 AI 架构(Transformer)的障碍是什么。
当我们通过混合和重新混合数据、计算和算法发现没有进一步的进展时,我们就会知道需要进行结构性变革(架构性变革)。在此之前,很难知道。
此外,我们仍然需要在三个方面发挥多种杠杆作用。
对于数据,合成数据(由模拟生成)、精选数据(由人类生成)和混合数据(两者的混合)仍可取得进展。
对于计算部分,我们才刚刚开始扩展芯片基础设施,以了解我们能走多远。
我们还需要探索所有可能的方法来改进算法的底层预训练技术。

推理架构

在推理方面,一旦模型完成预训练,就可以在其基础上构建不同的架构。

以检索增强生成(RAG)为例:
检索增强生成(RAG)是一种通过引用外部知识源来增强生成式 AI 模型的准确性和可靠性的技术。
它涉及将大型语言模型 (LLM) 链接到指定的一组文档,从而允许模型使用原始训练数据中未包含的当前和特定领域的信息增强其响应。
该方法通过整合来自外部资源的实时、可验证的事实,提高了人工智能输出的及时性、背景性和准确性。
这是过去两年中快速发展的另一个角度,使 LLM 变得更加专业化、准确和安全(因为它们可以在一组文档上选择性地启用)。
简而言之,我们正处于从通用人工智能(如ChatGPT)向专门的通用人工智能系统发展的阶段,虽然这些系统仍然是通用的,但通过垂直化可以变得非常有效(例如,人工智能律师、人工智能会计师、人工智能分析师)等等)。
RAG 本身是一个价值数十亿美元的产业……

训练后

在过去的两年里,我们已经取得了很多成就,甚至在培训后的层面上也是如此。

这提醒我们,引发当前 Agentic AI 浪潮的论文《思维链提示》(CoT)直到 2022 年初才问世。
就像 2017 年发表并催生 ChatGPT 的 Transformer 论文 (Attention Is All You Need) 一样,CoT 也是 Google Research 和 Brain 团队的努力成果!
我将在这项研究的后面部分更多地讨论思路链,但现在,值得记住的是,其中很多都是关于训练后技术,这些技术推动了ChatGPT 4o 之类的技术的兴起:
ChatGPT 4o 是指 OpenAI GPT 模型的特定版本,它是 GPT-4 模型变体,以生成类似人类的文本响应和处理复杂任务的高级功能而闻名。

模型的绩效评估

正如 Sam Altman 所强调的那样,在扩展方面还没有遇到障碍。问题仍然是,我们是否在衡量/评估模型的性能(在评估方面)而不是其能力方面遇到了障碍!

这是什么意思?
由于进一步的扩展和其他训练后优化技术,这一进展可能会进展得如此之快,以至于我们不是从扩展的角度遇到障碍,而是从性能评估的角度遇到障碍!
如果是这样的话,这是一个严重的问题,因为没有新的版本;如果你无法评估性能,那么这样做就令人担忧。
我将在这里进一步讨论这一点……

人工智能基准测试

人工智能基准测试是使用标准化指标和测试来评估和比较不同人工智能模型或系统的性能。
这种实践有助于组织和研究人员确定最有效、最有效率的方法,改进人工智能算法,并确定需要改进的领域,从而推动人工智能的创新和进步。
正如我上面所解释的,当前需要解决的一个重要问题不仅是人工智能的扩展方面,更是基准测试方面,以确保我们有可靠的基准来评估这些人工智能模型的性能改进。
简而言之,我们可能正处于一个转折点,这些人工智能模型不断快速改进,但我们没有适当的基准来评估这些改进。
这种现象可能被称为“评估差距”或“移动目标问题”,因为基准必须不断发展才能跟上不断发展的人工智能能力。
当用于评估的目标、基准或标准由于快速发展而不断发展或变得过时时,评估和改进模型就面临挑战。
本质上,随着人工智能模型功能越来越强大,我们衡量其性能的标准也必须提高,从而形成一个“移动目标”。
我相信这就是我们现在的情况。人工智能模型发展如此迅速,以至于评估基准往往在能够有效衡量新功能之前就过时了。
这就造成了一个差距,即模型在现有测试中表现出色,但缺乏对概括性、安全性或突发行为的全面评估,这对我们可靠地跟踪和指导进度的能力提出了挑战。
仅人工智能基准测试一项,就可能在未来十年内发展成为一个庞大的产业!

人工智能支出

2024 年底的一个关键启示是,现有的大型科技公司无法满足人工智能的需求!
这是一个令人兴奋的问题,因为它指出了完全缺乏基础设施来满足人工智能领域被压抑的需求。
当然,短期内,这归功于人工智能的大量热议。然而,这种模式完全不同,需要全新的基础设施。
然而,这还远不止这些;我将在接下来的几段中谈到它。但现在,请记住这个短期数字:

现有的云基础设施是AI的初始支柱,但还不够!

仅在 2024 年,主要大型科技公司就将花费 2000 亿美元来加强基础设施并满足日益增长的人工智能需求!

由于人工智能需求超过供应,云端战争已经爆发。仅 2024 年,各大科技巨头就将投入 2000 亿美元来加强基础设施建设,并加快人工智能需求的步伐!
上个季度,由于人工智能需求推动增长,谷歌云在相对增长方面赢得了胜利,第三季度飙升 35%,超过了 AWS 和 Azure。
亚马逊保持利润领先地位,而微软则投资提升人工智能能力。
由于定制 AI 芯片和高需求形成了激烈的竞争,Oracle 与竞争对手合作,扩大其数据库在主要云平台上的覆盖范围。
不过,需要提醒的是,亚马逊 AWS(今年收入达到 1000 亿美元):

• 亚马逊网络服务 (AWS):31% 的市场份额。
• 微软 Azure:25% 的市场份额。
• Google Cloud:11% 的市场份额。

这些数据凸显了 AWS 和 Azure 在云市场的领先地位,而 Google Cloud 增长迅速,但份额仍然较小。
与此同时,其他体量相对较小的公司如甲骨文公司也正在大举进军!
与此同时,正如 2024 年第三季度清楚显示的那样:
  • Google Cloud 的增长:Google Cloud 在第三季度同比增长 35%,领先亚马逊和微软。这一增长被视为 Alphabet 的一次重大转变,使其收入来源多元化,不再局限于广告。
  • AWS 保持盈利:亚马逊网络服务 (AWS) 保持收入领先地位,增长 19% 至 274.5 亿美元,营业利润率高达 38%。该公司受益于成本效率和服务器寿命延长。
  • 微软和人工智能需求:微软报告称,Azure 增长了 33%,这得益于人工智能服务和对 OpenAI 的投资。由于需求旺盛,容量有限,但人工智能基础设施投资旨在到 2025 年初扩大可用性。
  • 供应限制:AWS 和微软都受到 AI 芯片供应的限制,亚马逊部分依赖其定制芯片(如 Trainium 2),而谷歌则推进其定制 TPU。
  • Oracle 的地位:尽管规模较小,但 Oracle 的云基础设施增长了 45%,并与亚马逊、微软和谷歌合作扩大其数据库覆盖范围。
  • AI竞争与创新:各云计算巨头都在开发专有AI芯片并扩大AI容量以满足需求,凸显了AI驱动的云计算市场的竞争日益激烈。
让我告诉你为什么人工智能数据中心至关重要......


人工智能数据中心

人工智能数据中心是一种专门设施,旨在满足人工智能 (AI) 工作负载的密集计算需求。
这些数据中心支持高密度部署、创新的冷却解决方案、先进的网络基础设施和现代数据中心管理工具,以有效处理人工智能操作的巨大电力和存储需求。
据 彭博社报道,2024 年是“数据中心淘金热”的一年。仅在本财年,大型科技公司就总共投资了高达 2000 亿美元,以满足人工智能的需求!
事实上,人工智能的爆炸式需求引发了前所未有的资本支出,亚马逊、微软、Meta 和 Alphabet 将在 2024 年投资超过 2000 亿美元。
这些科技巨头竞相建设数据中心和获得高端芯片,将人工智能视为重塑其业务和未来收入潜力的“千载难逢”的机会。
所有拥有现有云基础设施的大型科技公司都非常清楚这一机会:
  • 创纪录的人工智能支出:亚马逊、微软、Meta 和 Alphabet 今年的人工智能投资将超过 2000 亿美元,旨在确保稀缺芯片并建立广泛的数据中心。
  • 长期机遇:亚马逊首席执行官安迪·贾西 (Andy Jassy) 将人工智能描述为“千载难逢”的机会,推动亚马逊在 2024 年预计的 750 亿美元资本支出。
  • 容量挑战:微软的云计算增长遭遇了供应瓶颈,数据中心的限制影响了近期的云计算收入。
  • Meta 的 AI 野心:尽管现实实验室 (Reality Labs) 的运营亏损达到 44 亿美元,但 Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 仍致力于 AI 和 AR 投资。
  • 华尔街的褒贬不一:尽管对人工智能的长期回报持乐观态度,但一些科技股因成本过高而波动,而亚马逊和 Alphabet 则因强劲的云计算收益而飙升。
  • 竞争加剧:各大公司都押注人工智能来超越传统的数字广告和软件收入,使得人工智能驱动的基础设施成为不断升级的需求中的战略必需品。

但为什么首先需要 AI 数据中心呢?

虽然当前的数据中心基础设施可以满足整个网络的需求,但人工智能数据中心是专门为满足人工智能工作负载的独特需求而设计的设施,在几个关键方面与传统数据中心有所区别:

  • 硬件要求:机器学习和深度学习等 AI 任务需要高性能计算资源。因此,AI 数据中心配备了图形处理单元 (GPU)和张量处理单元 (TPU)等专用硬件,以高效处理密集计算。
  • 功率密度:人工智能数据中心的先进硬件导致每机架功耗明显高于传统数据中心。功率密度的提高需要强大的电力输送系统,以确保持续可靠的运行。
  • 冷却系统:高功率使用会产生大量热量,需要先进的冷却解决方案。人工智能数据中心通常采用液体冷却系统,在管理高密度设备的热输出方面,该系统比传统空气冷却方法更有效。
  • 网络基础设施:AI 工作负载涉及处理大型数据集,需要高带宽、低延迟的网络来促进存储和计算资源之间的快速数据传输。这需要比传统数据中心更强大、更高效的网络基础设施。
  • 可扩展性和灵活性:AI 应用程序通常需要动态扩展以适应不同的计算负载。AI 数据中心采用模块化架构设计,可实现灵活的资源扩展,确保它们能够适应不断变化的 AI 工作负载需求。
改造亚马逊 AWS、微软 Azure、谷歌云和许多其他提供商现有的数据中心可能需要在未来十年内投资一万亿美元!
事实上,人工智能需求进一步推动科技巨头加强其数据中心基础设施,导致能源需求在短期内极不可持续。那么,科技公司正在研究哪些替代方案呢?
短期内,随着这些大型科技公司建立长期基础设施,他们已经在探索一些潜在的能源替代品来为这些人工智能数据中心提供动力。
大型科技公司正在竞相以可持续的方式满足人工智能的能源需求,目前已确定了三条主要途径:
  • 核能提供稳定电力,
  • 液体冷却可实现高效的数据中心,
  • 以及量子计算以实现未来的突破。
这些够了吗?可能还不够。但我们目前的情况是这样的:

核能投资

优点:它提供稳定、大规模的电力,这对于需要稳定、全天候能源的 AI 数据中心至关重要。

•缺点:初始成本高、监管障碍以及与核废料相关的长期环境问题。
•时间线:微软、谷歌和亚马逊的主要交易已经在进行中,预计核能将很快支持 AI 运营。

液冷技术

优点:通过有效降低服务器温度来提高能源效率,使数据中心能够处理更高的功率密度。

•缺点:初始安装成本高,维护数据中心的水系统需要额外的资源和规划。
•时间表:施耐德电气最近收购了 Motivair Corp 以扩展液体冷却能力,目前正在实施,这表明未来几年将得到更广泛的采用。

量子计算

优点:有望大幅提高处理效率,以更少的功率进行复杂的 AI 计算,并可能降低对环境的影响。

•缺点:量子技术仍处于早期阶段,实际的、可扩展的商业应用可能还需要数年时间。
•时间线:据 Quantinuum 首席执行官 Raj Hazra 称,高性能计算、AI 和量子相结合的商业转变可能会在三到五年内出现。
为人工智能创建全新基础设施的这些大规模努力可能会在短期内导致大量的能源浪费,并推动能源领域的令人印象深刻的创新,从而找到替代方案来满足被压抑的人工智能需求。
猜猜怎么着?从长远来看,这也许会引发一场能源革命,为其他一切提供廉价能源。
正如 OpenAI 联合创始人 Sam Altman 在其最新文章《智能时代》中所强调的那样:
如果我们想让尽可能多的人拥有人工智能,我们需要降低计算成本并使其丰富(这需要大量的能源和芯片)。如果我们不建设足够的基础设施,人工智能将成为一种非常有限的资源,战争将为此展开,并主要成为富人的工具。
在讨论未来 2-3 年影响人工智能的主要趋势之前,我想谈谈另外两个重要趋势:多模态人工智能和思维链。

多模态人工智能

多模式人工智能 是一种整合和处理多种数据输入的人工智能系统,包括文本、图像、音频和视频。
此功能允许系统通过组合不同的数据模式来生成更准确、更具情境感知的输出,使其在各种应用中更加通用和有效。
多模态性于 2023 年开始成为一种趋势,并在 2024 年得到巩固。简而言之,所有生成式人工智能系统都必须结合多模态元素,才能在下一阶段的规模发展中达到一定程度的实用性。

思路链提示

如上所述,思路链 (CoT) 提示 是一种用于增强大型语言模型 (LLM) 推理能力的技术,通过要求它们将复杂问题分解为一系列合乎逻辑的中间步骤。
这种方法通过逐步引导模型解决问题来模仿人类的推理,从而获得更准确、更可解释的结果。
多模态性和思路链的结合也推动我们走向“代理人工智能”的定义。

代理人工智能(AI智能体)
Agentic AI 是指能够自主行动和决策的人工智能系统。
这些系统通常被称为人工智能代理,可以独立追求目标、做出决策、处理复杂情况并适应不断变化的环境,而无需人工直接干预。
它们利用强化学习和进化算法等先进技术来优化其行为并实现人类创造者设定的特定目标。
请记住,Agentic AI 没有单一的定义。
学术环境中的代理人工智能可能更多地与“代理”有关,或者与这些人工智能代理独立做出复杂决策的能力有关。
在商业领域,未来几年,代理人工智能将主要关注这些代理可以在非常受限的环境中实现的特定业务成果和任务,以确保其准确性、可靠性和安全性是优先事项。

与最初的人工智能浪潮相比,Agentic AI 有何不同?

自 2019 年 GPT-2 推出以来,过去五年来,Gen AI 范式一直基于提示。

简而言之,LLM 根据给定的指令完成任何任务。输出的质量高度依赖于输入(提示)的质量。
然而,在过去的几周里,我们终于看到了 Agentic AI 的崛起,这是一种新型人工智能,可以使用先进的推理和规划独立解决复杂问题。
与响应单一请求的常规人工智能不同,代理人工智能可以处理多步骤任务,例如改善供应链、发现网络安全风险或帮助医生处理文书工作。
它的工作原理是收集数据、设计解决方案、执行任务并从结果中学习以不断改进。

与 Prompting 相比,Agentic AI 的关键特征是什么?

• 自主解决问题: Agentic AI 使用复杂的推理和迭代规划来独立解决复杂的多步骤任务。
• 四步流程: 感知(收集数据)、推理(生成解决方案)、行动(通过 API 执行任务)和学习(通过反馈不断改进)。
• 提高生产力: 自动执行日常任务,使专业人员能够专注于更复杂的挑战,从而提高效率。
• 数据集成: 该技术使用检索增强生成 (RAG) 等技术来访问广泛的数据,以获得准确的输出和持续改进。

Agentic AI 浪潮是何时开始的?

事情开始于两年前。事实上,引发当前 Agentic AI 浪潮的论文《思维链提示》(CoT)直到 2022 年初才问世。

就像 2017 年发表并催生 ChatGPT 的 Transformer 论文 (Attention Is All You Need) 一样,CoT 也是 Google Research 和 Brain 团队的努力成果!
谷歌研究和大脑团队的研究人员于 2022 年初发表的“思维链提示”(CoT)论文对于提升大型语言模型 (LLM) 的功能发挥了关键作用。
该技术通过引导 LLM 生成反映人类解决问题过程的中间步骤来增强 LLM 的推理能力:
  • 增强的推理能力: CoT 提示使 LLM 能够通过将复杂任务分解为连续步骤来解决它们,从而提高算术、常识推理和符号处理等领域的表现。
  • 随着规模的扩大而产生的新兴能力: 研究表明,随着 LLM 规模的扩大,其思路链推理能力自然就会显现出来,从而使他们能够有效地处理更复杂的问题。
  • 对代理 AI 开发的影响: CoT 论文展示了 LLM 如何通过结构化提示执行复杂的推理,启发了能够进行更自主和更复杂决策的代理 AI 系统的发展。
这一进展反映了 2017 年“注意力就是你所需要的”论文的影响,该论文介绍了 Transformer 架构并为 ChatGPT 等模型奠定了基础。
两篇论文都强调了谷歌研究团队在推动人工智能进步方面发挥的重要作用,特别是在增强语言模型的推理和理解能力方面。
但你猜怎么着?
他们中的大多数都是从商业应用的角度推动 OpenAI 向前发展的。OpenAI 于 2024 年 5 月发布的 GPT-4o 吸收了 CoT 的原理来提高其推理能力。
通过构建提示来鼓励逐步思考,GPT-4o 可以更有效地处理数学问题解决和逻辑推理等复杂任务。
这种方法允许模型将复杂的问题分解为可管理的步骤,从而得到更准确、更一致的响应。
随着传言的传出, OpenAI 开发的下一代 AI 模型OpenAI Orion引起了巨大轰动,这场竞赛也愈发激烈 !
OpenAI Orion 是 OpenAI 开发的传闻中的下一代 AI 模型,旨在显著增强推理、语言处理和多模态能力。
预计它的功能将比 GPT-4 强大 100 倍,能够无缝处理文本、图像和视频。
Orion 最初旨在面向主要合作伙伴公司推出,并不面向广泛公开发布,旨在通过提供先进的问题解决和自然语言理解能力来彻底改变各个行业。
因此,它推动了 OpenAI 对通用人工智能 (AGI) 的愿景以及与 Microsoft Azure 的战略合作。
OpenAI 并不是唯一一家!
几周前有传言称,谷歌实际上已经(尽管很短暂)泄露了一款人工智能原型“Jarvis”,旨在完成预订航班或购物等计算机任务。
尽管该工具暂时在 Chrome 扩展程序商店中可用,但无法完全发挥作用,很快就被删除。谷歌计划于 12 月推出 Jarvis,加入 Anthropic 和 OpenAI 等竞争对手的 AI 辅助行列。
那里发生了什么?据 The Information 报道:
  • 意外发布:谷歌短暂公开了一款内部人工智能原型,代号为“Jarvis”,旨在完成个人计算机上的任务。
  • 功能:Jarvis 是一个“使用计算机的代理”,旨在协助购买产品或预订航班等任务。
  • 访问问题:通过 Chrome 扩展商店获取的原型由于权限限制无法完全运行。
  • 删除:谷歌在下午三点左右删除了该产品;该产品原计划于 12 月与新的语言模型一起发布。
  • 竞争:Anthropic 和 OpenAI 也在开发类似的 AI 任务辅助产品。
我们在那里能期待什么呢?

Agentic AI:个人、基于角色的公司代理

学术定义将人工智能代理视为具有自主推理和行动能力的系统,源自“代理”的概念。

我很喜欢 Sierra 首席执行官 Bret Taylor 在第 82 期播客《No Priors》中给出的商业定义,他解释说,根据他的说法,我们将看到三种主要类型的代理商出现:
  • 个人代理:帮助个人完成管理日历或分类电子邮件等任务。
  • 基于角色的代理:用于特定工作(例如编码或法律工作)的专用工具。
  • 公司代理:面向客户的人工智能,使企业能够与用户进行数字化互动。
更准确地说:
以下是三类代理商的细分,以及每种代理商的潜在商业模式:


个人代理

代理协助个人完成管理日历、分类电子邮件、安排假期和准备会议等任务。

  • 开发状态:早期阶段;由于广泛的推理要求和广泛的系统集成而复杂。
  • 挑战:任务多样性和与个人工具集成的复杂性很高。
  • 潜在的商业模式:
    1. 基于订阅的服务:向用户收取使用个人助理功能的定期费用(例如,高级功能的高级版本)。
    2. 免费增值模式:免费提供基本功能,并付费升级以实现高级集成和额外的自动化。
    3. B2B 合作伙伴关系:与生产力工具提供商(例如 Google Workspace、Microsoft 365)合作,整合和销售个性化解决方案。
    4. 许可:将该技术许可给创建专有生产力工具或设备(例如智能手表、手机)的公司。


基于角色的代理

为特定职业或任务量身定制的专业代理,例如法律助理、编码助理或医疗顾问。

  • 发展状态:在某些领域已经成熟,任务范围较窄但较深。
  • 例如:Harvey 用于法律职能,编码代理用于软件开发。
  • 优点:专注的工程和基准简化了开发。
  • 潜在的商业模式:
    1. 垂直 SaaS(软件即服务):提供特定领域的 AI 工具作为针对专业人士(例如律师、开发人员)的订阅服务。
    2. 按使用付费:根据使用情况或已完成的任务数量收费以赚取收益。
    3. 企业许可:为特定行业的大型组织提供定制代理。
    4. 市场整合:与 GitHub(针对编码代理)或 Clio(针对法律代理)等平台整合,并通过平台费用或合作伙伴关系赚钱。


公司代理商

面向客户的代理代表公司,执行产品查询、商业和客户服务等任务。

  • 开发状态:已准备好部署当前的对话式 AI 技术。
  • 愿景:到 2025 年实现数字化呈现,就像 1995 年拥有一个网站一样。
  • 潜在的商业模式:
    1. B2B SaaS :向企业提供品牌AI代理服务,根据功能和规模提供月度或年度订阅计划。
    2. 基于绩效的定价:根据客户满意度、保留率或降低的运营成本等指标向公司收费。
    3. 白标解决方案:提供可定制的 AI 代理模板,公司可以将其品牌化为自己的模板。
    4. 集成费:通过将 AI 代理集成到公司现有的 CRM、电子商务或支持系统中来赚取收入。
    5. 收入分成:对于与商业相关的互动,从 AI 代理促成的销售额中抽取一小部分。
Sierra Bret Taylor 的首席执行官也强调,我们将看到这些代理在硬件和软件层面的发展。


下一个支持 AI 代理的设备是什么?

智能手机将在初始阶段成为“人工智能的中央枢纽”

虽然随着时间的推移,人工智能可能会实现全新的硬件范式和形态,但值得记住的是,整合人工智能的第一步是在现有的智能手机生态系统中发生的。

简而言之,在未来几年里,智能手机仍将是“人工智能的中央枢纽”,直到出现新的原生形态。
不过,未来3-5年,iPhone仍将是AI初期发展的关键平台。
以 AI iPhone为例 (趋势数据如下):
在苹果最新的 iPhone 机型中,具体来说是 iPhone 16,苹果集成了被称为“ Apple Intelligence ”的先进人工智能(AI)功能(趋势数据如下):
Apple Intelligence是 Apple 开发的一套生成式 AI 功能,集成在其 iPhone、Mac 和 iPad 等产品中。
不过,该系统仍处于萌芽阶段,将增强 Siri、写作、图像创建和个人助理等功能。
它旨在通过设备上处理和私有云计算简化和加速日常任务,同时优先考虑用户隐私。
与此同时,在我们看到 AI 原生设备(例如将 AR 与它们相结合)出现之前,智能手机将是第一个被彻底改造的设备。
目前,在智能手机方面,人工智能革命正朝着超个性化的方向发展,每个参与者都发挥自己的特色:
  • 苹果利用设备内置人工智能来保护隐私,
  • 三星通过智能优化提高性能,
  • Google 通过令人惊叹的增强功能提升了摄影水平,
  • 华为添加了方便日常生活的实用工具。
每个品牌都带来独特的人工智能驱动功能,将手机变成强大的个人助理。
以下是各智能手机厂商的 AI 策略细分:
  • Apple iPhone:Apple 专注于将隐私与先进的 AI 功能相结合。借助其 Apple Intelligence 平台,iPhone 提供了用于电子邮件和文档管理的语言模型等工具以及 Image Playground 和 Genmoji 等创意功能。Apple 坚定致力于在设备上处理,最大限度地减少数据传输,吸引了注重隐私的用户。
  • 三星 Galaxy:三星 Galaxy S24 Ultra 搭载 Exynos 芯片组,通过 AI 优化的内核彰显高性能。其场景优化器相机功能可自动调整各种场景的设置,而智能性能优化可提高响应速度并延长电池寿命,使其成为重度用户的可靠选择。
  • Google Pixel:以摄影闻名,其 Tensor 芯片支持 Magic Eraser 等功能,可用于去除照片中的物体、AI 增强变焦和低光摄影。Gemini 聊天机器人增强了通信功能,提供实时字幕、转录和翻译,使 Pixel 成为摄影和通信爱好者的首选。
  • 华为 Pura 70 系列:华为的 AI 专注于实用增强。借助用于背景填充的图像扩展、用于通话质量的声音修复以及用于图像识别的升级版 Celia 助手等功能,华为提供了现实世界的 AI 解决方案,为日常便利提供了便利。


智能助手重新出现以减少屏幕时间?

正如我将在后续研究中向您展示的那样,随着 2024 年的临近,苹果、谷歌和亚马逊都在“秘密”致力于改进他们的智能助手。

这一浪潮始于十年前,当时这些大型科技公司试图主宰“语音助手”市场,但最终未能如愿。
这些助手并没有兑现承诺。以 Siri 为例,由于缺乏实用性,它最终成为了一个长期失败的产品。
然而,我们是否会通过生成式人工智能看到这些设备的复兴?
例如,智能扬声器(例如 Alexa、Siri、Google Home)和耳机可能成为日常工作流程的核心。
这些设备中的对话界面可以实现无缝、无屏幕的安排、提醒或信息检索等任务的执行。


超越智能手机的外形

然而,我们可能会在未来十年内找到新的外形。事实上,虽然智能手机仍将是大多数用户的主要计算设备,但我们与智能手机的互动方式正在发生变化。

对话式人工智能和多模式界面将无缝融入日常体验,减少我们对屏幕的依赖。


客户体验的演变

正如Sierra Bret Taylor的首席执行官所强调的那样,我们可能会在人工智能代理中看到这些有趣的趋势:

  • 从菜单到对话:
    从僵硬的菜单驱动系统到自由形式的对话代理的转变代表了客户互动的重大进步。用户可以直接用自然语言表达他们的需求,而不必通过预定义的路径(例如网站类别或电话菜单)进行导航。人工智能将立即处理并执行这些请求。
  • 代理作为数字前门:
    正如网站在 1990 年代成为公司的数字前门一样,到 2025 年,对话式 AI 代理将成为主要的互动模式。这些代理将处理客户服务查询,并最终管理与企业的所有互动,例如产品浏览、交易和售后支持。
  • 超个性化互动:
    AI 代理将提供量身定制的体验,根据用户偏好和历史记录调整其语气、内容和功能。例如,奢侈品牌的 AI 代理可能会采用更正式、更优雅的语气,而休闲零售商的 AI 代理可能会使用友好的对话语言。
  • 以客户为中心的生态系统:
    对话代理的实时性使企业能够更灵活地响应客户需求。例如,如果零售商推出新产品,AI 代理可以立即获取必要的知识并将其融入互动中——而这在传统呼叫中心需要数周才能实现。



主权人工智能

由于人工智能需要大量投资,许多国家利用自主人工智能战略来迅速赶上这场激烈的竞赛。
自主人工智能 是一个国家依靠自己的基础设施、数据、劳动力和商业网络等资源,独立开发和利用人工智能(AI)技术的能力。
这种方法允许各国控制和定制适合其需求和地区特点的人工智能解决方案,从而促进技术自给自足、国家安全和经济竞争力。

丹麦模式

以丹麦的“主权人工智能”为例,其资金来源是一个有趣的模式,其中 Ozempic 等药物的成功被用于构建大型人工智能超级计算机,以促进/加速医疗保健研究。

丹麦新型人工智能超级计算机 Gefion 由诺和诺德减肥药的成功项目资助,有望改变国家创新。
在 Nvidia 尖端 GPU 的支持下,Gefion 将加速医疗保健、生物技术和量子计算的突破,使丹麦成为推动经济和科学发展的“主权 AI”领导者。
丹麦采用了以下模式:
  • 独特的融资模式:丹麦的新型人工智能超级计算机 Gefion 的资金来自诺和诺德的减肥重磅药物 Ozempic 和 Wegovy 的利润。因此,这是第一台由制药成功案例驱动的人工智能超级计算机。
  • 强大的 AI 基础设施:Gefion 采用 Nvidia 的顶级 GPU,旨在支持丹麦医疗保健、生物技术和量子计算等领域的企业、研究人员和企业家,克服高成本和计算能力有限的典型障碍。
  • 公私合作伙伴关系:这笔1亿美元的投资来自诺和诺德基金会和丹麦出口和投资基金的合作,彰显了人工智能对丹麦国家创新的战略重要性。
  • 自主 AI 愿景:Nvidia 首席执行官黄仁勋 (Jensen Huang) 倡导“自主 AI”,将 Gefion 视为各国利用 AI 基础设施来利用国家数据作为资源并促进经济增长的典范。
  • 对药物发现的影响:诺和诺德预计 Gefion 将在药物发现和蛋白质设计方面取得重大进展,利用先进的计算能力来加速医学和科学突破。


日本模式

或者以 NVIDIA 和 SoftBank 为例,它们正在利用强大的新型超级计算机和世界上第一个人工智能驱动的 5G 电信网络改变日本的人工智能格局。

这种创新的 AI-RAN 通过将电信网络转变为智能 AI 中心、支持从自动驾驶汽车到机器人的应用以及创建安全的国家 AI 市场,创造了数十亿美元的收入。
他们正在进行以下工作:
  • AI 超级计算机:软银正在利用 NVIDIA 的 Blackwell 平台打造日本最强大的 AI 超级计算机。该项目旨在增强自主 AI 能力并支持日本各地的行业。
  • AI-RAN 突破:软银和 NVIDIA 推出了全球首个 AI 和 5G 电信网络 AI-RAN。该网络允许电信运营商通过将未使用的网络容量货币化,将基站转变为 AI 创收资产。
  • 人工智能市场:软银计划利用 NVIDIA AI Enterprise 建立一个人工智能市场,提供本地化、安全的人工智能计算,以满足国家需求。
  • 现实世界的应用:AI-RAN 支持自动驾驶汽车和机器人控制的远程支持等应用,展示了运营商级 5G 和 AI 性能。
  • 收入潜力:NVIDIA 和 SoftBank 预计 AI-RAN 服务器的投资回报率高达 219%,并且在 AI-RAN 基础设施上每投资 1 美元资本支出,就能获得 5 美元的 AI 收入。


阿联酋模式

或者采取阿联酋模式,重点关注:

  • 人工智能的“监管沙盒” :OpenAI首席执行官萨姆·奥特曼表示,阿联酋的定位是人工智能技术的全球试验台。
  • 微软 15 亿美元投资:资助阿联酋领先的人工智能公司 G42,展示了美国与阿联酋的重要合作。
  • 全球人工智能基础设施投资合作伙伴关系:涉及微软、贝莱德、穆巴达拉等公司,以推动人工智能相关增长。
  • 先进技术重点:阿联酋和美国的合作强调人工智能是经济创新的关键驱动力。
  • 经济调整中的人工智能:人工智能对于阿联酋从传统行业(石油和国防)向面向未来的行业转变至关重要。
  • 人工智能发展方面的战略伙伴关系:加强了阿联酋与美国在人工智能和新兴技术领域紧密结合的承诺。


英国模式

相反,其他国家正试图通过监管来控制人工智能的发展。例如,英国推出了一个新的人工智能安全平台,旨在引领全球人工智能风险评估。

该计划为负责任地使用人工智能提供资源,支持企业进行偏见检查和影响评估。通过建立合作伙伴关系和实现增长愿景,英国致力于成为值得信赖的人工智能保障中心。
简而言之,我们可以从这些主权人工智能的潜在模型中学习:
  • 丹麦:独特地利用制药成功(Ozempic 和 Wegovy)的利润来资助人工智能基础设施,反映了从行业收益中直接再投资的策略。
  • 日本:专注于将电信基础设施(AI-RAN)货币化,将网络资产转化为收入流,展示利用现有行业进行人工智能融资的创新。
  • 阿联酋:吸引外资(微软、贝莱德)并强调合作伙伴关系以整合全球专业知识,代表了国际合作的典范。
  • 英国:政府主导的资金投入强调监管安全和合作伙伴关系,展现出对人工智能发展的谨慎和风险意识态度。


人工智能机器人

人工智能机器人技术是人工智能(AI)与机器人技术相结合的领域。
它通过集成用于对象识别、导航和决策任务的人工智能算法,使机器人能够自主执行复杂的任务。
这种集成增强了机器人的能力,使它们能够模仿人类的智能并更有效地适应不断变化的环境。
人工智能机器人对于自动驾驶汽车、精密制造和先进的家庭自动化系统等应用至关重要。
但这一次却截然不同,原因很简单:我们也正在进入机器人技术的通用革命!

通过世界建模进入通用机器人领域

世界建模是人工智能下一步进化的关键垫脚石。

通用机器人技术的下一个前沿取决于“世界模型”或基于人工智能的环境地图/表示的发展,这将使机器人能够预测交互并有效地导航复杂、动态的设置。
所有主要的大型科技公司都对此进行大力投资。
例如,NVIDIA 刚刚宣布了世界建模方面的新进展,这将改变机器人理解和与周围环境互动的方式。
现在,机器人可以通过构建详细的人工智能环境表示来更好地预测和适应现实世界的场景。
这一突破使机器人能够以更高的意识和精度处理任务,从而实现各个行业更加智能、更像人性的自动化。
因此,物流、医疗保健和零售等行业将受益于功能更强大、更能适应多样化复杂环境的机器人。

这为什么重要?

增强环境理解:机器人可以构建人工智能驱动的周围环境表示,从而能够预测物体和环境将如何响应它们的行为。

  • 适应性:世界建模使机器人能够更好地导航并适应多样化、动态的环境,使其适合复杂的现实世界应用。
  • 类似人类的精确度:通过“理解”周围环境,机器人可以实现更精确、更自然的动作,使其更接近类似人类的交互。
  • 广泛的行业影响:这一进步具有改变物流、医疗保健、零售等领域的潜力,因为机器人可以更准确地处理更广泛的任务。
  • 可扩展自动化:世界建模支持更智能、高效的自动化,为执行任务并实时学习和调整的机器人铺平了道路。
另一个方面是灵巧性。

为何灵巧性已成为通用机器人的“圣杯”?

我们人类认为我们的灵活性是理所当然的,然而,在现阶段,这是机器人技术中最困难的挑战之一。如果解决这个问题,它可以创造下一个万亿美元的产业,因为它将为通用机器人技术打开空间。

确实,机器人的灵活性具有挑战性,因为它要求机器人在不可预测的环境中处理各种精密的物体——这是我们人类本能地做的事情。
要实现这一点,需要精密的传感器、机器学习和实时适应性,以避免损坏物品或任务失败。与重复的受控任务不同,灵活性涉及在动态环境中适应独特的形状、纹理和重量。
这种复杂性使得机器人的灵巧性成为机器人技术的“圣杯”,因为它对于自动化分类、包装甚至医疗保健等任务至关重要,而这些任务中类似人类的精确度和适应性至关重要。
解决这个问题可以解锁各个行业的自动化新水平,重塑劳动力和效率。
这就是为什么 Physical Intelligence 这样的公司获得了杰夫·贝佐斯 (Jeff Bezos) 领投的 4 亿美元融资,试图通过让机器人能够以类似人类的精度处理物体来彻底改变机器人技术。
其突破性的 pi-zero 软件使机器人能够自主适应和执行复杂任务,有望对物流、医疗保健等领域带来变革性影响,同时也会增加就业影响。
这表明该领域发展势头强劲:
  • 精密机器人投资:在杰夫·贝佐斯等人的支持下,Physical Intelligence 获得了 4 亿美元用于提高机器人灵活性,旨在让机器人拥有类似人类的触感。这一突破可能会重塑物流、零售和其他行业,让机器人能够处理各种物体。
  • Pi-zero软件:这家初创公司的新控制软件 pi-zero 利用机器学习使机器人能够执行复杂的任务,例如折叠衣物、装袋杂货,甚至从烤面包机中取出面包。它允许机器人实时调整,增强其在不可预测的环境中适应性。
  • 更广泛的行业影响:这项创新解决了企业在劳动力短缺(尤其是仓储和零售业)的情况下寻求解决方案的关键自动化挑战。该技术还具有农业、医疗保健和酒店业的潜力,在这些行业中,机器人可以处理劳动密集型或支持性任务,从而有可能减少人工工作。
  • 人工智能机器人行业的发展势头:亚马逊、沃尔玛和软银正在部署智能机器人来处理订单执行、库存和客户服务任务。这些机器人可以执行重复性或劳动密集型任务,让人类员工专注于更高级别的任务。



空间智能是下一个前沿

通过世界建模,空间智能正在取得令人瞩目的飞跃。

波士顿动力公司最新的 Atlas 机器人在这段视频中展示了其自主能力。它使用自适应传感器移动汽车零部件,无需远程操作。Atlas 可进行实时调整,主要针对汽车工厂的工作。
波士顿动力公司的 Atlas 机器人令人印象深刻,因为它在复杂的任务中展示了真正的自主性——无需人工指导即可挑选和移动汽车零件。
它使用先进的传感器和实时调整来适应环境变化,例如物体位置的变化或动作失败。
这种独立性水平,尤其是在动态工厂环境中,为机器人技术设定了很高的标准,因为大多数竞争对手仍然依赖预先编程或远程控制的操作。
Atlas 高效、强大的运动节省了时间,展示了其以速度和适应性改变工业自动化的潜力。
但当然,需要提醒的是,这只是一个演示!
正如我目前所展示的,通用机器人技术将在未来十年实现令人难以置信的发展。
然而,这是一个关键的提醒,因为仍然存在许多限制,我们还不知道我们处于这些世界模型的哪个发展阶段!
麻省理工学院和哈佛大学进行的一项有趣研究   确实对法学硕士在世界建模方面进行了“压力测试”。
麻省理工学院和哈佛大学的研究人员由此发现,大型语言模型 (LLM) 缺乏对世界的连贯理解,仅在设定的参数内表现良好。
他们使用新的指标发现,人工智能模型可以完成任务,但在条件发生变化时就会失败,这凸显了对适应性、基于规则的世界理解模型的需求。
根据研究:
  • 研究结果:麻省理工学院和哈佛大学的研究人员发现,大型语言模型(LLM)可以高精度地执行诸如提供行车路线等任务,但缺乏对底层世界结构的真正理解。当面临诸如街道封闭等变化时,模型性能会大幅下降。
  • 世界模型的新指标:该团队开发了两个指标——序列区分和序列压缩——来测试人工智能模型是否具有连贯的“世界模型”。这些指标有助于评估模型在结构化环境中理解不同状态之间差异和相似之处的能力。
  • 测试真实世界场景:通过应用这些指标,研究人员发现,即使是高性能的人工智能模型在导航纽约市时也会生成有缺陷的内部地图,其中包含虚构的街道和错误的方向。
  • 启示:这项研究表明,当前的人工智能模型可能在特定情况下表现良好,但如果环境发生变化,就会失败。对于现实世界的人工智能应用,模型需要更强大的、基于规则的理解。
  • 未来方向:研究人员旨在在更多样化的问题(包括部分已知的规则集)上测试这些指标,以构建具有准确、适应性强的世界模型的人工智能,这对于科学和现实世界的任务可能很有价值。
因此我们要注意...
回顾一下:
  • AI机器人集成:将AI与机器人相结合,用于物流和制造等行业的物体识别、导航和决策等任务。
  • 通用机器人:专注于处理不同任务并能适应各个行业的机器人。
  • 世界建模:使机器人能够创建人工智能的环境地图,以便在动态设置中进行更好的预测和导航。
  • NVIDIA 进步:开发人工智能驱动的世界模型,以增强机器人的意识和精确度。
  • 波士顿动力公司 Atlas :展示了具有移动汽车零部件实时适应能力的自主工厂工作。
  • 机器人的灵活性:一项关键挑战,要求机器人在不可预测的环境中处理各种物体。
  • 物理智能(pi-zero):获得 4 亿美元资助的软件,可使机器人像人类一样灵活地完成包装和医疗援助等任务。
  • 麻省理工学院和哈佛大学的研究:发现人工智能难以应对现实世界的动态变化,凸显了对强大世界的理解方面的差距。
  • 空间智能:增强机器人在需要精确环境感知和适应的任务中的能力。
  • 广泛的行业影响:在物流、医疗保健、零售和农业领域的应用,解决劳动力短缺并提高效率。
与此同时,随着 2024 年的结束,我们将看到“人形机器人”数量的激增。
人形机器人的   设计形状和功能与人体相似,通常具有躯干、头部、手臂和腿。
这些机器人是为了模仿人类的动作和互动而制造的,使它们能够执行需要类似人类形态和动作的任务,例如行走、说话和与环境互动。
截至 2024 年,该行业已经拥有大量致力于解决这一问题的公司!
以下是我们目前的情况,其中列出了人形机器人领域的顶尖企业:
  1. HD Atlas (波士顿动力公司)
  2. NEO (1X,挪威)
  3. GR-1 (新加坡 Fourier 工厂)
  4. 图 01 (美国)
  5. 菲尼克斯(加拿大 Sanctuary AI)
  6. Apollo (Apptronik,美国)
  7. Digit (Agility,美国)
  8. Atlas (波士顿动力公司,美国)
  9. H1 (Unitree,中国)
  10. Optimus Gen 2 (特斯拉,美国)
更准确地说:
  • 波士顿动力公司的 Atlas :专为实际应用而设计的高度动态、全电动人形机器人。Atlas 具有先进的控制系统和最先进的硬件,使其能够灵活而精确地执行复杂的动作和任务。
  • Salvius :一个开源人形机器人项目,专注于打造一个多功能研发平台。Salvius 采用版本化工程规范构建,以确保每个组件在集成之前都满足最低功能标准。
  • Agility Robotics 的 Digit :双足人形机器人,具有独特的腿部设计,可实现动态运动。Digit 拥有灵活的四肢和装满传感器和计算机的躯干,使其能够在复杂的环境中导航并在仓库和其他环境中执行任务。
  • Figure AI 的 Figure 02 :Figure AI 开发的第二代人形机器人,旨在为人工智能和机器人技术树立新标准。Figure 02 将类似人类的灵巧性与尖端人工智能相结合,以支持制造、物流、仓储和零售等各个行业。
  • HRP-4 :作为 HRP-2 和 HRP-3 的后继者而开发的人形机器人,专注于更轻、更强大的设计。HRP-4 旨在改善人类环境中的操控和导航,使其适用于各种研究和实际应用。
  • 特斯拉的 Optimus :特斯拉设计的人形机器人,用于为人类执行不安全、重复或无聊的任务。Optimus 旨在利用特斯拉在人工智能和机器人方面的专业知识来打造一个多功能且能力强大的机器人助手。
  • Unitree Robotics 的 H1 :Unitree 的首款通用人形机器人 H1 是一款能够奔跑的全尺寸双足机器人。H1 代表人形机器人技术向前迈出了重要一步,旨在利用其先进的移动性和适应性融入各种应用。
  • Roboy :苏黎世大学人工智能实验室开发的先进人形机器人。Roboy 旨在模拟人类的动作和互动,应用于软机器人和人机互动的研究和开发。
  • RH5 :专为高动态性能而设计的串并联混合人形机器人。RH5 利用先进的控制系统和轨迹优化技术,可以执行具有巨大有效载荷的重型动态任务。
  • NimbRo-OP2X :一款价格实惠、成人尺寸、3D 打印的开源人形机器人,专为研究目的而开发。NimbRo-OP2X 旨在降低人形机器人研究的准入门槛,为各种应用和研究提供灵活的平台。
因此,人形机器人的发展正在迅速进步,投入了大量资金,技术也取得了进步。
这些机器人有可能通过自动化任务、解决劳动力短缺和提高效率作为初始用例来改变行业!


人工智能智能家居

人工智能 (AI) 智能家居是指配备互联网连接设备的住宅,这些设备使用机器学习和人工智能来自动化和控制房屋的各个方面。
这些设备可以了解居民的习惯和喜好,提供个性化、高效的服务。
例子包括根据用户行为调整照明、温度和安全设置的语音控制系统,以及优化能源使用并通过数据分析提供主动帮助的设备。
到 2024 年底,苹果可能会发布一款 AI 智能墙设备。
由 Apple Intelligence 提供支持,提供以 Siri 为中心的功能和无缝智能家居管理,并配备传感器,包括可根据用户距离调整显示信息的接近传感器。
这为什么重要?
当苹果试图通过推出新设备进入某个市场利基时,它会找到一个能够让其创建新的可扩展市场的“滩头阵地”。
而且,该公司在由谷歌 (Google) 凭借 Nest 设备主导的市场中也实现了这一目标。


自动驾驶汽车

自动驾驶汽车 配备了先进的技术,包括传感器、摄像头、雷达和人工智能,使其能够在极少的人工输入甚至无需人工输入的情况下运行。
这些车辆无需驾驶员即可在道路、交通和环境中导航,使用来自各种传感器的数据来做出决策并控制车辆的行为。
自动驾驶汽车旨在缓解交通拥堵、降低事故率,并提高各类人群的出行能力。然而,全自动驾驶汽车仍处于测试阶段,尚未广泛普及。
我们正处在一个转折点。
Waymo 是 Google(现 Alphabet)旗下的一颗隐藏的宝石。
这家自动驾驶汽车公司是谷歌对未来的另一项押注,刚刚融资 56 亿美元,并达到了每周 15 万次付费自动驾驶旅行的关键里程碑!
现在,Waymo 正利用 Google 的 Gemini 基础设施通过其端到端自动驾驶多模式模型 (EMMA) 进入完全自主 AI 领域。
像 Waymo 的 Gemini 驱动的 EMMA 这样的法学硕士可能会改变自动驾驶汽车的游戏规则,通过提供超越标准驾驶数据的整体“世界知识”基础,使汽车能够理解和预测复杂的场景。
简而言之,LLM 使用先进的推理并适应意外环境,使其在现实条件下更加灵活和有效。
从模块化系统到端到端模型的转变可以减少累积错误并改善决策,推动自动驾驶更接近无缝、安全的大规模部署。
当然,这还只是处于萌芽阶段,几年后我们就会知道它的真正潜力。
与此同时,Waymo 如何解决自动驾驶汽车问题?
  • EMMA 介绍:Waymo 推出了“自动驾驶端到端多模式模型”(EMMA),旨在通过处理传感器数据来预测未来轨迹并做出复杂的驾驶决策,从而帮助其机器人出租车导航。
  • 利用 Google 的 MLLM Gemini:Waymo 的模型以 Google 的多模式大型语言模型 (MLLM) Gemini 为基础,标志着在现实世界驾驶应用中使用先进 AI 的重要举措,有可能将 MLLM 的用途扩展到聊天机器人和数字助理之外。
  • 端到端模型优势:与分离任务(例如感知、映射、预测)的传统模块化系统不同,EMMA 的端到端模型集成了这些功能,可以减少错误并提高对新颖或意外驾驶环境的适应性。
  • 卓越的推理能力:EMMA 采用“思路链推理”,模仿人类的逐步逻辑处理,增强决策能力,特别是在施工区或动物穿越等复杂道路情况下。
  • 局限性和挑战:EMMA 目前在处理 3D 输入(如激光雷达和雷达)和处理大量图像帧方面面临局限性。此外,像 Gemini 这样的 MLLM 在高风险条件下可能会面临可靠性问题,这对实际部署构成风险。
  • 未来的研究和注意事项:Waymo 承认 EMMA 面临的挑战,并强调在大规模部署之前需要继续研究以缓解这些问题。
此外,LLM 通过在自动驾驶基础上添加推理能力从根本上改变了自动驾驶,以便更好地调整其在现实世界中的行为以及扭转/审核错误的能力。
Waymo 的全新基础模型将先进的人工智能与现实世界的驾驶专业知识相结合,集成大型语言和视觉语言模型,以提升自动驾驶汽车的智能。
这项创新使 Waymo Driver 能够解读复杂场景、预测行为并实时适应,为自动驾驶的安全性和可靠性树立了新的标准。
如何?
  • 任务驱动的人工智能:Waymo 的目标是成为“世界上最值得信赖的驾驶员”,解决复杂的人工智能挑战,创造安全、可靠的自动驾驶汽车 (AV) 体验。
  • 先进的技术堆栈:Waymo Driver 使用先进的传感器套件(激光雷达、雷达、摄像头)和实时 AI 来解读动态环境并导航复杂场景。
  • 尖端 AI 模型:Waymo 的基础模型将驾驶数据与大型语言和视觉语言模型相结合,增强场景解释、行为预测和路线规划。
  • 模拟和快速迭代:Waymo 的高性能基础设施和闭环模拟可实现快速迭代,测试真实的驾驶场景以完善模型功能。
  • 规模安全:Waymo 为数十万乘客提供服务,在严格的评估方法的支持下,其安全驱动的 AI 随着每行驶一英里而不断改进。
  • 致力于未来创新:Waymo 看到了未来巨大的潜力,鼓励人工智能人才应对突破性的自动驾驶、机器人技术和具体人工智能挑战。
我们真的到了可以扩大规模的阶段了吗?也许吧……

人工智能音乐

AI音乐是指利用人工智能算法创作或辅助创作的音乐作品、制作或表演。
这些算法分析大量的音乐数据集,学习模式,并生成原创作品或模仿特定风格,从而将音乐制作的各个方面从作曲到表演转变。
AI 音乐工具可协助完成混音、母带制作和声音设计等任务,同时增强听众的音乐可访问性和个性化。
最近有消息称,YouTube 开始尝试在其短片中推出 AI 音乐功能:
  • AI 音乐扩展:“梦想曲目”实验现在包括针对选定曲目的AI 混音选项,可实现定制的 30 秒配乐。
  • Shorts 中的直播提醒:预定的直播的自动提醒现在会在直播开始前 24 小时出现在 Shorts 动态中。
  • Shorts 转换更新:10 月 15 日后上传的 3 分钟以下视频将被归类为Shorts 。全平台转换将于下个月完成。
它具有什么潜力?对音乐产业有何影响?
  • 增加音乐发现率:流行歌曲的AI 混音让创作者能够以不同的流派和情绪重新构想曲目,从而增加原创艺术家的曝光率。曲目变得具有互动性,鼓励听众发挥创意,并有可能推动流媒体和购买指标。
  • 艺术家的新收入来源:归因确保艺术家保留对其作品的 AI 生成变体的认可和版税。它还为授权 AI 生成的广告、内容和用户生成的视频的混音提供了机会。
  • 创作民主化:人工智能工具使独立创作者能够获得专业的混音能力,与主流唱片公司同台竞技。这可能导致微流派和实验性混音的爆发,突破创意界限。
  • 潜在挑战:版权复杂性:确定人工智能生成内容的所有权和版税可能需要新的法律框架。由于无限混音会削弱原创曲目的独特性,因此也存在过度饱和的风险。
YouTube 赚了多少钱?
  • 增强参与度:
    • AI 音乐混音使 Shorts 更具活力和吸引力,从而提高观众保留率并增加广告展示次数。
    • Shorts 中的直播提醒功能无缝连接创作者的更广泛的内容产品,增强跨平台互动。
  • 新的广告机会:
    • 广告定制配乐:品牌可以委托人工智能生成适合其广告活动的混音,使广告与目标受众更加紧密地结合起来。
    • 互动广告:品牌可能会将 AI 混音功能整合到他们的广告活动中,允许用户自定义与广告相关的音乐曲目。
  • 改进创作者货币化:
    • 利用人工智能音乐工具的创作者可能会吸引更多的受众,从而提高中贴片广告和前贴片广告的有效性。
    • Shorts 与直播的整合为广告商提供了一种双管齐下的方法:同时瞄准短视频和直播内容的受众。
  • 更广泛的音乐授权生态系统:
    • 由于 YouTube 能够确保其生态系统内的正确归属和版税处理,因此 AI 混音可以简化广告商的许可流程。


AI视频生成

AI 视频生成 已成为当前 AI 范式的主流。事实上,标记一切的能力也使图像和视频生成方面取得了令人瞩目的突破。
人工智能视频生成中的标记化涉及将视频数据分解为模型可以处理的更小的结构化组件(标记)。
这类似于大型语言模型 (LLM) 处理文本的方式,但视频生成中的标记代表视觉、时间以及有时的音频元素。
因此,至关重要的是要了解人工智能中的视频生成本质上是一个多模式问题,需要集成和同步文本、音频和视频标记以创建连贯、高质量的输出。

AI 视频生成:好莱坞商业用例

例如,最近,Meta 发布了一款能够制作真实电影和音乐的 Gen AI 视频生成器,提示是:“一只毛茸茸的考拉熊在冲浪。它有灰白色的皮毛和圆圆的鼻子。冲浪板是黄色的。考拉熊用爪子抓住冲浪板。考拉熊的面部表情很专注。阳光灿烂。”

这是 Meta 如何通过其现在的 AI 模型将多种数据类型组合为一个整体的完美示例。
它展示了 Meta 如何做到了:
  • 根据简短的文字提示制作逼真的视频,将富有想象力的场景转化为视觉内容(例如,冲浪的考拉或穿着维多利亚时代服装的企鹅)
  • 编辑现有视频,添加背景,修改服装,同时保留原始内容。
  • 根据图像生成视频,并将人物照片整合到AI创作的电影中。
最重要的是,在音频方面:
  • 配备13B 参数音频生成器,可根据简单的文本输入(例如“沙沙作响的树叶”)添加声音效果和配乐。
  • 目前音频生成时间限制为45 秒,但能够将声音与视觉效果同步。
有趣的是,Meta 瞄准好莱坞和创作者,融合了专业和休闲用例。
这就是为什么 Meta 在开发过程中与电影制作人和视频制作人合作的原因。
然而,尽管人工智能视频生成现阶段进展迅速,但值得记住的是,由于成本高、生成时间长,它尚未供公众使用。
此外,所有这些人工智能图像和视频生成器的一个关键问题是对训练数据源的理解有限,这引发了争议。
对于 Meta 的案例,该模型很可能已经针对来自 Meta 平台(例如 Facebook 和 Meta Ray-Ban 智能眼镜)的用户生成内容和照片进行了训练。
Meta 并不是唯一一家在为创作者提供 AI 视频生成方面取得快速进步的公司。
事实上,它与其他 AI 视频工具(如RunwayML 的 Gen 3和OpenAI 的 Sora)竞争,但提供了视频编辑和集成音频等附加功能。
所有这些参与者都将创意人员作为这些即将推出的平台的主要用户。

AI 视频生成:生产力商业用例
谷歌刚刚推出了另一个重要的 AI 视频生成角度,其 Google Vids 可供 Workspace Labs 和 Gemini Alpha 用户使用,预计年底全面上市。
主要特点包括:
  • 人工智能辅助故事板:利用 Google 的 Gemini 技术根据用户提示和文件生成包含建议场景、库存媒体和背景音乐的可编辑大纲。
  • 产品内录音室:用户可以使用内置提词器录制自己、自己的屏幕或音频,以帮助自信地传递信息。
  • 广泛的内容库:提供数百万高质量、免版税的媒体资产,包括图像和音乐,以丰富视频内容。
  • 自定义选项:提供各种可适应的模板、动画、过渡和照片效果,以个性化和增强视频。
  • 无缝协作:可在 Google Workspace 环境内轻松共享和协作编辑,类似于文档、表格和幻灯片。
生产力用例也具有巨大的潜力!


AI 视频生成的主要亮点

技术基础

  • 标记化:将视频分解为更小的组件(标记),例如视觉、时间和音频元素,从而使 AI 能够处理多模式数据。

  • 多模式集成:文本、音频和视频标记的同步对于创建连贯、高质量的输出至关重要。

商业用例

好莱坞和创意产业

  • Meta 的 Gen AI 视频生成器:
  • 根据文本提示生成逼真的视频(例如,冲浪的考拉)。
  • 支持视频编辑、添加背景和修改元素,同时保留原始内容。
  • 集成音频生成(13B 参数模型),将声音和音轨与视觉效果同步。
  • 与电影制作人和视频制作人合作,针对专业和业余创作者。
  • 限制:
    • 成本高,生成时间长。
    • 使用用户生成内容的训练数据可能引起争议。

竞争对手:
  • RunwayML 的 Gen 3和OpenAI 的 Sora也在这个领域取得了进展,它们以创作者为目标,但功能和重点领域各不相同。


Google Vids(生产力用例):

  • 人工智能辅助故事板:根据用户提示生成可编辑的大纲、场景和音乐。

  • 产品内录音室:具有提词器辅助录音功能,可实现自信的讲稿。
  • 广泛的内容库:访问数百万免版税媒体资产。
  • 定制:可适应的模板、动画和效果,实现个性化。
  • 协作:在 Google Workspace 内无缝共享和编辑。


限制和挑战

  • 访问限制:由于成本和处理限制,许多工具(例如 Meta 的视频生成器)尚未公开提供。

  • 道德问题:训练数据源的透明度有限,引发潜在的法律和道德问题。


行业影响

  • 目标受众:主要是寻求高质量、定制内容的创作者、电影制作人和企业。

  • 未来潜力:快速发展的工具可能会使视频创作变得民主化,从而影响娱乐、营销和教育等行业。


人工智能广告

随着 2024 年即将结束,谷歌、Meta 和 TikTok 等广告领域顶级大型科技公司的财务状况又出现了另一个关键结论:附加在其广告平台上的人工智能可以在短期内带来巨大的收入增长,这对这些公司来说是唾手可得的果实!


Alphabet 的人工智能广告潜力

根据其最新的 2024 年第三季度财务报告,到 2025 年,Alphabet 将进一步加强其 AI 搜索功能中的广告整合。

事实上,根据最新的收益报告,Alphabet 的人工智能进步正在重塑搜索,将广告整合到新的人工智能摘要中,以增强货币化。
2025 年资本支出的增加凸显了 Alphabet 对人工智能的承诺,因为它正在实现超越传统广告收入的多元化。
Alphabet(谷歌)如何将人工智能融入其广告平台:
  • 人工智能投资推动增长:Alphabet 的人工智能投资推动了其搜索和云业务的发展,其中云收入增长 35%,为八个季度以来的最快增长速度。广告收入增加:YouTube 广告销售强劲,部分原因是美国大选支出,Alphabet 的整体广告收入达到 658.5 亿美元。
  • 计划增加资本支出:首席财务官 Anat Ashkenazi 宣布,2025 年资本支出将增加,这反映了 Alphabet 对 AI 和云计算扩展的承诺。
  • 云计算作为收入多元化因素:云计算正在逐渐抵消 Alphabet 广告业务增长放缓的影响,在亚马逊和 TikTok 日益激烈的竞争中帮助实现收入来源多元化。
  • 新的人工智能广告功能:谷歌正在将广告整合到人工智能搜索摘要中,通过使用生成人工智能总结内容来增强用户体验和货币化。
此外,谷歌还将人工智能融入其分析平台。
例如,Google Looker 的新 GenAI 驱动代理通过主动洞察、自动分析和可信输出来改变数据分析。
Looker 的代理 AI 利用 LookML 实现可靠的、组织范围的数据一致性和 Google 的 Gemini 模型,旨在使所有用户(超越专家)能够无缝地访问和采取有价值的见解,重新定义商业智能。
谷歌如何将人工智能融入其 Looker 架构?
  • 用于主动分析的 Agentic AI:Looker 的 GenAI 驱动的代理可以独立执行复杂的任务,例如建议后续问题、识别数据异常和推荐指标。
  • 可信数据的语义层:Looker 的代理利用语义层 LookML 来确保 AI 输出在整个组织内一致且值得信赖,从而使其在竞争对手中脱颖而出。
  • 对话分析:Looker 的旗舰功能使用户能够自信地询问有关其数据的问题,这要归功于基于可靠数据基础的 AI 响应。
  • 与 Google Gemini 集成:Looker 的 GenAI 功能建立在 Google 的 Gemini 模型之上,增强了大型上下文窗口等功能,允许更深入的洞察和无缝集成。
  • BI 的未来愿景:Looker 旨在通过增强 AI 驱动的分析并注重可靠性和复杂的推理,让所有员工(而不仅仅是专家)都能更轻松地使用 BI 工具并获得洞察力。
那么 Meta 怎么样?


Meta AI 广告策略

将 AI 整合到 Meta Ads 平台对其资产负债表和数字广告生态系统有何影响?

Meta 的 2024 年第三季度广告收入飙升 19% 至 398.9 亿美元,这得益于广告展示次数增长 7% 和广告价格上涨 11%。
首席执行官马克·扎克伯格将这种增长归功于人工智能的进步,它提高了广告的针对性和相关性,从而推动广告商因回报增加而投入更多资金。
简而言之,明年值得密切关注的一个关键趋势是:
  • 主要趋势:人工智能推动的定位和定价增强推动广告收入增加。
  • 广告收入增长:广告收入同比增长 19%,2024 年第三季度达到 398.9 亿美元。
  • 广告展示次数激增:广告展示次数增加了 7%,表明 Meta 平台的参与度更高。
  • 更好的定位推动广告价格上涨:每个广告的平均价格上涨了 11%,反映了更好的货币化和定位。
  • 人工智能的作用:首席执行官马克·扎克伯格强调,人工智能的进步增强了广告的相关性和投放能力,从而促进了广告收入的增加。
简而言之,谷歌和 Meta 只需将 AI 作为其广告平台的附加层进行整合,就可以在未来 2-3 年内增加数千亿美元的市值。
这一点很明显,因为这些公司都在其广告平台上押注人工智能。
而且他们并不孤单……


TikTok AI广告策略

TikTok 还推出了一套工具,以在其广告生态系统中实现人工智能。

这些人工智能驱动的解决方案包括 TikTok Symphony Creative Studio 等工具,它可以以最少的用户输入生成适用于 TikTok 的视频,还有 Creative Assistant,它可以提供数据驱动的建议以提高广告系列效果。
人工智能工具可帮助广告商简化广告创建和定位流程,提高他们在 TikTok 上的营销活动的有效性和效率。
TikTok 的Symphony Creative Studio现已向所有 TikTok for Business 用户开放。
其特点包括:
  • AI 生成的视频:用户可以输入信息、资产或 URL 来使用授权媒体创建视频。
  • 人工智能头像:
    • 使用带有脚本的库存或自定义头像来生成视频。
    • 品牌可以上传真实人物的视频来创建代表品牌 IP、代言人或创作者的自定义头像。
  • 视频翻译配音:支持内容多语言适配。
  • 自动生成的视频:基于广告商过去在 TikTok 上的活动。


人工智能在广告领域的重点

Alphabet(谷歌)AI广告策略

  • 人工智能增强搜索广告:将广告集成到人工智能搜索摘要中,以实现更好的盈利。

  • 创纪录的广告收入:受 YouTube 和选举支出的推动,2024 年第三季度的广告收入达到 658.5 亿美元。
  • 云收入增长:云收入增长35%,收入来源多样化。
  • Looker Analytics 升级:借助 LookML 和 Google Gemini 提供人工智能洞察力,实现可靠的商业智能。


Meta AI 广告策略

  • 广告收入激增:2024 年第三季度广告收入增长 19% 至 398.9 亿美元。

  • 提高广告印象:由于人工智能增强的参与度,广告印象增加了 7%。
  • 更高的广告定价:由于定位更精准,广告价格上涨 11%。
  • 人工智能驱动的投资回报率提升:增强广告相关性和投放效果,增加广告商支出。


TikTok AI广告策略

  • Symphony Creative Studio :由人工智能生成的 TikTok 视频,广告商只需付出极少的投入。

  • 创意助手:以数据为驱动的建议,以优化广告活动效果。
  • 视频本地化:多语言翻译和配音工具,覆盖全球。
  • 自动生成的广告活动:根据广告商的活动量身定制的基于人工智能的建议。


人工智能硬件的形态

正如我在上面的研究中所强调的那样,智能手机(主要是 iPhone)将真正成为第一波大规模采用的第一个“AI 中心”。

然而,随着时间的推移,我们会发现人工智能原生的新形态。
其中一些将涉及将其制成随身携带的屏幕(AR 眼镜)或消失的屏幕,使事情在后台发生(脑机接口),或者更好的是,环境智能可能成为一个很好的替代方案。
然而事实是,这似乎是 AR 眼镜终于变得可行的十年。
然而,尽管这可能是 AR 眼镜的十年,但正如我将向您展示的那样,在我们获得更激进的东西(如脑机接口)之前,它们可能只是一种过渡形式。或者可能是其他东西,如 Ambient AI,完全不需要佩戴接口。
我将谈及它们两者...

AR 眼镜

 AR 眼镜 是一种可穿戴设备,它采用了增强现实技术,可将数字内容叠加到用户的现实世界视图上。它们通常具有内置显示器、传感器和摄像头,可通过数字信息增强现实效果。
AR 眼镜并不是什么新鲜事物。谷歌早在 2012 年就推出了第一款 AR 眼镜!
这最终是一次巨大的失败。
关于它的文章不计其数,讨论了时机不佳、成本、奇怪的界面以及其他因素如何导致了它的失败。
然而,AR/VR 生态系统已经爆炸式增长。
Snapchat 等该领域的顶尖企业纷纷推出新款眼镜。
Meta 正在推出一项令人印象深刻的概念,名为 Meta Orion。
那么苹果怎么样?
由于 Apple 的 Vision Pro 无法扩展,该公司正在迅速改变方向,以使其 AR 努力发挥作用。
事实上,苹果正在通过一项代号为“Atlas”的新内部研究探索智能眼镜的潜力,旨在收集员工对现有产品的反馈。
该计划由苹果产品系统质量团队牵头,表明苹果可能进入目前由 Meta 主导的智能眼镜领域。
通过计划更多的焦点小组,苹果正在评估如何在这个新兴的可穿戴技术领域增强和差异化其产品。
简而言之:
  • 进军 AR/VR 可穿戴设备:苹果的“Atlas”项目表明其对 AR/VR 可穿戴设备市场的兴趣,特别是智能眼镜,而 Meta 目前在该领域处于领先地位。
  • 内部研究:该计划涉及收集苹果员工对现有智能眼镜的反馈,帮助苹果了解用户的需求和偏好。
  • 关注产品质量:该研究由产品系统质量团队领导,强调了苹果对高硬件标准和无缝功能的重视。
  • 生态系统整合的潜力:苹果可能旨在制造能够与其生态系统顺利整合的智能眼镜,创造与其他苹果产品相关的独特用户体验。
  • 进入成熟市场的策略:与之前进军 MP3 播放器、智能手机和智能手表领域类似,苹果可能需要时间来改进其方法并避免当前智能眼镜中出现的陷阱。
  • 竞争优势:苹果的潜在进入可能会挑战 Meta 在该类别的主导地位,带来新的竞争,并可能对性能和设计提出更高的期望。


AR 眼镜的主要亮点

  • AR 眼镜使用内置显示器、传感器和摄像头,将数字内容叠加到现实世界视图上。

  • 谷歌眼镜的遗产:它于 2012 年推出,但由于成本高、功能有限和时机不佳而失败。
  • Snapchat Spectacles :专注于社交媒体的 AR 功能,增强沉浸式内容创作。
  • Meta Orion :具有先进 AR 功能的概念眼镜,旨在重新定义 AR 体验。
  • 苹果的“Atlas”项目:
  • 收集内部反馈以完善未来的 AR 智能眼镜。
  • 优先考虑高硬件标准和无缝生态系统集成。
  • 旨在挑战 Meta 在 AR 可穿戴设备领域的主导地位。
  • 爆炸式的市场增长:AR/VR 的应用在各个行业和消费者应用领域迅速扩展。
  • 挑战:成本高、用例有限以及激烈的竞争阻碍了大规模采用。
  • 未来潜力:AR 眼镜可能成为一种变革性的可穿戴技术,融合物理和数字现实。


脑机

脑机接口(BCI)是一种检测和分析脑神经信号的系统,它将信号转换成命令来控制计算机、机械肢体或假肢等外部设备。
这项技术使用户能够仅通过思想就与机器进行交流和交互,通常使用传感器捕获来自大脑神经元的电生理信号。
虽然这现在看起来像是科幻小说,但其中的进展令人印象深刻。
虽然最初的用例涉及支持患有特定疾病的人,但这可能会扩展并成为未来 10-20 年内的关键界面。
主要问题是这种外形尺寸是否具有可扩展性。
然而,在未来 10 到 20 年内,也许还有一种更具吸引力的替代方案……


环境智能

环境智能(AmI)是指对人的存在敏感并做出反应的电子环境。
它集成了物联网、人工智能和传感器网络等技术,创造出能够感知用户环境的空间,无需明确命令即可适应用户的需求,通过无缝和个性化的互动改善日常生活。
在这种特定情况下,根本不需要佩戴任何界面;AI将无缝融入环境中。


主要亮点:AI 硬件规格

一般观察

  • 智能手机作为第一个人工智能中心:iPhone 引领了人工智能大规模应用的第一波浪潮,但新的形式因素正在出现。

  • 未来形态:包括 AR 眼镜、脑机接口和环境智能环境。


AR 眼镜

  • 定义:可穿戴设备通过内置显示器、传感器和摄像头将数字内容叠加到现实世界视图上。

  • Google Glass Legacy :于 2012 年推出,但由于成本高和可用性差而失败。
  • Snapchat Spectacles :专为 AR 驱动的社交媒体集成而设计。
  • Meta Orion :旨在实现先进数字集成的概念 AR 眼镜。
  • 苹果的“Atlas”项目:
  • 内部焦点小组收集反馈以改进智能眼镜。
  • 优先考虑与 Apple 生态系统的无缝集成。
  • 试图挑战 Meta 的市场主导地位。
  • 当前趋势:
  • AR/VR 生态系统爆炸式增长。
  • 挑战包括成本、有限的用例和竞争。
  • 向 BCI 或环境智能等更先进技术的过渡阶段。


脑机接口 (BCI)

  • 定义:检测和分析脑信号并将其转化为控制外部设备的命令的系统。

  • 应用:
  • 仅通过思想就能与机器进行交互。
  • 为使用假肢或机械肢体的用户提供支持。
  • 挑战:
  • 可扩展性仍然不确定。
  • 技术进步显著但尚未成为主流。


环境智能(AmI)

  • 定义:通过物联网、人工智能和传感器网络适应用户的环境,提供无缝和个性化的交互。

  • 主要特点:
  • 无需可穿戴接口。
  • 将 AI 直接融入周围环境,获得自然、情境感知的体验。
  • 潜在的:
  • 在便利性和采用性方面可能超越可穿戴技术。
  • 专注于打造“隐形”的人工智能驱动生态系统。


未来展望

  • 作为一种过渡形式,AR 眼镜可能会主宰未来十年。

  • 脑机接口和环境智能等长期创新具有重新定义人机交互的变革潜力。


结论

人工智能革命正在加速,推动各行各业发生深刻变革。

2025 年,多模态人工智能、代理系统、先进机器人和自主人工智能等趋势将重塑商业格局,提高生产力并创造新机遇。

人工智能扩展、专业数据中心和能源基础设施创新将支持这一快速增长。自动驾驶汽车、AR 眼镜以及视频和音乐中的生成人工智能正在改变客户体验和创意产业。

谷歌、Meta 和 Waymo 等公司正以人工智能驱动的解决方案引领行业,而自主人工智能计划则确保了国家竞争力。

这十年标志着人工智能生态系统向更智能、更自主、无缝集成的关键转变。