斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

2025-07-12 01:40:12 深闻 33134

4 月 7 日，斯坦数报私人斯坦福大学以人为本的指中国机器智能研究所（HAI）发表了新的《2025年机器智能指数报告》，多项信息统计表明：中美 AI 的布年别模本下差距正在缩小，AI 工艺的美国创新速度是过去十年的数倍之快。

该报告总篇幅接近 450 页，投资主要亮点包括：

首先，级降倍报告指出，型推过去一年中美的理成 AI 投资都有了极大增长。其中，斯坦数报私人美国 AI 私人投资金额增长至 1091 亿美元，指中国几乎是布年别模本下中国的 12 倍（93 亿美元）与英国的 24 倍（45 亿美元）。AIGC 创业的美国全球融资规模是 339 亿美元，相比 2023 年增长了 18.7%。投资

其次，级降倍AI 模型正在变得肉眼可见地高效。型推在高效小模型的驱动下，GPT-3.5 级别的模型推理成本从 2022 年 11 月到 2024 年 10 月已经下降 280 倍，硬件成本每年下降 30%。

同时，企业界在 AI 研究上明显领先学术界。报告指出，2024 年几乎 90% 的知名 AI 模型都是来自企业界，相比之下 2023 年是 60%。但尽管模型的参数规模在持续扩大，模型的性能差距却在缩小：信息显示，全球最顶尖的 AI 模型与排名第 10 的模型之间的性能差距在一年内从 11.9% 缩小到了 5.4%。

此外，去年的指数报告重点指出了闭源与开源LLM之间显著的性能差距，而在今年，这个差距被缩小至1.7%。

AI Infra 突飞猛进

报告统计显示：每美元的机器智能性能已经大幅提高。一个相当于GPT-3.5的机器智能模型的推理成本，从2022年11月的每百万个token 20.00美元下降到2024年10月的仅每百万个token 0.07美元（Gemini-1.5-Flash-8B），在大约1.5年的时间里减少了280多倍。

Epoch估计，固定性能级别的硬件成本每年下降30%，这使得机器智能训练变得日益经济实惠、可扩展，并有助于模型改进。报告还称，机器学习（ML）硬件的能效随时间推移显著提升，每年约提高40%。

根据Epoch AI信息，2024年企业界贡献了55个知名AI模型，而同年学术界未产生任何知名模型。值得注意的是，企业和学术合作产生的模型数量正持续增长。过去十年间，源自产业界的知名AI模型占比呈稳定上升趋势，至2024年已达到90.2%。

2024年，主要贡献机构为OpenAI（7个模型）、谷歌（6个）和阿里巴巴（4个）。自2014年以来，谷歌以186个知名模型位居榜首，其次是Meta（82个）和微软（39个）。在学术机构中，卡内基梅隆大学（25个）、斯坦福大学（25个）和清华大学（22个）自2014年以来的模型产出量最为突出。

随着模型参数量的增长，AI系统的训练信息规模也同步扩大。Meta于2024年夏季推出的旗舰大语言模型Llama 3.3，训练token量更是突破15万亿大关。

据Epoch AI研究显示，大语言模型的训练信息集规模约每8个月翻一番。这一指数级增长趋势与模型复杂度的提升形成协同效应，持续推动AI性能边界扩展。

Epoch估计，关键AI模型的训练算力约每5个月翻倍一次，信息集每8个月翻倍，能耗每年增长，这一趋势在过去五年尤为显著。

OpenAI当前最先进的GPT-4o基础模型，其训练算力高达380亿petaFLOP。

这种资源门槛使得学术界难以企及，导致企业界持续主导AI前沿研发。尽管今年差距略有收窄（去年AI指数报告首次指出该趋势），但这一分化态势仍在延续。

2024年12月推出DeepSeek V3模型引发了广泛关注，其核心突破在于：在实现顶尖性能的同时，所需计算资源显著低于多数主流大语言模型。下图对比了中美两国知名机器学习模型的训练算力，揭示出一个关键趋势：美国顶级AI模型的算力需求普遍远超中国同类产物。

据Epoch AI信息显示：

中国头部语言模型的训练算力增长自2021年底保持约3倍/年的增速

全球其他地区自2018年以来维持着5倍/年的增速水平

这一差距折射出两国在AI研发路径上的差异化选择：中国团队更注重运算规则效率优化，而国际同行则倾向于通过算力堆砌推动性能突破。不过值得注意的是，DeepSeek V3的成功案例表明，计算效率的提升可能成为未来AI竞赛的新赛道。

但是，AI指数的信息也验证了近年来的行业猜测：模型训练成本正呈现显著上升趋势。

2024年，少数可估算模型之一Llama 3.1-405B，训练成本高达1.7亿美元。训练成本的高升主要为以下三点因素：

竞争加剧导致企业减少训练过程披露，成本估算难度增加

训练成本与计算需求呈直接正相关

计算需求越大的模型，其训练成本呈几何级数增长

各个大模型性能差距缩小

2024年1月初，领先的闭源模型性能超出顶级开源模型8.0%。至2025年2月，这一差距已缩小至1.7%。

这一快速进步主要得益于Meta在夏季发布的Llama 3.1，以及随后推出的其他高性能开源模型，如DeepSeek的V3版本。

下图展示了截至2025年1月Chatbot Arena排行榜前十名模型的概况。值得注意的是，2023年榜首模型与第十名模型的Elo技能评分差距为11.9%。而到2025年，这一差距已缩小至仅5.4%。

尽管思维链等推理机制的引入显著提升了大语言模型（LLM）的性能表现，但这类系统仍存在以下关键局限：

可靠性缺陷

无法稳定解决可通过逻辑推理验证正确性的问题（如算术运算、任务规划等）

面对超出训练信息规模的实例时表现尤为不佳

应用制约

严重作用系统的可信度评估

限制其在高风险场景（如金融决策、医疗鉴别等）的应用可行性

OpenAI发布的o1模型在PlanBench测试中，对于需要至少20步解决的复杂实例，o1仅能完成23.6%。

规划本质上是组合优化问题，解决长序列问题所需时间必然超过线性增长。这一特性解释了当前模型在复杂规划任务上的性能局限。

早期模型虽展现潜力，却存在明显缺陷：画质低下、缺乏音频支持、影片时长过短等（通常仅能生成2-4秒片段）。2024年，这一领域迎来重大突破——多家科技巨头相继发布新一代影片生成系统。具体突破点如下：

影片时长从秒级突破至20秒级

分辨率实现高清(HD)标准

生成内容从2D拓展至3D领域

标志着文本-影片生成工艺进入实用化阶段

2024年成为人形机器人增长的关键转折点，具有类人形态和功能仿生的机器人实现多项突破。以Figure AI为代表的创新企业推出新一代通用人形机器人Figure 02，其工艺特征包括复杂任务执行、实现智能交互、支持"语音-推理-语音"闭环。

除AutoRT系统外，DeepMind同期发布了ALOHA（高级活动自主学习系统）和DemoStart两大创新平台。其中ALOHA Unleashed版本在机器人精细操作领域实现了重大突破，首次实现类人级精细动作控制，并证明了大模型+模仿学习的工程可行性。

大模型投资规模增长

2024年AI总投资额增至2523亿美元，较2023年增长25.5%。过去十年间，机器智能相关投资规模增长了近13倍。

下图展示了2013年至2024年全球企业机器智能投资的趋势，涵盖并购、少数股权、私募投资和公开募股。

2023至2024年间，全球AI领域私募投资增长44.5%，这是自2021年以来首次实现同比增长。

2024年生成式AI领域共吸引339亿美元投资，较2023年增长18.7%，达到2022年投资规模的8.5倍以上。值得注意的是，2024年生成式AI投资占全部AI相关私募投资总额的比重已超过五分之一。

2024年获得融资的AI企业数量跃升至2049家，较上年增长8.4%。其中，生成式AI领域的新获投企业数量显著增加——全年共有214家初创企业获得融资，较2023年的179家和2019年的31家实现大幅提升。

2024年信息显示，美国以1091亿美元投资额高居榜首，中国（93亿美元）位列第二，仅为美国投资额的8.5%，英国（45亿美元）位列第三，投资规模相当于美国的4.1%。

2024年投资最集中的三大领域分别是：

AI基础设施/研究/治理（373亿美元）

信息运营与处理（166亿美元）

医疗健康（110亿美元）

其中，AI基础设施、研究和治理领域的突出表现，主要得益于OpenAI、Anthropic和xAI等专注AI应用开发的头部企业获得的大额投资。

麦肯锡最新报告显示：

整体AI应用率从2023年的55%跃升至78%，78%受访企业表示已在至少一个业务职能中应用AI工艺。

生成式AI应用呈现爆发式增长：2024年应用率达71%，较去年（33%）增长超一倍。该工艺作为去年新增调查项目，首次纳入统计范围。

企业应用AI已实现降本增收双重效益，成本节约最显著领域为：支持运营（49%受访企业报告成效），供应链与库存运营（43%），软件工程（41%）。

最新的微软职场研究表明：常规办公任务中，文档编辑效率提升10-13%，邮件处理时间缩短11%。专业岗位提升更显著——保障分析师任务完成速度加快23%，准确率提高7%。

销售团队响应速度提升39%，同时转化率提高25%。

在科研领域，材料发现速率提升44.1%，专利申请数量增长39.4%，产物原型产出增加17.2%。

这些信息印证了AI在提升工作质量和效率方面的双重价值。

AI For Science 依然存在极高天花板

2024年，AI驱动的研究斩获最高荣誉——两项诺贝尔奖授予了机器智能领域的突破性成就。

Google DeepMind的Demis Hassabis与John Jumper凭借AlphaFold在蛋白质折叠领域的开创性工作获奖。最新的AlphaFold 3已突破单一蛋白质结构预测，实现了对蛋白质与关键生物分子（DNA、RNA、配体、抗体）相互作用的精准建模。

John Hopfield与Geoffrey Hinton因对神经网络的基础性贡献获物理奖。

AI 助力医学、生物学研究。研究人员采用定向进化方法，证明大语言模型能够生成在合成和实验适应度景观中均优于传统运算规则的蛋白质序列。

生成式AI模型ProGen通过设计功能性蛋白质序列，凸显了AI辅助蛋白质工程的潜力。同样，基于Transformer的ProtT5等模型利用深度学习直接从序列信息预测蛋白质功能与相互作用，推动了计算生物学增长。

公共信息库的扩展对AI在蛋白质科学中的应用至关关键，高质量的大规模信息集使AI模型能基于多样化的生物序列进行训练，增强预测能力。2019年至今各公共蛋白质科学信息库的条目数量持续增长。然而，保障信息质量与避免模型偏差仍是持续挑战。

图像与多模态AI也在推动科学发现。冷冻电镜、高通量荧光显微镜与全玻片成像工艺的进步，使科学家能高精度解析原子、亚细胞及组织层面的结构，揭示复杂生物过程的新机制。

随着高通量显微镜工艺的兴起，视觉-语言模型及新兴的视觉-组学基础模型成为研究热点。显微镜基础模型数量随工艺增长持续增加：2024年光学显微镜模型从4个翻倍至8个。

2024年生物科学中AI驱动的蛋白质研究中，功能预测（8.4%）居首，其次是结构预测（7.6%）和蛋白质-药品相互作用（3.0%）。

面向生物任务的LLM智能体开发热情提高。

随着AI系统在科学领域（尤其是生物学）的应用价值日益凸显，如何设计能够调用工具解决复杂任务的智能语言模型成为关键挑战。Aviary为此提供了一个结构化框架，专门训练语言智能体应对三大高难度科学任务：

DNA操作（用于分子克隆）

科研问题解答（通过检索科学文献）

蛋白质稳定性工程

在Aviary环境中，基线模型Claude 3.5 Sonnet因无法访问外部工具而表现受限，而集成到Aviary智能体框架中的模型在几乎所有任务中均显著优于基线。

该研究揭示了两大关键结论：

尽管通用LLMs在多数科学任务中表现良好，但结合领域专家知识对模型进行微调可进一步提升性能；

加速AI驱动的科研创新不仅依赖模型规模，更需通过外部工具交互实现能力拓展——这种「智能体化AI」正成为新范式。

对于模型所需token量，临床LLM GatorTron（820亿token）远少于Llama 3（15万亿token），影像模型RadImageNet（1,600万图像等效token）仅为DALL-E（60亿）的1/375。

此外，临床场景AI应用潜力巨大。微软与OpenAI团队近期测试的o1模型以96.0%的准确率创下新纪录（较2023年提升5.8个百分点）。

LLM临床知识能力持续提升（尤其是配备实时推理的o1），但幻觉与多语言性能不一致问题仍存。

在鉴别推理方面，使用GPT-4辅助的医师鉴别准确率（76%）仅略高于传统工具组（74%）；但GPT-4独立鉴别准确率达92%，较无AI辅助医师提升16个百分点（图5.4.6）。尽管AI独立表现优异，鉴别时间未显著缩短。后续需通过重构工作流、客户培训与界面设计，才能将孤立模型优势转化为临床协同效能。

在过去的五年中，对医学机器智能伦理问题的关注逐年增加。从2020年到2024年，与伦理和医学机器智能相关的出版物数量增加了四倍。

公众对 AI 时代更乐观

2024年，67%的受访者表示“对AI是什么有良好理解”，66%认为“AI将在不久的将来深刻改变他们的日常生活”。

认为AI驱动的产物和支持“利大于弊”的全球人口比例略有上升，从2022年的52%增至2024年的55%。

关于AI产物和支持的调查中，平均而言，中国受访者对AI的认知度、信任度和热情最最高。80%的受访者表示“这些产物和支持让他们感到兴奋”。相比之下，仅58%的美国受访者认为“AI将在未来3-5年深刻改变生活”。

过去一年中，“信任使用AI的企业会保护个人信息”的受访者比例下降了3个百分点，“信任AI不会歧视或对任何群体产生偏见”的比例下降了2个百分点。

不过舆论也存在显著的地区差异。

亚洲和拉丁美洲的受访者更倾向于认为AI利大于弊。相比之下，欧洲和英语国家的受访者更为怀疑。仅46%的英国受访者和39%的美国受访者认为AI利大于弊。

今年的益普索调查新增了关于“AI如何作用当前工作”的问题。60%的受访者认为“未来五年AI可能改变工作方式”，36%（超三分之一）认为“AI可能在未来五年取代现有工作”。

Z世代（67%）和千禧一代比X世代和婴儿潮一代（49%）更倾向于认同“AI将改变工作方式”。2023至2024年，所有世代认同这一观点的比例均上升，增幅最大的是千禧一代和婴儿潮一代，可能表明代际间认知趋同。

雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

上一篇：警惕！“美企竟这样绕过禁令，偷拿中国关键矿物”

下一篇：哀悼！中国计算机视觉领军者、商汤创始人汤晓鸥去世

斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

蓝振忠也发「英雄帖」，中国版 ChatGPT 明星公司寻找 CEO

指数科技AFH技术打造AI生成硬件范式，做垂直领域“刚需”

Agent 要被吃进大模型了

DeepSeek 反思潮：AGI 既被重新审视，又被持续低估

当「养老」遇上 AI 大模型

“为一场演出赴一座城”，演唱会经济持续升温

Bonree ONE 2025春季版全球发布

“科技+文旅”让红色文化活起来爱奇艺《长征·四渡赤水》全感剧场落地西安、常熟

谁将替代 Transformer？

死火海漫改游戏的呼叫转移，解锁刀鸣共赴尸魂界真香现场！

斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

蓝振忠也发「英雄帖」，中国版 ChatGPT 明星公司寻找 CEO

指数科技AFH技术打造AI生成硬件范式，做垂直领域“刚需”

Agent 要被吃进大模型了

DeepSeek 反思潮：AGI 既被重新审视，又被持续低估

当「养老」遇上 AI 大模型

“为一场演出赴一座城”，演唱会经济持续升温

Bonree ONE 2025春季版全球发布

“科技+文旅”让红色文化活起来 爱奇艺《长征·四渡赤水》全感剧场落地西安、常熟

谁将替代 Transformer？

死火海漫改游戏的呼叫转移，解锁刀鸣共赴尸魂界真香现场！

“科技+文旅”让红色文化活起来爱奇艺《长征·四渡赤水》全感剧场落地西安、常熟