AI革命，终于来了！|AI_新浪财经

（报告出品方/作者：海通国际，姚书桥）

1. AI的本质：三大谬误和五大悖论

悖论1：莫拉维克悖论（Moravec’s Paradox）

实现类似人类的高阶的认知任务（如推理和解决问题）需要很少的计算能力，但在模拟人类的基本感知和运动技能时却需要大量算力。

悖论2：脑科学悖论

计算机科学 = 硬件科学 + 软件科学；智能科学 = 脑科学 + 心理学；人工智能 = 智能科学 + 计算机科学

悖论3：可解释性与自主性悖论

AI系统的自主性增强但做出的决策越来越难以解释。一方面，我们希望AI系统能够自主地做出决策，但另一方面，我们也需要理解这些决策背后的原因，以便进行监管和纠正错误。

悖论4：知识图谱悖论

尽管AI和机器学习技术能够从大量数据中发现模式和知识，但它们只能执行预设的算法和处理已有的信息，而不会产生真正意义上的新知识。

悖论5：生成AI悖论

生成AI可能在生成内容时表现出高度的创造性，但这些内容的质量和逻辑性却难以评估，因为AI可能并不完理解其自身创作的内容。

2. 通往AGI的路径：美国看技术创新

通往AGI的路径：2024 AI 技术发展更新

人工智能在几个基准上已经超过了人类的表现，包括图像分类、视觉推理和英语理解等。然而，它在数学竞赛、视觉常识推理和规划等更复杂的任务上仍然落后于人类。2022年中国的AI专利数占全球的61%，而美国占约21%。如算2003-23年的总专利数美国占全球的60%，而中国占15% 。产业界依然是AI研发的主要驱动力，2023年超一半的模型来自于产业界。

通往AGI的路径：尺度定律的终点

尺度定律（Scaling laws）是一种描述系统随着规模的变化而发生的规律性变化的数学表达，通常表现为一些可测量的特征随着系统大小的增加而呈现出一种固定的比例关系。尺度定律在不同学科领域中都有广泛的应用，包括物理学、生物学、经济学等，Open AI 2020年发现，大语言模型也遵循着尺度定律（以Transformer为代表）。尺度定律是通过增加计算量、模型参数和数据集大小来提升单个大语言模型的“智能”水平。但在多模态的数据集中，尺度定律的极限更加难以达到，模型性能会在达到极限前提前衰减。

通往AGI的路径：多模态大模型

训练模型的算力需求激增，如早期的AlexNet仅需要470 PB FLOP用于训练，而2017年发布的 Transfomer则需要约7400 PB。谷歌的Gemini Ultra是目前最先进的基础模型之一，则需要500 亿PB FLOP的算力。

传统的人工智能系统的能力有限，语言模型在文本理解方面表现出色，但在图像处理方面表现不佳，反之亦然。但随着多模态大模型的发展，一些新的模型如谷歌的Gemini和OpenAI的 GPT-4，已经展示出同时处理好图像和文本任务的能力，甚至可以处理音频如GPT-4o。

通往AGI的路径：小模型/混合专家模型MoE

混合专家模型（Mixture of Experts：MoE）的前提是如果有一个复杂问题可以被拆分为多个领域知识的简单问题，通过把各个领域问题分发各个领域的专家来解决，最后再汇总结论。它由多个专业化的子模型（即“专家”）组合而成，每一个“专家”都在其擅长的领域内做出贡献。

混合专家模型 (MoEs)与稠密模型相比，预训练速度更快；与具有相同参数数量的模型相比，具有更快的推理速度；需要大量显存，因为所有专家系统都需要加载到内存中；虽然在微调方面存在诸多挑战，但对混合专家模型进行指令调优具有很大的潜力。

3. 2024商业化起步：中国看场景应用

Hosting LLM: 硬件成本，训练成本，调度时延，闲置算力管理等等。训练Transformer成本仅需930USD，GPT4则要7800万USD，Gemini则高达近2亿USD 。Deepseek （236B参数，32k上下文）：每百万token输入1元，每百万token输出2 元，行业的1% 。字节豆包（32k上下文）：每百万token0.8元，（128k上下文）每百万token 5元。

4.可信大模型的评测体系—体系迭代

可信大模型的评测体系 – 基准测试榜单

深度学习的评估一直使用基准测试（Benchmark），大模型也通过设计合理的测试任务和数据集来客观、公正、量化的评估模型的性能，是产学研各界最为认可的人工智能评测方式。大模型基准测试榜单主要通过多维度评测考察模型综合能力，测试方法主要分为客观考试和人工主观评价。

可信大模型的评测体系– 首轮测试对比

本次试评测大模型总数30家，其中闭源商业大模型12家，开源大模型18家。一级测试维度为通用、行业、应用、安全，可以划分为理解、知识、学科、可靠等32个二级子维度。商业闭源大模型能力优于开源大模型，在榜单的综合能力前10名中，商业闭源大模型占据了9席。

可信大模型的评测体系– 开源模型能力榜单

从开源大模型的榜单结果可以看出，开源大模型的能力表现除了依赖模型参数量，还与版本迭代时间相关。开源大模型在通用评测中的数学、推理能力上与商业模型有明显差距，并且在自主可控等方面存在风险。

5. GPT-4o：发力端侧

语音模式时延缩短，优化用户体验：之前延迟时间分别为GPT-3.5的2.8秒和GPT-4的 5.4秒，GPT-4o将这一延迟被大幅缩短为 320毫秒。多模态大模型全面赋能：传统语音模式通过三模型实现：音频转文本， GPT3.5/GPT-4处理文本，再文本转音频。但 GPT-4会丢失信息，因其无法直接处理语调、多说话者、背景噪音，且不能输出笑声、歌唱或情感。而GPT-4o通过端到端训练了一个全新的模型，能够同时处理文本、视觉和音频输入输出。这意味着所有的输入和输出都由同一个神经网络处理。

Google I/O 2024

Gemini Live：谷歌发布了语音对话人工智能助手Gemini Live，用户可以在移动应用上与Gemini进行对话，对标GPT-4o。轻量化模型Gemini 1.5 Flash：基于“蒸馏”技术，专为大规模服务设计，速度更快、成本低至0.35美元/百万Token。图像、视频和音乐的人工智能生成工具：谷歌发布了针对图像、视频和音乐的人工智能生成工具，分别为Imagen 3、Veo和Music AI Sandbox 。Gemini支持的AI Overview功能：谷歌即将在浏览器搜索中引入Gemini支持的AI Overview功能，新功能可以使浏览器支持多轮推理，将复杂问题分解处理，将原本需要几分钟甚至几个小时的研究压缩到在几秒钟内完成，还将支持在搜索中对视频提问。硬件生态：TPU，ARM架构的CPU，GPU同NVIDIA合作，通过Cloud卖算力。现有产业生态赋能：Ask Photos，Workspace， etc。

6. Gen AI在制造业中应用的潜力

工业制造领域的运营利润提升相对较小，Gen AI 将逐步提高生产效率，而非对产品和成本结构进行彻底改变。Gen AI 在工业制造领域使用相对容易采纳，大多数用例都关注于在已知技术、可行性和责任范围内的内部流程优化，可行性和责任挑战较低，或者可以轻易缓解。颠覆程度较低，商业模式（产品类型、定价模式）基本保持不变，颠覆性影响主要体现在运营模式上。Gen AI 将作为解决已知痛点的可能方案。

物料选择与管理、生产计划和预测性维护将带来差异化的竞争优势,然而，鉴于数据变更和模型构建的挑战，这些使用案例的实施将更加困难，因此它们的预期价值不会迅速实现。容易实现的主要是后端使用案例。尽管它们容易推广，但由于工业制造总部运营的成本基础较小（约占总成本的5%），对制造。

报告节选：