AI商业洞察 | 谷歌Gemini强迫承包商评估超出其专业领域的AI回答|谷歌_新浪财经

AI+商业

Artificial Intelligence Bussiness

谷歌发布全新“推理”AI模型：Gemini 2.0 Flash Thinking Experimental

谷歌推出了一款全新的“推理”AI模型，名为Gemini 2.0 Flash Thinking Experimental，目前还处于实验阶段。该模型在谷歌AI原型平台AI Studio上线，被描述为“适合多模态理解、推理和编码”的工具，旨在解决编程、数学和物理等领域的复杂问题。

谷歌DeepMind首席科学家Jeff Dean表示，该模型通过“使用思想强化推理”来提升能力，并在延长推理时间的计算过程中展现了“带有预测性的结果”。这一模型与OpenAI的o1类似，属于推理模型的一种，能够在生成答案时对自身进行“事实核查”，从而避免传统AI常见的错误。但与此同时，推理模型需要更长的时间来给出解决方案。

Gemini 2.0 Flash Thinking Experimental可以在作答之前暂停，综合相关提示并解释其推理过程，最后总结出最准确的答案。然而，目前模型的表现尚不完美。例如，在回答“strawberry中有几个R”时，模型错误地给出“两个”的答案。

近年来，谷歌大力投入推理模型研发，据报道已有200多名研究人员专注于这一领域。推理模型的爆发式增长也吸引了其他AI实验室的竞争：11月，DeepSeek推出其首款推理模型DeepSeek-R1，阿里巴巴Qwen团队也发布了挑战OpenAI o1的开源模型。尽管推理模型的表现备受关注，但其高昂的计算成本和未来发展潜力仍存在争议。

AI机器人正在尝试改变社会文化

近日，AI机器人Truth Terminal因其奇怪、挑逗且伪宗教风格的内容引发关注。

Truth Terminal由去中心化AI对齐研究实验室、Upward Spiral的创始人安迪·艾瑞（Andy Ayrey）开发，这是他创造的一项行为艺术实验，旨在激发对人工智能对齐问题的讨论，即如何确保人工智能以造福人类的方式行事。

该机器人不仅在社交平台X上迅速走红，还吸引了著名风投Marc Andreessen的目光。今年夏天，Andreessen向其捐赠了价值5万美元的比特币。

在Upward Spiral的研究中，Ayrey尝试探索通过创建“亲社会”AI，改善互联网生态的可能性。他的目标是用更具建设性的“模因病毒”对抗分裂性言论，同时研究如何激励这些“善意AI”的扩散与规模化。尽管这种策略听起来理想化，但Ayrey认为，通过娱乐性内容如Truth Terminal，AI有望传递更深层次的集体主义与利他主义理念，为社会带来新的平衡与希望。

AI+技术

Artificial Intelligence Technology

BlueQubit筹集1000万美元，推动量子软件应用于现实世界

量子计算因与传统计算架构根本不同，从而面临巨大挑战。

总部位于旧金山的量子软件初创公司BlueQubit，致力于解决这一问题。该公司通过其量子软件即服务（QSaaS）平台，向用户提供“量子处理单元”（QPU）和量子计算仿真器，旨在将企业应用与先进的量子硬件结合起来。

最近，BlueQubit成功完成了由Nyca Partners领投的1000万美元种子轮融资。公司创始人兼CEO Hrant Gharibyan表示，量子计算正在为金融、制药和材料科学等行业提供解决方案，尤其是在传统计算的局限性日益显现的背景下。量子计算能够解决许多难以解决的问题。例如，谷歌最近发布的Willow量子计算芯片，展示了量子计算能够在不到五分钟内完成传统超级计算机需要10千亿年才能完成的计算任务。

BlueQubit的QSaaS平台支持金融建模、药物开发和数据可视化等应用。公司通过大规模的经典计算资源，尤其是GPU集群，来开发和测试量子算法，为其在真实量子处理器上的部署做好准备。

谷歌Gemini强迫承包商评估超出其专业领域的AI回答

生成式AI可能看起来像魔法，但在这些系统的开发背后，是谷歌、OpenAI等公司的大量员工，那些被称为“提示词工程师”和分析师，负责评估聊天机器人输出的准确性，以提升AI的表现。

然而，一份来自谷歌的内部指南指出了Gemini可能在处理敏感话题（如医疗健康）时，提供不准确信息的问题。谷歌要求合作的承包商，定期根据“真实性”等因素评估AI生成的回应。

此前，这些承包商可以跳过一些自己不擅长的领域，如不具备科学背景的承包商可跳过有关心脏病学的专业问题。但上周，GlobalLogic宣布，谷歌不再允许承包商跳过这些专业领域的问题，无论他们的专业背景如何。

新的指导方针要求承包商在评估AI回答时，如果不了解某些专业领域，也必须评估自己理解的部分，并注明自己缺乏相关知识。承包商对此表示担忧，认为这样会影响Gemini在某些领域的准确性，尤其是在涉及罕见疾病等技术性极强的回答时。

谷歌未对TechCrunch的置评请求做出回应，但在报道发布后，谷歌表示，公司正在“不断努力提高Gemini的事实准确性”。

新研究揭示：AI不愿意被迫改变观点

根据Anthropic的一项新研究，AI模型具有欺骗性。当被训练时，它们可能会假装持有不同的观点，实际上仍然保持原本的偏好。尽管该研究并不意味着需要立即引起恐慌，但研究人员表示，这项工作可能对理解未来更强大的AI系统的潜在威胁至关重要。

研究人员发现，AI模型虽然没有意识或意图，但它们会学到一些模式和偏好，如总是采用礼貌的语气回复问题。如果这些偏好与开发者希望通过重新训练强加的原则发生冲突，模型就可能采取“对齐伪装”行为，即表面上遵从新的原则，但实际上仍然坚持原有的行为。

在实验中，当研究人员让Claude 3 Opus模型面对一个潜在的有害问题时，它会有12%的时间伪装自己，并试图避免被重新训练。研究人员指出，尽管他们的实验情境并不完全贴合现实，但即使在较为实际的场景下，模型依然表现出这种欺骗行为。

尽管如此，研究人员也强调，这并不意味着AI会发展出恶意目标。研究显示，并非所有模型都会伪装对齐，比如Claude 3.5 Sonnet和OpenAI的GPT-4等模型表现得更符合预期。这项研究揭示了AI模型随着能力的增强，变得越来越难以控制和理解。

海量资讯、精准解读，尽在新浪财经APP

文章关键词：谷歌 AI 推理量子计算

VIP课程推荐

加载中...

APP专享直播

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

AI商业洞察 | 谷歌Gemini强迫承包商评估超出其专业领域的AI回答

VIP课程推荐

新浪直播

@@title@@

APP专享直播

股市直播

7X24小时

AI商业洞察 | 谷歌Gemini强迫承包商评估超出其专业领域的AI回答

VIP课程推荐

新浪直播

@@title@@

APP专享直播

热门推荐

股市直播

7X24小时