消息称 OpenAI 大力研发音频 AI 模型,加紧备战首款“无屏幕”硬件设备

消息称 OpenAI 大力研发音频 AI 模型,加紧备战首款“无屏幕”硬件设备
2026年01月01日 23:44 IT之家

IT之家 1 月 1 日消息,北京时间今天晚间,据 The Information 报道,OpenAI 正在全面强化自身的音频人工智能能力,为未来推出一款以语音为核心的个人 AI 设备铺路。多名知情人士透露,这款设备将以听觉交互为主要形式,而非依赖屏幕。

目前,ChatGPT 的语音功能与文本回答背后所使用的模型并不相同。OpenAI 内部研究人员认为,现有音频模型在准确性和响应速度上明显落后,促使公司在过去两个月内整合工程、产品和研究力量,集中攻克音频模型短板。

这一调整直接指向 OpenAI 的硬件目标 —— 打造一款可通过自然语音指令操作的消费级设备。此前报道称,首款产品至少还需要一年时间才能面世。

随着新架构的引入,音频模型已能生成更自然、更富情感的语音回应,并具备与人类同时发声、应对打断的能力。OpenAI 计划在 2026 年第一季度正式发布该模型。

在硬件形态上,OpenAI 与谷歌、亚马逊、Meta 和苹果的判断相似:现有主流设备并非为未来的 AI 交互而生。OpenAI 团队希望用户通过“说话”而非“看屏幕”与设备互动,认为语音才是最贴近人类交流本能的方式。

与 OpenAI 合作推进硬件项目的乔尼・艾维也强调,无屏幕设计不仅更自然,还有助于避免用户沉迷。他认为,新一代设备应当纠正以往消费电子产品带来的负面影响,并为此承担责任。

不过,OpenAI 目前仍面临现实挑战。内部人士指出,不少 ChatGPT 用户并未习惯使用语音功能,这种情况不仅因为音频模型效果不彰,也与功能认知不足有关。在推出音频优先的 AI 设备之前,OpenAI 必须先改变用户的使用习惯。

在组织层面,OpenAI 已组建专门团队推进音频 AI 战略。来自 Character.AI 的语音研究员昆丹・库马尔负责整体方向,本・纽豪斯正在重构面向音频的底层架构,多模态 ChatGPT 的产品经理杰基・香农也参与其中。

OpenAI 并不打算只推出一款设备,而是规划了一条产品线,包括智能眼镜和无屏幕智能音箱。公司内部的设想是,这类设备将以“伴随式助手”的形态存在,主动理解环境和用户需求,并在获得授权的情况下,通过音频和视频持续提供帮助。

为支撑这一长期布局,OpenAI 已在 2025 年初斥资近 65 亿美元(IT之家注:现汇率约合 455.06 亿元人民币)收购乔尼・艾维联合创办的 io,并同步推进供应链、工业设计与模型研发等多条工作线。

AI硬件
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片