OpenAI发布生成式AI模型GPT-4o 能检测人的情绪、可免费使用

OpenAI发布生成式AI模型GPT-4o 能检测人的情绪、可免费使用
2024年05月14日 11:55 封面新闻

封面新闻记者 欧阳宏宇

电影《钢铁侠》中的“贾维斯”真的来了。

北京时间5月14日凌晨,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型。据OpenAI首席技术官穆里・穆拉蒂 (Muri Murati)介绍,该模型能支持ChatGPT处理50种不同的语言,实时对音频、视觉和文本进行推理,并且所有用户均可免费使用,而付费用户的容量限制是免费用户的五倍。

GPT-4o的“o”代表“omni”,该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。根据OpenAI公布的测试数据,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

这也在该模型的功能上得以体现。据了解,与GPT-4相比,GPT-4o不但集成了图像和文本功能外,还在此基础上完善了语音功能。例如,在用户使用语音模式与ChatGPT对话时,GPT-4的平均延迟为5.4秒,音频在输入时还会由于处理方式丢失大量信息,也无法输出笑声、歌唱声和表达情感。而GPT-4o可以在232毫秒内对音频输入做出反应,与人类的对话响应时间非常接近;甚至能够从人类急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

图像能力方面,根据现场演示,OpenAI高管手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案。此后,ChatGPT一步一步说出了解题步骤。

GPT-4o较之前的版本已有显著进步,但有分析人士称,OpenAI可能已经“没落”了。“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”

不过,OpenAI看来,AI模型技术确有很多调优的空间。“我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。”OpenAI方面表示,由于GPT-4o是第一个结合所有这些模式的模型,因此仍然只是浅尝辄止地探索该模型的功能及其局限性。

AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片