领先GPT-4o的语音模式一步,具备看、听、说多模态大模型Moshi发布了。Moshi支持手机移动端使用的,只不过对普通话支持较差,最好使用英语提问。
7月4日凌晨,法国知名开源AI研究实验室Kyutai在官网发布了,具备看、听、说多模态大模型——Moshi。
Moshi功能与OpenAI在5月14日展示的最新模型GPT-4o差不多,可以听取人的语音提问后进行实时推理回答内容。但GPT-4o的语音模式要在秋天才能全面开放使用,而Moshi已经提供使用了。
「AIGC开放社区」已经亲自测试,Moshi不锁区,填写一个邮箱地址就能直接使用,无需任何等待。值得一提的是,Moshi是支持手机移动端使用的,只不过对普通话支持较差,最好使用英语提问。
此外,Kyutai可能很快就会开源Moshi,公布代码、模型权重和论文。
免费体验地址:https://moshi.chat/?queue_id=talktomoshi
![](http://n.sinaimg.cn/spider20240704/54/w554h300/20240704/0eae-c06b0e3103e8c306a17d09a83018c1f6.jpg)
Moshi的使用流程非常简单,1)登录https://moshi.chat/?queue_id=talktomoshi
2)填写一个邮箱地址,然后点击join。如果是手机登录,系统会提示使用你的麦克风,因为这个产品对语音是一个硬性要求。如果你是PC端使用,也必须有麦克风,不然没法使用。
![](http://n.sinaimg.cn/spider20240704/110/w318h592/20240704/bb84-ff925a2e8692bb91b4268a45b4d473e6.jpg)
「AIGC开放社区」的真实使用过程
3)开始语音输入,你想提问的内容就行了。
![](http://n.sinaimg.cn/spider20240704/106/w319h587/20240704/16d6-56d79fe4d2273fdd020363e3414d51a6.jpg)
下面这个是官方展示的案例,根据多轮语音连续对话,主要让Moshi用法语来一首关于巴黎的诗;接着用窃窃私语的方式描述一个神秘故事。
Moshi完成的很出色,其拟人化语气是一大特点机器味很少,这一点和GPT-4o有点像。
Video Player is loading.
Play Video
Play
Loaded: 0%
Current Time 0:00
/
Duration 0:00
1x
Playback Rate
- 2x
- 1.5x
- 1.25x
- 1x, selected
- 0.75x
Mute
Fullscreen
This is a modal window.
No compatible source was found for this media.
Beginning of dialog window. Escape will cancel and close the window.
Text
Color
White
Black
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Background
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Transparent
Window
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Transparent
Semi-Transparent
Opaque
Font Size
50%
75%
100%
125%
150%
175%
200%
300%
400%
Text Edge Style
None
Raised
Depressed
Uniform
Dropshadow
Font Family
Proportional Sans-Serif
Monospace Sans-Serif
Proportional Serif
Monospace Serif
Casual
Script
Small Caps
Reset restore all settings to the default valuesDone
Close Modal Dialog
End of dialog window.
这个是模拟星际战舰指挥官与航程的故事,主要询问了一些到达目标航程,周围环境等内容。(由于听译的可能理解的不太全~~)
Video Player is loading.
Play Video
Play
Loaded: 0%
Current Time 0:00
/
Duration 0:00
1x
Playback Rate
- 2x
- 1.5x
- 1.25x
- 1x, selected
- 0.75x
Mute
Fullscreen
This is a modal window.
No compatible source was found for this media.
Beginning of dialog window. Escape will cancel and close the window.
Text
Color
White
Black
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Background
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Transparent
Window
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Transparent
Semi-Transparent
Opaque
Font Size
50%
75%
100%
125%
150%
175%
200%
300%
400%
Text Edge Style
None
Raised
Depressed
Uniform
Dropshadow
Font Family
Proportional Sans-Serif
Monospace Sans-Serif
Proportional Serif
Monospace Serif
Casual
Script
Small Caps
Reset restore all settings to the default valuesDone
Close Modal Dialog
End of dialog window.
「AIGC开放社区」也体验了一下,主要问了Moshi几个简单问题:第一个,法国巴黎有哪些著名景点?Moshi:埃菲尔铁塔。
接着问,卢浮宫博物馆有哪些著名的展览物品?Moshi:世界名画蒙娜丽莎的微笑。
又问了,巴黎有哪些标志性建筑?Mosh:凯旋门,这是一个拥有悠久历史的建筑。
由于Moshi的论文还没有发布,「AIGC开放社区」就说一说自己的亲身使用体验吧。
1)响应速度超级快,本次测试使用的是国区线路,而Moshi的demo服务器在欧洲和美国,但当你用语音提问完问题后,几乎0延迟就能马上响应你的提问。Moshi官方给出的理论延迟是160毫秒。
![](http://n.sinaimg.cn/spider20240704/74/w554h320/20240704/3d23-106e53229adc24ccd4f316a1433e1c84.jpg)
2)不支持中文普通话,这一点还是能理解的,毕竟Moshi面向的国外用户群体,主流语言还是英语,同时也支持法语。
3)回答内容有限,Moshi虽然是语音输出内容,但详细程度比ChatGPT那种纯文本差好多,回答的内容只能是轮廓大概,相信以后产品会迭代更多。
4)使用方便快捷,几乎没有繁琐的注册流程,你只需要提交一个邮箱即可,马上就能帮助你非常方便。
5)Moshi听和说的能力有了,看的能力还没展示出来,这个功能估计以后也会添加吧,这样整个输出模式将更加完善。
6)这类产品对家教、教育行业是起到颠覆性作用,例如,让家教老师帮你反复讲解一道高数题,估计两遍人就比较恼了,而AI可以帮你循环讲解无数次,这对于教育帮助是巨大的。
7)期待国产类似的GPT-4o、Moshi产品出现,最好再支持一些闽南话、粤语、四川话、东北话等有特色的地方语言,就像汽车导航那样一定会非常有意思。
对于Moshi的发布,网友们还是相当兴奋的,在我们苦等GPT-4o的语音模式时,Moshi横空出现,期待他们更好的表现。
![](http://n.sinaimg.cn/spider20240704/722/w554h168/20240704/6fad-c990d5a2fa06bcdc8633ba76eba98529.jpg)
在推理延迟方面,Moshi似乎比GPT-4o更好。这一点从实际操作来看,确实是很快的。
![](http://n.sinaimg.cn/spider20240704/657/w554h103/20240704/9ece-55b8bf9f31aafbd43cd391e91c6df5ae.jpg)
刚试了一下Moshi的产品,其高效的推理响应以及低延迟,令人印象深刻,这就是我一直期待的产品。
![](http://n.sinaimg.cn/spider20240704/679/w554h125/20240704/971f-1b06701b7a291dbf4feaf187b727f85b.jpg)
继续称赞Moshi的低推理延迟。如果使用功能更高级的模型,即便推理时间长一些也没问题。确实现在,Moshi的回答内容还是太宽泛了。
![](http://n.sinaimg.cn/spider20240704/717/w554h163/20240704/7326-3886ba37456a821bb9caf832e5f6e73b.jpg)
已经有人急的不行,开始要源代码了,你们可是开放AI研究实验室啊~
![本文来源:AIGC开放社区,原文标题:《对标GPT-4o!不锁区、支持手机、免费使用,Moshi来啦!》](http://n.sinaimg.cn/spider20240704/639/w554h85/20240704/9fc9-f7a0334853b69a883240dea3c325d9ed.jpg)
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
![](http://n.sinaimg.cn/finance/cece9e13/20240627/655959900_20240627.png)
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)