移动客户端

新浪科技> 滚动新闻 > 正文

Video-LLaMA:一种用于视频的指令调谐视听语言模型

Video-LLaMA:一种用于视频的指令调谐视听语言模型

2023年06月06日 16:00 PingWest品玩

新浪财经APP 缩小字体放大字体收藏微博微信

品玩6月6日讯，研究人员提出一种多模态框架：Video-LLaMA，，使语言模型能够理解视频中的视听内容。通过跨模态训练，解决了视频难以理解的挑战，包括捕捉时间变化和整合音视频信号。研究表明Video-LLaMA能够感知和理解视频内容，并生成基于视听信息的有意义回答。该研究为开发音视频AI助手提供了潜在的原型。已提供代码、预训练模型和演示。

论文链接：https://huggingface.co/papers/2306.00958

关键词 : 指令

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部