Video-LLaMA:一种用于视频的指令调谐视听语言模型

Video-LLaMA:一种用于视频的指令调谐视听语言模型
2023年06月06日 16:00 PingWest品玩

品玩6月6日讯,研究人员提出一种多模态框架:Video-LLaMA,,使语言模型能够理解视频中的视听内容。通过跨模态训练,解决了视频难以理解的挑战,包括捕捉时间变化和整合音视频信号。研究表明Video-LLaMA能够感知和理解视频内容,并生成基于视听信息的有意义回答。该研究为开发音视频AI助手提供了潜在的原型。已提供代码、预训练模型和演示。

论文链接:https://huggingface.co/papers/2306.00958

指令
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片