来源:DeepTech深科技
张一天担任第一作者和通讯作者。

不过,尽管本次方法是一个针对视频模态的数据增强方法,但所研究的本质问题还是如何让模型学习到更好的关于视频的表征。
这和图像识别研究仍然存在一定区别,因为张一天不仅想让模型理解单张图像的内容,同时也想让模型理解视频中时序上的信息和变化。
因此,他在后续研究中将探索如何利用大语言模型的推理能力,来辅助现有模型学习到更好的关于视频的表征,从而提供一个更好的视频编码器,构造一个能力更强、功能更多的多模态大模型。
参考资料:
1.https://arxiv.org/pdf/2403.09506
排版:希幔

新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
