云从科技发布3D行为识别基础大模型

云从科技发布3D行为识别基础大模型
2023年09月22日 16:44 媒体滚动

转自:中国科技网

科技日报记者 雍黎

922日,记者从云从科技获悉,在近日举行的国际计算机视觉大会ICCV2023细粒度行为检测挑战赛,云从科技云从从容大模型展示了对多种模态信息的理解和处理能力,刷新世界纪录在行为分类赛道中斩获冠军。

多模态到底意味着什么?当你输入一张照片,并用语音或文字“指挥”AI将其部分抠图修改,并发送给朋友时,它能立即理解并完成指令。多模态交互降低了AI使用的门槛,使AI有望成为万千大众都能使用的生产工具和个人助理。

如今,多模态大模型已成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点大模型具有强大的表征能力,并且在多模态如语言、音频、图像、视频、视觉语言上得到验证,云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型

3D行为识别技术相比2D图像识别增加了时间维度的建模,是以人为中心的感知任务的重要组成部分,一直是人工智能领域的研究热点。

该模型基于Vision Transformer视觉自注意力模型结构进行设计,通过自注意力机制将空间维度和时间维度的信息进行充分关联。

基于大模型预训练获得的基础时空特征,能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段,通过帧间信息互补的方式自适应去除模型冗余的部分,极大提升了下游任务的训练和推理速度。

本次挑战赛数据集包含491个日常生活中的人类行为,部分行为之间只有极其微小的差别,需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。

挑战赛中,云从科技从容大模型凭借在视觉领域的积累,在数据集粗粒度coarse行为类别上精度达到93.87%在细粒度fine-grain行为类别上精度达到91.96%,识别精度相比上一届冠军方案高出4%以上。

准确率的大幅提升表明大模型在时空关系特征建模上的优势,意味着3D行为识别算法已经迈入多模态大模型时代,将极大提升该技术的商业应用价值。目前,该技术已在金融、安防等领域得到了广泛应用,例如人员动作合规识别,打架、跌倒等行为检测。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-09 浙江国祥 603361 --
  • 09-27 陕西华达 301517 --
  • 09-27 润本股份 603193 --
  • 09-26 骑士乳业 832786 5
  • 09-22 中集环科 301559 24.22
  • 新浪首页 语音播报 相关新闻 返回顶部