科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域

科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域
2024年04月24日 16:27 DeepTech深科技

来源:DeepTech深科技

在近期一项研究中,武汉大学本科生、目前在上海人工智能实验室担任实习生的刘子煜和所在团队,针对视觉语言模型(CLIP,Contrastive Language-Image Pre-Training)和多模态大型语言模型(MLLMs,Multimodal Large Language Models),在处理细粒度识别任务上的局限性开展了一项研究。

图 | 刘子煜(来源:刘子煜)据介绍,虽然 CLIP 模型在视觉-语言理解任务中表现出较好的灵活性和强大性能,但在面对包含大量类别或细粒度类别的数据集时,它的表现开始出现下滑。

接下来,他们计划将这些技术融合到一个更智能的 Agent 系统中,并探索其在不同领域的应用潜力。

据介绍,这个系统的核心是高度的适应性和灵活性,它能够根据不同行业的特定需求进行调整和优化。

总的来说,课题组的主要目标是创建一个能够理解复杂用户查询和反馈的系统,进而提供高度个性化的响应和解决方案。

想象一下:一个能够精确理解用户需求并提供定制化建议的智能助手,无论是帮助顾客选择产品,协助医生解读医疗数据,还是为教育者提供个性化的教学方案。

未来,他们计划将这种智能 Agent 系统应用于诸如客户服务、内容创作、个性化教育、医疗咨询和企业决策支持等领域。

预计系统将通过分析大量数据,不仅能回应直接的查询,还能预见用户需求,提前带来有价值的信息和建议。

参考资料:

1.https://arxiv.org/pdf/2403.13805.pdf

运营/排版:何晨龙

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片