视觉-语言大模型助力机器人导航升级更加智能高效！|导航|机器人|指令_新浪科技

视觉-语言大模型助力机器人导航升级更加智能高效！

　　【CNMO科技消息】据《中国经济网》报道，近日，香港科技大学（广州）李昊昂教授团队在机器人导航技术领域取得了重要突破，成功研发出视觉-语言导航技术，为机器人提供了更加自然、智能、高效的导航与交互能力。

　　传统的机器人导航技术主要依赖纯视觉信息，如图像或视频，来理解周围环境并规划路径。然而，在复杂多变的环境中，这种导航方式往往存在局限性，导致机器人导航能力不足。为了克服这一难题，李昊昂教授团队研究出了视觉-语言导航技术，该技术能够整合视觉信息及语言指令，实现高效的人机交互。

　　在服务机器人的应用中，该技术使得机器人能够理解人类的语言指令，如“走到客厅，把餐桌上的苹果拿给我”，并通过视觉数据识别关键信息，如“客厅”、“餐桌”、“苹果”等，从而准确地完成任务。这一技术的实现，不仅拓展了机器人的应用场景，还提高了机器人的工作效率和安全性。

　　此外，针对现有视觉-语言大模型在信息保障方面存在的问题，如对数据质量和训练场景的敏感性、难以理解模糊语言指令等，李昊昂教授团队提出了面向视觉-语言导航应用的大模型调优策略。通过在机器人室内外导航数据上进行视觉数据抽取和语言指令标注，并对模型进行拟合，机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。