给一张照片，还一部大片上海AI公司创新多模态生成技术，助你圆“电影梦”_新浪财经

转自：上观新闻

你的心中有一个电影梦吗？走入不同角色体验戏中人生，或成为导演编排每一组镜头，或作为编剧书写平行宇宙里的无限可能。

新年伊始，申城人工智能科技公司MiniMax为全球用户带来新的创作帮手——主体参考。

MiniMax最新自研的S2V-01视频模型，通过单图主体参考架构，以传统方案1%以下的输入和计算成本，只需输入一张图片，即可实现视觉细节的精确还原，同时具备高自由度和组合性。

MiniMax分享的案例（右图实际为动图）

准确识别面部特征

在AI视频生成领域，如何在动态视频中保持人物面部多角度的真实度和稳定性；如何在使用连续片段拼接创作时，使人物角色保持高度一致，始终是困扰业界的难题。MiniMax通过自研的S2V-01视频模型，给用户提供一个新选项。

用户在“海螺AI”中选择“主体参考”功能后，仅需上传一张图片即可识别并锁定主体角色。文本框内输入提示词（Prompt），无需漫长等待，即可生成富有创意且主体保持一致的高质量视频。

记者体验后发现，S2V-01模型能够准确识别照片中不同性别、年龄、肤色、五官结构等面部特征，所生成的角色稳定、连贯，且在每一帧中基本可以保持角色一致。

目前，“海螺AI”开放对单个人物进行参考的能力，需要上传可识别的面部信息，作为视频主体生成的面部参考。未来，“海螺AI”将继续开放多人、物体、场景等更加丰富的参考能力。

输入和计算成本大幅降低

由于MiniMax的“主体参考”方案只需要一张图片作为输入，没有额外的训练计算成本和等待时间，生成成本和常规文生视频、图生视频接近。

相较于目前主流方案，“主体参考”既降低了用户的输入成本，也将计算成本降低至百分之一以下，用户的等待时间大幅减少，使用体验翻倍提升。

为了让视频中只保有主体自身的必要视觉信息（如人的面部特征），而不受姿态、表情、光照等其他信息干扰，MiniMax在数据构造、模型架构和训练策略上做了大量优化——已上线的S2V-01模型实现了两方面的关键效果：视觉细节的精准还原、高自由度+组合性。

研发人员举例说，除了代表身份的面部特征，其他维度都有极高的自由度，比如可以通过文本控制让角色呈现任意姿势、表情。

为视频生产行业带来创新

记者获悉，AI技术已为微电影、广告、综艺、动画等内容制作行业带来了便利，但视频主体在生成过程中容易崩坏是最大的问题，呈现内容往往缺乏灵活性且存在割裂感。

“主体参考”功能的推出为专业创作者提供高度一致的视觉呈现和创作灵活性，将为短视频、广告等多个视频生产行业带来创新，让一致性和连贯性不再是难题。

据透露，MiniMax将“主体参考”功能以API服务形式上线开放平台，并将在多主体参考方面持续探索，为企业与专业创作者提供更加完善的解决方案。

2024年12月全球AI视频产品榜

值得一提的是，自MiniMax推出视频模型起，“海螺AI”便持续成为业界焦点。2024年12月，MiniMax所推出的图生视频模型I2V-01-Live受到广泛好评，海螺AI海外访问量超2700万，荣登12月全球AI视频产品榜首位。

图片来源：采访对象供图

栏目编辑：陆梓华

海量资讯、精准解读，尽在新浪财经APP

VIP课程推荐

加载中...

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）