它叫 OmniLottie
首款能够根据文本、图像或视频生成真实矢量动画的人工智能。
不是栅格化视频,也不是 GIF 动图,而是真正的 Lottie 文件,与 Airbnb、Google、Uber 以及全球所有主流应用程序使用的格式相同。
这件事之所以意义重大,原因如下:
现代应用中你看到的每一个动画,无论是加载指示器、引导流程、微交互还是动态图标,都是 Lottie 文件。设计师们要花费数小时在 After Effects 中精心制作。公司为每个动画项目支付 5000 到 20000 美元。
OmniLottie 根据文本提示生成它们。
它的运作方式如下:
→你描述你想要的东西:“一枚火箭发射升空,拖着火焰尾迹,星星闪烁”
→ OmniLottie 将您的指令转换为结构化的动画命令
→自定义的 Lottie 分词器将 JSON 压缩成紧凑的形状 + 运动标记。
→经过精细调整的VLM自回归生成完整的动画序列
→输出:一个可用于任何应用程序的、可直接用于生产的 .json Lottie 文件
三种模式:
给洛蒂发短信:描述一下,她就会回复。
图片+文本转Lottie:提供参考图片+动作描述。
视频转 Lottie:输入视频,即可获得矢量动画版本。
最离奇的部分来了:
他们用 GPT-5、DeepSeek、Gemini、Qwen2.5-VL 和商业工具对其进行了测试。
GPT-5成功率:12.7%–68%
DeepSeek:29.3%
Qwen2.5-VL:0.0%
Gemini:视频转 Lottie 0.0%
OmniLottie:文本转Lottie成功率97.3%,图片转Lottie成功率92%,视频转Lottie成功率90.7%。
每次成功生成,其速度比基于优化的方法快 530 倍。
秘密武器:一个定制的 Lottie 分词器,它可以去除所有冗余的 JSON 元数据,并将动画转换为紧凑的命令序列。原始的 Lottie JSON 数据会将大部分标记浪费在格式化上。分词器则能将模型的重点放在真正重要的部分——形状、运动和时间上。
他们还创建了 MMLottie-2M 数据集,其中包含 200 万个专业设计的矢量动画,并附有文本、图像和视频注释。这是迄今为止最大的矢量动画数据集,已公开发布。
来自复旦大学、StepFun、香港大学 MMLab 和昆士兰大学。