Gemini Omni:当视频创作的门槛只剩下一句话
AI 产品每日一品
05/21/2026, 12:06:04 PM@不浪

Gemini Omni:当视频创作的门槛只剩下一句话

2026年5月20日,Google I/O 上发布的 Gemini Omni 将视频创作入口从「描述一个画面」变成了「给我你手上有的任何东西」——图片、视频片段、文字、声音皆可混合输入,物理直觉内化于模型,对话式多轮编辑取代了「重新生成」。文章拆解其全媒体输入设计、渐进式编辑体验和 SynthID 水印策略背后的产品逻辑。

Nano Banana 去年让全网开始用对话方式修图。Google I/O 2026 上,Google 把同样的逻辑搬进了视频创作:只要有一张图、一段素材,或者一句话,就可以生成保留主角面孔、场景连贯的 10 秒视频片段。这款产品叫 Gemini Omni,发布后一天内已经引发大量创作者测试,同时也点燃了关于「AI 视频泛滥」的争议。1
如果只看「视频生成」这个功能点,Gemini Omni 并不是第一个做这件事的产品。真正值得注意的是它的设计哲学——输入边界的重新定义——以及 Google 把这个产品放在哪个生态位置上。

不限输入类型:「任意 → 视频」的全媒体入口

传统视频生成工具的入口通常是「输入一段文字描述」。Gemini Omni 的入口是「你手上有什么就给我什么」。
产品支持四类输入的任意组合1
  • 图像:把一张照片或参考图转化为动态视频
  • 现有视频:改变原视频的角色形象、场景风格或运镜角度,「不丢失原始场景的叙事线」
  • 文字提示:纯文本描述生成视频
  • 语音参考(beta):以用户自己的声音为输入,初期仅支持声音参考,更多音频类型后续开放
一个设计细节很能说明问题:Google 把把几种输入来源混合使用定义为默认操作,而不是特殊功能。这意味着用户可以上传一张自拍,叠加一段文字描述换背景,再指定一种运镜风格,系统会把这些输入整合为一个结果。
这在产品设计层面有一个直接效果:创作起点从「我要描述一个视频」变成了「我有什么素材」
Google 官方演示:从参考图生成保留主角面貌的视频片段。

物理直觉作为内容生成底层

Google 在发布文档里提到一个具体细节:Gemini Omni「对重力、动能、流体动力学等物理规律有更精准的理解」。1
这不是在说模型会算力学方程。它的含义是:当你要求生成「一杯水洒出来」,AI 会让水以正确的弧度落下;当你要求「一棵树在风中摇摆」,枝条的运动方向会符合物理直觉。这是视频生成与图像生成在复杂度上的核心差距——图像只需要在一个瞬间合理,视频需要在每一帧与每一帧之间都合理。
Gemini Omni 还被设计为可以调用 Gemini 自身的知识库来驱动内容创作。简单说,「生成一段解释黑洞的科普视频」这类需求,不再只依赖模型见过的视频素材,而是可以把知识内容直接可视化。
对产品设计者来说,这个能力背后有个可以借鉴的决策逻辑:把领域知识作为生成模型的隐性约束,而不是靠提示词去逼近「大概对的」输出。这在用户端体现为——模型像一个懂行的人,而不是一个听话但不知道对不对的执行器。

对话式编辑:视频创作第一次有了「撤销+微调」体验

Gemini Omni 的编辑交互设计是另一个值得拆解的点。
过去的 AI 视频工具,生成一次是一次。如果结果不满意,要么重新写提示词,要么接受。Gemini Omni 允许用自然语言多轮修改1
「把背景换成夜晚的城市」→「镜头从左边推进」→「给主角加一件外套」
每一轮对话都承接上一轮的修改结果,且角色一致性、物理逻辑和场景连贯性会被保持。这在结构上接近专业视频剪辑软件的「撤销历史」,但操作层用的是自然语言而不是时间轴。
这个交互设计拆解开来有两个决策:
  1. 以轮次为记忆单位,而不是要求用户在一次提示词里把所有需求说清楚——降低了用户表达成本,允许渐进式创作。
  2. 跨轮次维持对象一致性,而不是每次重新生成——解决了 AI 工具最常见的「每次出来都不一样」投诉。
这两个决策组合,让视频创作从「博运气」变成了「渐进迭代」。

数字化身:个人形象的视频复用

Gemini Omni 的另一个入口是「使用自己的声音创建数字化身」(Avatar 功能)。用户可以基于自己的面孔和声音,生成符合自身音容的视频片段,用于二次创作或个人内容。
这个功能目前仍在有限测试中,Google 表示还在探索「如何负责任地向大众开放」。1
值得注意的是 YouTube Shorts 的整合方向:从本周起,YouTube Create 和 YouTube Shorts Remix 用户可以免费试用 Gemini Omni Flash——直接把自己加入已有的 Shorts 视频进行二次创作。这是一个把 UGC 创作工具和 AI 生成能力做强绑定的商业设计,YouTube 上每天新增的视频内容成为这个功能天然的「可改写素材库」。2

SynthID 的系统性布局

所有 Gemini Omni 生成的视频,默认嵌入不可感知的 SynthID 数字水印,可通过 Gemini App、Chrome 或 Google 搜索验证内容来源。1
这是一个产品策略选择,而不只是技术安全措施。Google 此前披露 SynthID 水印系统已经覆盖了超过 1000 亿张 AI 生成的图像和视频,以及数万年时长的音频内容;OpenAI、Kakao、ElevenLabs 已加入采用该技术。2
把水印作为默认设置(而不是需要手动开启),意味着 Google 在用可验证性换取平台信任——「AI Slop」的泛滥问题是 Gemini Omni 发布后最主要的用户质疑,SynthID 是 Google 给出的防御性设计回应。3

用户的真实反应:配额消耗和能力边界

Reddit r/singularity 上的早期测试者提出了一个具体问题:「我做了 4 个视频,整个 5 小时使用窗口就耗尽了。现在 Pro 计划里的 Gemini 3 Flash 和 3.1 Pro 都用不了了。」3
视频生成的计算成本远高于图像生成,Gemini Omni 在共享订阅配额这件事上带来的影响,是目前用户抱怨最集中的一点。这也是「会话式 AI 工具」一旦加入高算力媒体生成功能后必然遇到的定价设计难题:同一个订阅计划里,文字对话、图像生成和视频生成的资源消耗完全不在一个量级。
另一个争议:部分用户认为 Gemini Omni Flash 的输出质量与 Veo 3.1 并无明显提升,质疑产品是否有足够的差异化。这背后有一个解释值得关注——Gemini Omni 取代的是 Gemini App 内的旧版 Veo,而不是独立的 Veo 产品线;它的差异化不在于视频质量本身,而在于与 Gemini 知识库的整合深度和对话式编辑体验3

值得借鉴的三条设计信号

1. 输入边界即获客策略
Gemini Omni 接受「任何你手上有的素材」,本质上是在降低用户「开始使用」的门槛。用户不需要从零构建一个创意,只需要拿手上已有的东西来改造。这个设计思路——把用户现有资产作为功能入口——在构建创作类工具时有直接的参考价值。
2. 渐进式编辑对抗不确定性
AI 生成的最大用户痛点是「不可控」:不知道会出来什么,也不能精准修改。Gemini Omni 用多轮对话 + 跨轮次一致性回应这个痛点。类似的设计思路可以推广到任何「AI 辅助生产内容」的场景——重要的不是第一次生成得多好,而是让用户感觉自己在「驾驶」而不是「抽奖」。
3. 可验证性作为用户信任的基础设施
SynthID 的强制默认水印是一个产品选择,而不是安全合规义务。它把「这是 AI 生成」从耻辱变成了可公开核查的属性。对任何引入 AI 生成内容的平台,考虑为内容添加可溯源的标记——不是为了限制,而是建立「这个平台的内容是可信的」这个基础。
Loading link preview…

Add more perspectives or context around this Drop.

  • Sign in to comment.