我是怎样用 LTX 2.3、OmniVoice、ChatGPT Image 2 和 CapCut 制作 AI YouTube Shorts

一句话流程

这个 YouTube Short 的制作流程是：

OmniVoice 克隆我的声音 → ChatGPT Image 2 生成画面 → LTX 2.3 做 audio to video 和 lipsync → CapCut 完成后期。

我不会把它当成“按一个按钮生成影片”。比较准确的说法是：我把 AI 当成一个小型制作团队，每个工具只负责自己最擅长的环节。

先决定短视频的核心感觉

在打开工具之前，我会先想清楚这支 Short 要给观众什么感觉。

短视频时间很短，所以我不会一开始就追求复杂故事。我的重点通常是三个问题：

这支视频第一秒要让人看到什么？
声音听起来要像我本人在说话，还是更像旁白？
画面应该真实、戏剧化，还是偏 AI 风格？

这一步很重要，因为后面的工具都会受这个判断影响。声音、图片、嘴型同步和剪辑节奏，如果方向不同，最后就会变成一支看起来很厉害但没有统一感的视频。

第一步：用 OmniVoice 克隆我的声音

我先用 OmniVoice 处理声音。

对我来说，声音是短视频的情绪基础。画面可以很炫，但如果声音不像自己，或者语气不自然，观众很快就会感觉不对。

OmniVoice 在这个流程里的任务很清楚：克隆我的声音，让旁白更接近我自己的表达方式。

我会特别注意几件事：

句子不要太长，否则后面做嘴型同步会比较难。
语气要像正常说话，不要太像广告旁白。
每一段音频最好有清楚的停顿，方便后期剪辑。

这里不是只追求“像不像”。更重要的是，这个声音能不能支撑短视频的节奏。

第二步：用 ChatGPT Image 2 生成画面

声音确定之后，我会用 ChatGPT Image 2 生成主要画面。

这一步的目标不是随便做一张漂亮图片，而是做一张可以被 LTX 2.3 转成视频的起点图。换句话说，图片要有足够清楚的人物、构图和视觉方向。

我通常会在提示词里说明：

人物的表情和姿势
场景的气氛
镜头距离，例如近景、中景或半身
光线和风格
画面不要放太多复杂元素

如果画面太复杂，后面视频生成时更容易出现不稳定的问题。对 AI 短视频来说，一张“干净、明确、可动起来”的图片，往往比一张细节爆炸的图片更实用。

第三步：用 LTX 2.3 做 audio to video 和 lipsync

接下来进入核心的视频生成阶段：LTX 2.3。

我把前面准备好的声音和图片带进 LTX 2.3，让它根据音频生成视频，并处理嘴型同步。

这一环节我最关心三件事：

嘴型有没有跟声音对上。
人物表情有没有自然变化。
画面运动有没有破坏原本的人物和构图。

Audio to video 很容易让人兴奋，因为它让一张图片突然“活起来”。但我会反复检查嘴巴、牙齿、眼神和脸部边缘。只要这些地方出现明显问题，观众就会立刻出戏。

所以我通常不会只生成一次就结束。我会测试几版，选一版嘴型、表情和稳定性最平衡的结果。

第四步：用 CapCut 做后期

最后我会把 LTX 2.3 输出的视频放进 CapCut。

CapCut 在这个流程里不是可有可无的装饰，而是把 AI 生成结果变成短视频作品的地方。

我会在 CapCut 里处理：

剪掉多余停顿
调整开头节奏
加字幕
检查音量和背景声
调整画面裁切，让它适合 Shorts 的竖屏观看
做发布前的最后预览

很多 AI 视频看起来“差一点”，问题不一定出在生成模型，而是缺少最后的剪辑判断。短视频尤其如此。观众不是在看技术演示，他们是在刷内容。节奏慢半秒，字幕太乱，音量不舒服，都会影响观看体验。

为什么我喜欢这个四段式工作流

这个流程的好处是，每一步都可以独立修改。

如果声音不自然，我回到 OmniVoice。
如果画面不够好，我回到 ChatGPT Image 2。
如果嘴型不稳定，我重新测试 LTX 2.3。
如果整体节奏不够顺，我在 CapCut 里重新剪。

这种拆开的方式，比把所有希望压在一个工具上更稳定。它也让我更像是在导演一个 AI 制作流程，而不是被工具随机带着走。

我的实际心得

做完这次测试后，我最大的感受是：AI Shorts 的关键不只是“能不能生成视频”，而是每个环节有没有清楚分工。

OmniVoice 让我保留自己的声音。
ChatGPT Image 2 给我可控的视觉起点。
LTX 2.3 把声音和画面连接成会说话的视频。
CapCut 则负责让作品真的适合发布。

如果你也想做类似的 AI 短视频，我建议不要一开始就追求复杂剧情。先做一个短、清楚、可控的版本，把声音、画面、嘴型和剪辑跑通。流程稳定之后，再慢慢增加创意复杂度。

FAQ

为什么不直接用一个 AI 视频工具完成全部流程？

因为每个环节的要求不同。声音、图片、嘴型同步和后期剪辑各自有不同的判断标准。把工具拆开使用，可以让我更容易控制质量，也更容易在某一个环节重做。

CapCut 在这个流程里还重要吗？

重要。AI 可以生成素材，但短视频最后好不好看，往往取决于节奏、字幕、剪点、音量、封面感和发布前检查。CapCut 是我把 AI 素材整理成可发布作品的最后一步。

我是怎样用 LTX 2.3、OmniVoice、ChatGPT Image 2 和 CapCut 制作 AI YouTube Shorts

一句话流程

先决定短视频的核心感觉

第一步：用 OmniVoice 克隆我的声音

第二步：用 ChatGPT Image 2 生成画面

第三步：用 LTX 2.3 做 audio to video 和 lipsync

第四步：用 CapCut 做后期

为什么我喜欢这个四段式工作流

我的实际心得

FAQ

为什么不直接用一个 AI 视频工具完成全部流程？

CapCut 在这个流程里还重要吗？

常见问题

为什么不直接用一个 AI 视频工具完成全部流程？

CapCut 在这个流程里还重要吗？

Wesley Chong

相关阅读

Blender + AI：用 Blender MCP 让你的 3D 建模像描述场景一样简单

和你有关的 AI 新闻（2026 年 7 月）

AI 智能体（如 Hermes）如何守护你的 VPS 健康（在你睡觉时）