斜杠中年斜杠中年AI × 沟通 × 商业 × 人生
AI 实战指南

我是怎样用 LTX 2.3、OmniVoice、ChatGPT Image 2 和 CapCut 制作 AI YouTube Shorts

这篇文章拆解我制作一个 AI YouTube Short 的完整流程:用 OmniVoice 克隆自己的声音,用 ChatGPT Image 2 生成画面,用 LTX 2.3 做 audio to video 和 lipsync,最后在 CapCut 完成剪辑、字幕、节奏和发布前检查。

2026-06-03更新: 2026-06-036 分钟阅读Wesley Chong
#AI Shorts#LTX 2.3#OmniVoice#ChatGPT Image 2#CapCut
我是怎样用 LTX 2.3、OmniVoice、ChatGPT Image 2 和 CapCut 制作 AI YouTube Shorts|AI 实战指南 封面图

摘要

我的 AI Shorts 工作流不是只靠一个工具完成,而是把四个工具串起来:OmniVoice 负责声音,ChatGPT Image 2 负责静态视觉,LTX 2.3 把声音和画面变成会说话的视频,CapCut 负责最后的节奏、字幕、音量和发布质感。

一句话流程

这个 YouTube Short 的制作流程是:

OmniVoice 克隆我的声音 → ChatGPT Image 2 生成画面 → LTX 2.3 做 audio to video 和 lipsync → CapCut 完成后期。

我不会把它当成“按一个按钮生成影片”。比较准确的说法是:我把 AI 当成一个小型制作团队,每个工具只负责自己最擅长的环节。

先决定短视频的核心感觉

在打开工具之前,我会先想清楚这支 Short 要给观众什么感觉。

短视频时间很短,所以我不会一开始就追求复杂故事。我的重点通常是三个问题:

  • 这支视频第一秒要让人看到什么?
  • 声音听起来要像我本人在说话,还是更像旁白?
  • 画面应该真实、戏剧化,还是偏 AI 风格?

这一步很重要,因为后面的工具都会受这个判断影响。声音、图片、嘴型同步和剪辑节奏,如果方向不同,最后就会变成一支看起来很厉害但没有统一感的视频。

第一步:用 OmniVoice 克隆我的声音

我先用 OmniVoice 处理声音。

对我来说,声音是短视频的情绪基础。画面可以很炫,但如果声音不像自己,或者语气不自然,观众很快就会感觉不对。

OmniVoice 在这个流程里的任务很清楚:克隆我的声音,让旁白更接近我自己的表达方式。

我会特别注意几件事:

  • 句子不要太长,否则后面做嘴型同步会比较难。
  • 语气要像正常说话,不要太像广告旁白。
  • 每一段音频最好有清楚的停顿,方便后期剪辑。

这里不是只追求“像不像”。更重要的是,这个声音能不能支撑短视频的节奏。

第二步:用 ChatGPT Image 2 生成画面

声音确定之后,我会用 ChatGPT Image 2 生成主要画面。

这一步的目标不是随便做一张漂亮图片,而是做一张可以被 LTX 2.3 转成视频的起点图。换句话说,图片要有足够清楚的人物、构图和视觉方向。

我通常会在提示词里说明:

  • 人物的表情和姿势
  • 场景的气氛
  • 镜头距离,例如近景、中景或半身
  • 光线和风格
  • 画面不要放太多复杂元素

如果画面太复杂,后面视频生成时更容易出现不稳定的问题。对 AI 短视频来说,一张“干净、明确、可动起来”的图片,往往比一张细节爆炸的图片更实用。

第三步:用 LTX 2.3 做 audio to video 和 lipsync

接下来进入核心的视频生成阶段:LTX 2.3

我把前面准备好的声音和图片带进 LTX 2.3,让它根据音频生成视频,并处理嘴型同步。

这一环节我最关心三件事:

  1. 嘴型有没有跟声音对上。
  2. 人物表情有没有自然变化。
  3. 画面运动有没有破坏原本的人物和构图。

Audio to video 很容易让人兴奋,因为它让一张图片突然“活起来”。但我会反复检查嘴巴、牙齿、眼神和脸部边缘。只要这些地方出现明显问题,观众就会立刻出戏。

所以我通常不会只生成一次就结束。我会测试几版,选一版嘴型、表情和稳定性最平衡的结果。

第四步:用 CapCut 做后期

最后我会把 LTX 2.3 输出的视频放进 CapCut

CapCut 在这个流程里不是可有可无的装饰,而是把 AI 生成结果变成短视频作品的地方。

我会在 CapCut 里处理:

  • 剪掉多余停顿
  • 调整开头节奏
  • 加字幕
  • 检查音量和背景声
  • 调整画面裁切,让它适合 Shorts 的竖屏观看
  • 做发布前的最后预览

很多 AI 视频看起来“差一点”,问题不一定出在生成模型,而是缺少最后的剪辑判断。短视频尤其如此。观众不是在看技术演示,他们是在刷内容。节奏慢半秒,字幕太乱,音量不舒服,都会影响观看体验。

为什么我喜欢这个四段式工作流

这个流程的好处是,每一步都可以独立修改。

如果声音不自然,我回到 OmniVoice。
如果画面不够好,我回到 ChatGPT Image 2。
如果嘴型不稳定,我重新测试 LTX 2.3。
如果整体节奏不够顺,我在 CapCut 里重新剪。

这种拆开的方式,比把所有希望压在一个工具上更稳定。它也让我更像是在导演一个 AI 制作流程,而不是被工具随机带着走。

我的实际心得

做完这次测试后,我最大的感受是:AI Shorts 的关键不只是“能不能生成视频”,而是每个环节有没有清楚分工。

OmniVoice 让我保留自己的声音。
ChatGPT Image 2 给我可控的视觉起点。
LTX 2.3 把声音和画面连接成会说话的视频。
CapCut 则负责让作品真的适合发布。

如果你也想做类似的 AI 短视频,我建议不要一开始就追求复杂剧情。先做一个短、清楚、可控的版本,把声音、画面、嘴型和剪辑跑通。流程稳定之后,再慢慢增加创意复杂度。

FAQ

为什么不直接用一个 AI 视频工具完成全部流程?

因为每个环节的要求不同。声音、图片、嘴型同步和后期剪辑各自有不同的判断标准。把工具拆开使用,可以让我更容易控制质量,也更容易在某一个环节重做。

CapCut 在这个流程里还重要吗?

重要。AI 可以生成素材,但短视频最后好不好看,往往取决于节奏、字幕、剪点、音量、封面感和发布前检查。CapCut 是我把 AI 素材整理成可发布作品的最后一步。

常见问题

为什么不直接用一个 AI 视频工具完成全部流程?

因为每个环节的要求不同。声音、图片、嘴型同步和后期剪辑各自有不同的判断标准。把工具拆开使用,可以让我更容易控制质量,也更容易在某一个环节重做。

CapCut 在这个流程里还重要吗?

重要。AI 可以生成素材,但短视频最后好不好看,往往取决于节奏、字幕、剪点、音量、封面感和发布前检查。CapCut 是我把 AI 素材整理成可发布作品的最后一步。

分享这篇文章 / Share Article
Wesley Chong

作者

Wesley Chong

来自马来西亚居銮的软件开发者、数字顾问、Toastmasters 讲员。

专注帮助普通人用 AI 升级沟通、表达、商业与人生。

相关阅读