使用 Wan2GP、LTX 2.3 和 OmniVoice 创作 AI 生成视频: detrás de scenes 的柔佛州选举石狮子播客视频
介绍
近期,一段名为《居銮石狮子都要下来做Podcast,柔佛州选大乱斗?》的 YouTube 视频(观看链接)在马来西亚社交媒体上引起关注。视频中,居銮的石狮子化身播客主持人,幽默评论柔佛州选举的最新发展。有趣的是,这段视频完全由 AI 工具生成:作者使用了 Wan2GP 进行视频生成,LTX 2.3 提升视频质量,以及 OmniVoice 合成逼真的播客配音。
本文将详细介绍这些工具的特点、它们在视频创作中的协同工作流程,以及使用 AI 工具制作时事评论内容的启示。
工具概览
Wan2GP:低显存友好的 AI 视频生成器
Wan2GP 是一个专为低显存 GPU 设计的开源 AI 视频生成工具,能够在消费级显卡上生成高质量视频。它基于 Wan 系列模型优化,特别适合快速生成短片和社会性内容。
- 官网:Wan2GP: Free AI Video Generator Online, No Install
- GitHub:deepbeepmeep/Wan2GP
- 特点:无需安装、在线使用、低 VRAM 消耗,适合快速原型制作
LTX 2.3:最新开源 AI 视频模型
LTX 2.3 是 LTX Model 团队发布的开源 AI 视频生成模型,支持 4K 分辨率和 50 FPS 的视频输出,并内置原生音频生成功能。该模型在文本到视频和图像到视频任务上表现出色。
- 官方介绍:LTX-2.3: Introducing LTX's Latest AI Video Model
- 教程:LTX-2.3 Tutorial: Text to Video and Image to Video
- 特点:高分辨率、流畅帧率、开源社区活跃
OmniVoice:多语言 AI 声音克隆与 TTS
OmniVoice 是一个支持 600+ 种语言的 AI 声音生成平台,具备零样本声音克隆和自然语音合成能力。它能够根据短音频样本生成目标声音,或直接从文本合成多语言语音。
- 官网:OmniVoice: Free AI Voice Generator & Voice Cloning
- GitHub:k2-fsa/OmniVoice
- 特点:跨语言支持、声音克隆保真度高、免费使用额度 generous
视频创作 workflow
1. 内构思与脚本编写
首先,作者根据柔佛州选举的最新新闻撰写了播客脚本,内容包括石狮子“下山”、选举混乱以及地方民众反应等幽默元素。脚本采用中英双语混合风格,以增加趣味性和传播范围。
2. 音频生成(OmniVoice)
使用 OmniVoice,作者选择了一个中年男性声音作为石狮子的声音特征。通过上传一段样本音频(或使用内置声音库),OmniVoice 生成了完整的播客配音音频文件。该工具的多语言支持确保了中文发音的自然流畅。
3. 视频基础生成(Wan2GP)
有了配音后,作者将脚本关键场景的文本描述输入 Wan2GP。例如:
- “一个古老的石狮子在居銮镇街道上走动,背景是柔佛州政府大楼”
- “石狮子拿着麦克风,表情严肃地讨论选举结果”
Wan2GP 在低显存环境下快速生成了这些场景的基础视频片段,尽管分辨率和细节可能有所限制。
4. 视频增强(LTX 2.3)
为了提升视频质量,作者将 Wan2GP 生成的初始片段导入 LTX 2.3 进行二次处理。LTX 2.3 的超分辨率和帧率插值功能使视频达到更清晰、更流畅的效果,特别是在石狮子的纹理和动作细节上。
5. 音视频合成与后期
最后,使用视频编辑软件(如 DaVinci Resolve 或 CapCut),作者将 OmniVoice 生成的配音与 LTX 2.3 增强后的视频轨道同步合成。添加了字幕、背景音乐和简单的过渡效果,完成了最终视频的制作。
成果与反思
通过这个工作流程,作者成功在几天内制作出了一段具有新闻时效性和娱乐性的 AI 生成视频。视频在 YouTube 上获得了数千次观看和大量评论,观众普遍对石狮子配音的逼真度和视频的讽刺意味表示赞赏。
关键优势:
- 成本极低:所有工具均有免费层级或开源版本,避免了传统视频制作的人力和设备开支。
- 速度奇快:从构思到成片不到 24 小时,能够紧跟热点事件。
- 创意自由:AI 工具使得原本难以实现的概念(如石狮子播客)成为可能。
局限性与改进方向:
- 生成视频偶尔存在轻微的“不自然感”(如嘴型不同步),需要后期微调。
- 对于复杂镜头运动和多角色交互,AI 仍难以完全替代真人拍摄。
- 未来可探索使用更先进的模型(如 Wan 2.2)或结合运动控制技术提升一致性。
结论
这个案例展示了现代 AI 工具链在内容创造中的强大潜力。通过组合 Wan2GP(快速原型)、LTX 2.3(质量提升)和 OmniVoice(声音合成),创作者能够以极低的门槛制作出专业水准的视频内容。对于新闻评论、社会 satire 和教育类内容,这种工作流程特别适合快速响应和实验性表达。
随着 AI 视频和语音模型的持续进步,我们可以期待更多创作者利用类似工具链来表达观点、讲述故事——甚至让石狮子也能有自己的播客频道。



