AI 工具
AI 工具
斜杠中年整理的实用工具清单:写作、研究、设计、视频、本地模型和开源工作流。商业工具和开源工具放在一起,方便你按场景选择。
ChatGPT
通用型 AI 助手,适合起草内容、整理想法、解释资料、辅助写代码、处理图片任务,也能把零散念头变成更清楚的输出。
适合场景
日常写作、想法发展、快速解释资料,以及搭建个人或小生意可重复使用的工作流。
Claude
适合长文档阅读、结构化写作、分析、代码讨论和细致改稿的 AI 助手,回答风格通常比较稳、比较有层次。
适合场景
深度阅读、文章重写、内容规划、客户笔记,以及需要语气和判断力的复杂对话。
ElevenLabs
行业领先的 AI 语音与音频生成平台,提供极为逼真的文本转语音、声音克隆、音效生成及高保真 AI 背景音乐创作能力。
适合场景
需要超自然旁白配音、多语言翻译、游戏音效、声音克隆,以及一站式音频工作流的视频创作者、独立开发者与企业。
FLUX.2
Black Forest Labs 的图像生成模型,适合测试高质量视觉生成、创意概念图和可控图片工作流。
适合场景
图片生成、视觉方向探索、设计原型,以及把开源图像模型接入自定义创作流程。
Free Claude Code
一个开源的 Claude Code 代理工具,允许你在终端、VSCode 插件或 Discord 中免费或使用自定义模型运行 Claude Code CLI。
适合场景
希望在本地终端或 VSCode 中免费使用 Claude Code 官方命令行工具,或将其路由到 Gemini、DeepSeek 等其他大模型的开发者。
Ollama
开源本地模型工具,让开发者和重视隐私的用户可以在自己的电脑上运行、测试大语言模型。
适合场景
在本机测试模型、搭建本地 AI 原型,并减少对云端 AI 服务的依赖。
Qwen3.6
阿里 Qwen 系列开放模型,适合开发者测试中文、代码、推理和多模态应用场景。
适合场景
中文与英文混合工作流、代码实验、本地模型比较,以及自托管 AI 产品原型。
Suno
全球领先的 AI 音乐与歌曲生成器,支持通过简单的中文或英文文本提示词,在几秒钟内生成包含高质量人声歌唱与歌词的完整原创歌曲。
适合场景
需要快速创作原创歌曲、短视频背景音轨、个性化音乐礼物、或进行歌词概念创作的创作者与音乐爱好者。
Udio
专业的 AI 音乐生成与创作平台,以超高质量的乐器音效、真实感极强的人声表现以及强大的局部细节微调能力而闻名。
适合场景
追求极致音质、需要精细化控制歌曲分段(如局部重构、延长、伴奏单独编辑)的半专业音乐人与创作者。
ACE-Step 1.5
开源、本地可部署的 AI 音乐生成模型,支持利用文本生成完整乐曲和歌词,且支持 LoRA 个性化声音与风格微调。
适合场景
想在本地部署音乐生成模型、训练自己的专属歌声/曲风 LoRA,或探索开源 AI 音乐生成技术流程的开发者与进阶创作者。
Canva AI
Canva 的 AI 设计功能能在熟悉的视觉编辑器里生成简报、社交图片、文案、图片、视频和品牌素材。
适合场景
非设计师快速制作内容素材、工作坊简报、下载资源、小生意宣传图和社交媒体设计。
CapCut
创作者友好的视频编辑器,提供模板、字幕、快速剪辑、特效和 AI 辅助编辑,适合社交媒体内容。
适合场景
剪 Reels、TikTok、YouTube Shorts、口播视频,以及不想上复杂剪辑软件的日常内容。
ComfyUI
节点式开源图片生成界面,适合想深度控制模型、提示词、参数和生成流程的人。
适合场景
高级图片生成流程,尤其是重视控制力、可重复性和实验空间,而不只是追求简单操作。
DeepSeek
DeepSeek 系列模型入口,适合关注推理、代码、长文本处理和开源模型生态的人追踪与测试。
适合场景
研究推理模型、代码助手能力,以及把 DeepSeek 模型接入本地或自托管工作流。
Gemma 4
Google DeepMind 的开放模型系列入口,适合测试多模态理解、指令跟随和本地 AI 应用原型。
适合场景
想评估 Google 开放模型、构建本地助手,或比较多模态模型能力的开发者。
LTX 2.3
Lightricks 的开源 AI 视频生成模型,支持 text-to-video、image-to-video、audio-to-video、竖屏视频和同步音频生成,适合实验本地或 API 视频工作流。
适合场景
想用开源模型测试 AI 短视频、口播、audio-to-video、image-to-video 或 ComfyUI 视频工作流的创作者和开发者。
Midjourney
视觉生成工具,适合做概念图、情绪板、缩略图、品牌方向探索,以及有风格感的图片变体。
适合场景
在确定最终视觉风格之前,快速探索多个有质感的图片方向。
Nano Banana Pro
Google 的 Gemini 3 Pro Image 图像生成与编辑模型,擅长更准确的视觉推理、文字渲染、信息图、产品图和多参考图创作。
适合场景
想测试 Gemini 图像生成、产品宣传图、信息图、带文字图片和多参考图编辑效果的创作者。
Notion AI
内置在 Notion 里的 AI,可用于总结笔记、优化草稿、根据工作区内容回答问题,并整理凌乱的知识库。
适合场景
已经用 Notion 管理笔记、项目或团队文档,并希望 AI 直接嵌入工作区的人。
OmniVoice
开源多语言语音克隆与文本转语音模型,支持少量语音样本进行 zero-shot voice cloning,适合 AI 旁白、口播和多语言配音实验。
适合场景
想用自己的声音做 AI 旁白、口播、短视频配音,或研究开源多语言 TTS 与声音克隆的创作者和开发者。
Open WebUI
自托管 AI 聊天界面,可把本地或云端模型变成熟悉的聊天体验,并提供模型管理和团队使用功能。
适合场景
把 Ollama 或其他模型后端变成可用的私人或团队 AI 聊天工作区。
Remotion
用 React 和 TypeScript 以编程方式制作视频的开源框架,适合把图片、音频、字幕、动画和数据组织成可重复的视频工作流。
适合场景
想用代码控制视频时间轴、批量生成内容、制作歌词视频、产品演示、课程片段或数据驱动视频的创作者和开发者。
Sulphur 2
基于 LTX Video (LTX 2.3) 的开源本地视频生成模型,支持高效的文本生成视频与图片生成视频。
适合场景
想在本地部署高性能视频模型、探索 AI 视频工作流与微调的创作者和开发者。
Z-Image
通义 MAI 的图像生成模型,适合测试快速出图、中文语境视觉生成和开源图片模型工作流。
适合场景
快速生成视觉草稿、比较中文提示词效果,并探索图片生成模型在内容制作里的用法。