Pixelle-Video：输入一个主题，AI 自动生成短视频的开源引擎

🎯 一句话总结： Pixelle-Video 是一个开源的 AI 全自动短视频引擎。你只需要输入一个主题，它就能把文案、分镜、配图/视频、语音、BGM 和最终合成串成一条完整流水线。

Pixelle-Video AI 全自动短视频引擎 图1：Pixelle-Video 的核心价值，是把短视频生产拆成可自动化、可替换、可批量运行的流水线。

Pixelle-Video 是什么？

Pixelle-Video 是 AIDC-AI 开源的 AI Fully Automated Short Video Engine，中文可以理解为“AI 全自动短视频引擎”。

项目地址：https://github.com/AIDC-AI/Pixelle-Video

它不是单点的视频生成模型，而是一个完整的内容生产系统：

输入主题；
LLM 自动写视频文案；
根据文案拆分分镜；
为每个分镜生成图片或视频素材；
调用 TTS 生成解说音频；
添加 BGM；
套用 HTML 视频模板；
合成为最终短视频。

换句话说，它解决的不是“生成一张图”或“生成一段视频”，而是 从选题到成片的自动化链路。

为什么值得关注？

短视频创作里真正耗时间的，往往不是某一个步骤，而是整个流程的反复切换：写稿、找图、配音、剪辑、加字幕、调版式、导出。

Pixelle-Video 有意思的地方在于，它把这些步骤做成了模块化流水线。

Pixelle-Video 生成流程 图2：Pixelle-Video 的生成流程：主题 → 文案 → 分镜 → 素材 → 配音 → 模板合成。

这种设计有几个好处：

能批量生产：适合短视频矩阵和内容测试；
能替换模型：LLM、图像模型、TTS、视频模型都可以换；
能保留人工控制：不满意可以改文案、换模板、换提示词；
能接本地工作流：支持 ComfyUI、本地模型、ffmpeg 等工具；
能接云端算力：支持 RunningHub 这类云端工作流。

对于内容创作者来说，它更像一个“AI 视频生产后台”，而不是一个单纯的生成器。

核心功能亮点

1. 自动生成视频文案

Pixelle-Video 支持用 LLM 根据主题生成解说文案。你可以输入类似：

为什么普通人应该学会使用 AI Agent？

系统会自动扩展为适合口播或图文视频的脚本。

支持的模型方向包括：

GPT / OpenAI-compatible API；
通义千问；
DeepSeek；
Ollama 本地模型；
其他兼容接口。

如果你已经有成熟文案，也可以使用“固定文案内容”模式，跳过 AI 写稿，直接进入素材和合成阶段。

2. AI 配图与 AI 视频

Pixelle-Video 可以为每句话生成配图，也支持视频生成工作流。

它的亮点在于对 ComfyUI 工作流的支持。你可以使用预置工作流，也可以替换成自己的模型和节点组合。

仓库中内置了多种 workflow，例如：

image_flux.json
image_qwen.json
image_nano_banana.json
video_wan2.1_fusionx.json
analyse_image.json
analyse_video.json

这意味着它不是绑定某个单一图像模型，而是更偏向“工作流编排器”。

3. 多种 TTS 配音方案

短视频是否像样，声音很关键。

Pixelle-Video 支持多种 TTS 工作流，包括：

Edge-TTS；
Index-TTS；
Spark TTS；
多语言音色；
参考音频 / 音色克隆。

如果你要做口播号、知识科普号、情感文案号，TTS 质量会直接影响完播率。Pixelle-Video 把 TTS 作为流水线中的可配置模块，这一点很实用。

4. 模板化视频合成

Pixelle-Video 的模板放在 templates/ 目录下，并按尺寸区分：

templates/1080x1920/
templates/1920x1080/
templates/1080x1080/

命名规则也比较清楚：

模板类型	说明
`static_*.html`	静态模板，偏文字样式
`image_*.html`	图片背景模板
`video_*.html`	视频背景模板
`asset_*.html`	自定义素材模板

这套设计很适合做内容模板库。比如你可以为“科普号”“历史号”“情感号”“营销号”分别准备不同模板。

新增能力：数字人口播、图生视频、动作迁移

Pixelle-Video 最近的更新明显在往“完整内容工作台”方向走，而不是只做图文视频。

Pixelle-Video 能力模块 图3：Pixelle-Video 的能力模块：标准生成、图生视频、数字人口播、动作迁移、自定义素材。

数字人口播

数字人口播适合做：

产品讲解；
课程导流；
跨境电商介绍；
新闻播报；
知识科普。

这类视频的重点是稳定、批量和低成本。只要模板和声音风格调好，就可以持续生产同一风格的视频。

图生视频

图生视频适合把静态图片变成动态内容，比如：

商品图动效；
人物图轻微运动；
海报变视频；
AI 插画动态化。

它适合小红书、TikTok、Reels 这类以视觉吸引为主的平台。

动作迁移

动作迁移模块允许上传参考视频和图片，让目标图像继承参考动作。

适合做：

舞蹈类视频；
虚拟角色动作；
表情包动效；
IP 角色短视频。

这个方向很容易出爆款，但也要注意素材授权和肖像权边界。

自定义素材

自定义素材功能允许用户上传自己的照片和视频，由 AI 分析后生成脚本并参与合成。

这对真实业务更重要，因为很多商业内容并不是纯 AI 生成，而是“真实素材 + AI 包装”。

快速开始

Windows 用户：一键整合包

Windows 用户可以直接下载官方整合包：

https://github.com/AIDC-AI/Pixelle-Video/releases/latest

基本流程：

下载最新 Windows 一键整合包；
解压；
双击 start.bat；
浏览器打开 http://localhost:8501；
在系统配置中填写 LLM API 和图像生成服务；
开始生成视频。

这个方式最适合普通用户，因为不需要先安装 Python、uv 或 ffmpeg。

源码安装

适合 macOS / Linux 用户，或者需要自定义模板和工作流的人。

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

启动后访问：

http://localhost:8501

前置依赖主要是：

uv
ffmpeg

如果你要跑本地图像或视频生成，还需要准备 ComfyUI 和对应模型。

目录结构怎么看？

这个项目的结构比较清晰，几个重点目录如下：

web/                  # Streamlit Web 界面
web/components/       # 页面组件：配置、输入、样式、预览
web/pipelines/        # Web 侧流水线：标准、图生视频、数字人、动作迁移
pixelle_video/        # 核心业务代码
pixelle_video/pipelines/
templates/            # HTML 视频模板
workflows/            # ComfyUI / RunningHub 工作流
api/                  # API 服务
bgm/                  # 背景音乐

如果你想二次开发，建议优先看：

web/app.py
web/components/settings.py
web/components/content_input.py
web/components/style_config.py
web/components/output_preview.py
pixelle_video/pipelines/standard.py
pixelle_video/pipelines/asset_based.py
templates/1080x1920/
workflows/selfhost/

适合哪些场景？

Pixelle-Video 适合的场景非常明确：

场景	适合程度	原因
AI 科普号	高	文案、图像、配音都可自动化
情感文案号	高	模板化程度高，适合批量测试
历史/知识解说	高	分镜清晰，适合长文拆短视频
产品营销视频	中高	可结合自定义素材
数字人口播	中高	适合标准化介绍类内容
高质量品牌广告	中	仍需要人工审美和后期
电影级视频	较低	更适合短内容流水线，不是影视工业软件

我的判断是：它最适合 从 0 到 80 分的短视频自动化生产。如果你追求 95 分以上的商业大片，还需要人工导演、剪辑和精修。

成本怎么控制？

Pixelle-Video 支持免费或低成本方案。

免费方案

LLM：Ollama 本地模型；
图像：本地 ComfyUI；
TTS：Edge-TTS；
合成：本地 ffmpeg。

优点是成本低，缺点是本地显卡和模型配置门槛较高。

平衡方案

LLM：通义千问 / DeepSeek；
图像：本地 ComfyUI 或 RunningHub；
TTS：Edge-TTS / Index-TTS；
合成：本地。

这是比较现实的方案，速度、成本、质量都比较平衡。

云端方案

LLM：OpenAI / Claude / 其他云端模型；
图像/视频：RunningHub；
TTS：云端或本地；
合成：本地或服务器。

优点是省硬件，缺点是批量生成时成本会明显上升。

和 MoneyPrinterTurbo 有什么不同？

Pixelle-Video 的思路和 MoneyPrinterTurbo 有相似之处：都是自动化短视频生产。

但 Pixelle-Video 更强调：

ComfyUI 工作流能力：更适合自定义图像/视频生成；
多模式生产：标准视频、图生视频、数字人口播、动作迁移；
模板体系：HTML 模板更容易定制不同风格；
Web UI 产品化：普通用户更容易上手；
素材驱动：支持上传自己的图片/视频参与生成。

简单说，MoneyPrinterTurbo 更像“自动短视频脚本机”，Pixelle-Video 更像“短视频 AIGC 工作台”。

使用建议

如果你准备实际用它做内容，我建议这样开始：

先用 Windows 整合包或 Web UI 跑通流程；
只生成 15～30 秒短视频，先验证风格；
固定一个细分赛道，比如 AI 工具、历史冷知识、英语学习；
打磨 1～2 个模板，不要一开始频繁换风格；
建立选题表，批量测试标题和开头 3 秒；
人工审核文案事实，尤其是金融、医疗、法律、历史内容；
注意素材版权和肖像权，不要滥用未授权人物图像。

AI 可以把生产速度拉高，但选题、审美、事实准确性仍然需要人负责。

总结

Pixelle-Video 值得关注，是因为它把 AI 短视频生产从“单点工具”推进到了“流水线系统”。

它不是只帮你生成一张图、一段语音或一个视频片段，而是把短视频生产拆成：

主题 → 文案 → 分镜 → 图像/视频 → 配音 → BGM → 模板 → 成片

对于想做短视频矩阵、AI 内容号、产品营销素材、本地 AIGC 工作流的人来说，这类开源项目会越来越重要。

如果你只是想体验，Windows 整合包最快；如果你想深度定制，源码安装 + ComfyUI 工作流才是它真正好玩的地方。