🎯 一句话总结: Pixelle-Video 是一个开源的 AI 全自动短视频引擎。你只需要输入一个主题,它就能把文案、分镜、配图/视频、语音、BGM 和最终合成串成一条完整流水线。

Pixelle-Video AI 全自动短视频引擎 图1:Pixelle-Video 的核心价值,是把短视频生产拆成可自动化、可替换、可批量运行的流水线。


Pixelle-Video 是什么?

Pixelle-Video 是 AIDC-AI 开源的 AI Fully Automated Short Video Engine,中文可以理解为“AI 全自动短视频引擎”。

项目地址:https://github.com/AIDC-AI/Pixelle-Video

它不是单点的视频生成模型,而是一个完整的内容生产系统:

  1. 输入主题;
  2. LLM 自动写视频文案;
  3. 根据文案拆分分镜;
  4. 为每个分镜生成图片或视频素材;
  5. 调用 TTS 生成解说音频;
  6. 添加 BGM;
  7. 套用 HTML 视频模板;
  8. 合成为最终短视频。

换句话说,它解决的不是“生成一张图”或“生成一段视频”,而是 从选题到成片的自动化链路


为什么值得关注?

短视频创作里真正耗时间的,往往不是某一个步骤,而是整个流程的反复切换:写稿、找图、配音、剪辑、加字幕、调版式、导出。

Pixelle-Video 有意思的地方在于,它把这些步骤做成了模块化流水线。

Pixelle-Video 生成流程 图2:Pixelle-Video 的生成流程:主题 → 文案 → 分镜 → 素材 → 配音 → 模板合成。

这种设计有几个好处:

  • 能批量生产:适合短视频矩阵和内容测试;
  • 能替换模型:LLM、图像模型、TTS、视频模型都可以换;
  • 能保留人工控制:不满意可以改文案、换模板、换提示词;
  • 能接本地工作流:支持 ComfyUI、本地模型、ffmpeg 等工具;
  • 能接云端算力:支持 RunningHub 这类云端工作流。

对于内容创作者来说,它更像一个“AI 视频生产后台”,而不是一个单纯的生成器。


核心功能亮点

1. 自动生成视频文案

Pixelle-Video 支持用 LLM 根据主题生成解说文案。你可以输入类似:

为什么普通人应该学会使用 AI Agent?

系统会自动扩展为适合口播或图文视频的脚本。

支持的模型方向包括:

  • GPT / OpenAI-compatible API;
  • 通义千问;
  • DeepSeek;
  • Ollama 本地模型;
  • 其他兼容接口。

如果你已经有成熟文案,也可以使用“固定文案内容”模式,跳过 AI 写稿,直接进入素材和合成阶段。

2. AI 配图与 AI 视频

Pixelle-Video 可以为每句话生成配图,也支持视频生成工作流。

它的亮点在于对 ComfyUI 工作流的支持。你可以使用预置工作流,也可以替换成自己的模型和节点组合。

仓库中内置了多种 workflow,例如:

  • image_flux.json
  • image_qwen.json
  • image_nano_banana.json
  • video_wan2.1_fusionx.json
  • analyse_image.json
  • analyse_video.json

这意味着它不是绑定某个单一图像模型,而是更偏向“工作流编排器”。

3. 多种 TTS 配音方案

短视频是否像样,声音很关键。

Pixelle-Video 支持多种 TTS 工作流,包括:

  • Edge-TTS;
  • Index-TTS;
  • Spark TTS;
  • 多语言音色;
  • 参考音频 / 音色克隆。

如果你要做口播号、知识科普号、情感文案号,TTS 质量会直接影响完播率。Pixelle-Video 把 TTS 作为流水线中的可配置模块,这一点很实用。

4. 模板化视频合成

Pixelle-Video 的模板放在 templates/ 目录下,并按尺寸区分:

templates/1080x1920/
templates/1920x1080/
templates/1080x1080/

命名规则也比较清楚:

模板类型说明
static_*.html静态模板,偏文字样式
image_*.html图片背景模板
video_*.html视频背景模板
asset_*.html自定义素材模板

这套设计很适合做内容模板库。比如你可以为“科普号”“历史号”“情感号”“营销号”分别准备不同模板。


新增能力:数字人口播、图生视频、动作迁移

Pixelle-Video 最近的更新明显在往“完整内容工作台”方向走,而不是只做图文视频。

Pixelle-Video 能力模块 图3:Pixelle-Video 的能力模块:标准生成、图生视频、数字人口播、动作迁移、自定义素材。

数字人口播

数字人口播适合做:

  • 产品讲解;
  • 课程导流;
  • 跨境电商介绍;
  • 新闻播报;
  • 知识科普。

这类视频的重点是稳定、批量和低成本。只要模板和声音风格调好,就可以持续生产同一风格的视频。

图生视频

图生视频适合把静态图片变成动态内容,比如:

  • 商品图动效;
  • 人物图轻微运动;
  • 海报变视频;
  • AI 插画动态化。

它适合小红书、TikTok、Reels 这类以视觉吸引为主的平台。

动作迁移

动作迁移模块允许上传参考视频和图片,让目标图像继承参考动作。

适合做:

  • 舞蹈类视频;
  • 虚拟角色动作;
  • 表情包动效;
  • IP 角色短视频。

这个方向很容易出爆款,但也要注意素材授权和肖像权边界。

自定义素材

自定义素材功能允许用户上传自己的照片和视频,由 AI 分析后生成脚本并参与合成。

这对真实业务更重要,因为很多商业内容并不是纯 AI 生成,而是“真实素材 + AI 包装”。


快速开始

Windows 用户:一键整合包

Windows 用户可以直接下载官方整合包:

https://github.com/AIDC-AI/Pixelle-Video/releases/latest

基本流程:

  1. 下载最新 Windows 一键整合包;
  2. 解压;
  3. 双击 start.bat
  4. 浏览器打开 http://localhost:8501
  5. 在系统配置中填写 LLM API 和图像生成服务;
  6. 开始生成视频。

这个方式最适合普通用户,因为不需要先安装 Python、uv 或 ffmpeg。

源码安装

适合 macOS / Linux 用户,或者需要自定义模板和工作流的人。

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

启动后访问:

http://localhost:8501

前置依赖主要是:

  • uv
  • ffmpeg

如果你要跑本地图像或视频生成,还需要准备 ComfyUI 和对应模型。


目录结构怎么看?

这个项目的结构比较清晰,几个重点目录如下:

web/                  # Streamlit Web 界面
web/components/       # 页面组件:配置、输入、样式、预览
web/pipelines/        # Web 侧流水线:标准、图生视频、数字人、动作迁移
pixelle_video/        # 核心业务代码
pixelle_video/pipelines/
templates/            # HTML 视频模板
workflows/            # ComfyUI / RunningHub 工作流
api/                  # API 服务
bgm/                  # 背景音乐

如果你想二次开发,建议优先看:

  • web/app.py
  • web/components/settings.py
  • web/components/content_input.py
  • web/components/style_config.py
  • web/components/output_preview.py
  • pixelle_video/pipelines/standard.py
  • pixelle_video/pipelines/asset_based.py
  • templates/1080x1920/
  • workflows/selfhost/

适合哪些场景?

Pixelle-Video 适合的场景非常明确:

场景适合程度原因
AI 科普号文案、图像、配音都可自动化
情感文案号模板化程度高,适合批量测试
历史/知识解说分镜清晰,适合长文拆短视频
产品营销视频中高可结合自定义素材
数字人口播中高适合标准化介绍类内容
高质量品牌广告仍需要人工审美和后期
电影级视频较低更适合短内容流水线,不是影视工业软件

我的判断是:它最适合 从 0 到 80 分的短视频自动化生产。如果你追求 95 分以上的商业大片,还需要人工导演、剪辑和精修。


成本怎么控制?

Pixelle-Video 支持免费或低成本方案。

免费方案

  • LLM:Ollama 本地模型;
  • 图像:本地 ComfyUI;
  • TTS:Edge-TTS;
  • 合成:本地 ffmpeg。

优点是成本低,缺点是本地显卡和模型配置门槛较高。

平衡方案

  • LLM:通义千问 / DeepSeek;
  • 图像:本地 ComfyUI 或 RunningHub;
  • TTS:Edge-TTS / Index-TTS;
  • 合成:本地。

这是比较现实的方案,速度、成本、质量都比较平衡。

云端方案

  • LLM:OpenAI / Claude / 其他云端模型;
  • 图像/视频:RunningHub;
  • TTS:云端或本地;
  • 合成:本地或服务器。

优点是省硬件,缺点是批量生成时成本会明显上升。


和 MoneyPrinterTurbo 有什么不同?

Pixelle-Video 的思路和 MoneyPrinterTurbo 有相似之处:都是自动化短视频生产。

但 Pixelle-Video 更强调:

  1. ComfyUI 工作流能力:更适合自定义图像/视频生成;
  2. 多模式生产:标准视频、图生视频、数字人口播、动作迁移;
  3. 模板体系:HTML 模板更容易定制不同风格;
  4. Web UI 产品化:普通用户更容易上手;
  5. 素材驱动:支持上传自己的图片/视频参与生成。

简单说,MoneyPrinterTurbo 更像“自动短视频脚本机”,Pixelle-Video 更像“短视频 AIGC 工作台”。


使用建议

如果你准备实际用它做内容,我建议这样开始:

  1. 先用 Windows 整合包或 Web UI 跑通流程
  2. 只生成 15~30 秒短视频,先验证风格;
  3. 固定一个细分赛道,比如 AI 工具、历史冷知识、英语学习;
  4. 打磨 1~2 个模板,不要一开始频繁换风格;
  5. 建立选题表,批量测试标题和开头 3 秒;
  6. 人工审核文案事实,尤其是金融、医疗、法律、历史内容;
  7. 注意素材版权和肖像权,不要滥用未授权人物图像。

AI 可以把生产速度拉高,但选题、审美、事实准确性仍然需要人负责。


总结

Pixelle-Video 值得关注,是因为它把 AI 短视频生产从“单点工具”推进到了“流水线系统”。

它不是只帮你生成一张图、一段语音或一个视频片段,而是把短视频生产拆成:

主题 → 文案 → 分镜 → 图像/视频 → 配音 → BGM → 模板 → 成片

对于想做短视频矩阵、AI 内容号、产品营销素材、本地 AIGC 工作流的人来说,这类开源项目会越来越重要。

如果你只是想体验,Windows 整合包最快;如果你想深度定制,源码安装 + ComfyUI 工作流才是它真正好玩的地方。