跳转到主要内容
MakeAIGuide
高级 60 分钟阅读 更新于 2026年1月5日

Make教程:多模态工作流将文本、音频、视频一键转爆款口播稿

结合Google Gemini视频分析、Replicate音频转录和ByteDance DeepSeek R1风格化写作,支持多模态素材输入,自动生成抖音风格口播稿。

准备好开始自动化了吗?

使用 Make.com 构建此工作流 — 入门版永久免费。

免费试用 Make.com

概述

这是一套支持多模态输入的AI内容创作自动化方案。

无论素材是文本、音频还是视频,都能自动转化为风格化口播稿:

  1. 素材输入 - 在Notion中输入文本或音视频链接
  2. 智能识别 - 自动判断素材类型选择处理链路
  3. 内容提取 - Gemini分析视频/Replicate转录音频
  4. 分段处理 - DataStore智能分段处理长文本
  5. 风格生成 - DeepSeek R1生成抖音风格口播稿

多模态工作流 支持文本、音频、视频多模态输入的工作流


核心决策因素

在选择多模态内容生成方案时,需考量:

  • 多模态支持 - 能否处理文本、音频、视频等多种素材
  • 内容质量 - 生成内容的逻辑连贯性和风格化程度
  • 长文本能力 - 对数千字长篇素材的处理能力
  • 成本效益 - API费用与产出价值的平衡
  • 易用性 - 工作流设置和日常操作的复杂程度

技术规格参考

规格项参数值备注
核心平台Make.com工作流编排
数据库Notion素材管理和结果存储
视频分析Google Gemini ProFlash模型深度分析
素材加工OpenAI GPT-4o Mini初步提取和处理
数据存储Make DataStore长文本分段存储
口播稿生成火山引擎 DeepSeek R1风格化写作
音频转录Replicate长音频快速转录
生成成本8元/百万token可生成30-40万字
视频分析时间150-200秒视频上传后等待
口播稿时长280-300字/分钟3000字支持10分钟视频

前置准备

在开始之前,请确保准备好:

  • Make.com 账号(免费注册)
  • Notion 账号和数据库
  • Google Gemini API密钥
  • 火山引擎 API密钥(ByteDance DeepSeek R1)
  • Replicate 账号(音频转录)
  • 开源直链网盘(音视频文件存储)

Notion数据库结构

创建素材管理数据库,包含以下字段:

  • 素材类型 (Select) - 文本/音频/视频
  • 素材内容 (Text) - 文本内容或音视频链接
  • 状态 (Select) - 待处理/开始/已完成
  • 写作风格 (Text) - 期望的口播稿风格
  • 额外需求 (Text) - 其他定制要求
  • 生成结果 (Text) - AI生成的口播稿

多模态处理架构

文本素材处理

直接将文本内容传入生成模块:

流程:

  1. 从Notion获取文本素材
  2. 使用GPT-4o Mini进行初步加工
  3. 传入DeepSeek R1生成口播稿

音频素材处理

使用Replicate进行音频转录:

配置要点:

  • 支持长音频(数十分钟)处理
  • 中英文识别效果佳
  • 比OpenAI官方模块更稳定

流程:

  1. 获取音频直链URL
  2. Replicate转录为文字
  3. 传入生成模块处理

视频素材处理

完整工作流架构 Make平台中的多模态工作流模块连接

使用Google Gemini进行视频深度分析:

配置要点:

  • 上传视频文件到Gemini
  • 等待150-200秒分析
  • 输出精准文字稿

流程:

  1. 下载视频并获取直链
  2. 上传到Google Gemini
  3. 深度分析提取内容
  4. 传入生成模块处理

长文本分段处理

解决大模型单次输出1000-2000字限制的核心机制:

DataStore分段原理 DataStore数据存储与流转示意图

实现方式:

  1. 智能分段 - 将长素材按500/1000字分段
  2. DataStore存储 - 保存已生成内容作为上下文
  3. Repeater循环 - 逐段生成并累积
  4. 差异化提示词 - 首段和后续段落使用不同策略

首段提示词:

根据以下素材,生成口播稿的开头部分。
要求:抖音口语化风格,吸引观众注意...

后续段落提示词:

继续生成口播稿内容,保持与前文的连贯性。
已生成内容:{{previous_content}}
当前素材段落:{{current_segment}}

风格化写作

生成效果示例 AI生成的口播稿内容和分段排版

火山引擎DeepSeek R1的风格化能力:

特点:

  • 支持思考过程与内容分离
  • 将严肃内容转化为口语化表达
  • 适应财经、电影、育儿等多领域

风格转换示例:

  • 经济学理论 → “甲子轮回”、“春种夏长秋收冬藏”
  • 专业术语 → 生动比喻和故事化表达
  • 书面语 → 抖音口语化钩子

风格转换案例 新闻文本转化为抖音风格口播稿


注意事项

在搭建过程中容易遇到的问题:

  1. 手动预处理 - 抖音/YouTube视频下载和直链获取需手动完成

  2. 学习曲线 - Make工作流设置和逻辑理解需要投入时间

  3. 风格过度演绎 - DeepSeek R1可能添加原文没有的元素,需人工审校

  4. Notion权限配置 - 新建数据库后需单独为Make授权访问

  5. 文件大小限制 - Make免费版文件下载限制较小,大视频需手动上传

  6. 内容扩充风险 - 素材较少时,AI扩充可能引入非原文元素


适用场景

推荐使用的用户

  • 自媒体创作者 - 短视频、直播领域需要高效口播稿的从业者
  • 内容二创者 - 将音视频素材转化为文字内容的用户
  • 追求风格差异化 - 希望将严肃内容转化为口语化风格的创作者
  • 效率追求者 - 愿意投入时间学习以实现规模化生产

可能不适合的情况

  • 完全不想学习新工具的用户
  • 对内容绝对准确性有极高要求且不愿审校的用户
  • 对API配置和第三方工具集成感到抗拒的用户

常见问题

支持哪些素材类型?

支持文本、音频(MP3)和视频(MP4)三种素材类型,可从抖音、YouTube、豆瓣等平台获取素材。

如何处理长文本输出限制?

工作流使用Make DataStore和Repeater模块将长文本智能分段,配合不同的首段和后续段落提示词策略,确保上下文连贯。

生成成本高吗?

火山引擎DeepSeek R1约8元/百万token,可生成30-40万字口播稿,成本极低,支持多次尝试直到满意。

视频分析需要多久?

Google Gemini视频分析约需150-200秒,取决于视频长度和复杂度。


下一步

掌握基础后,你可以尝试:

  • 添加更多写作风格模板
  • 集成自动下载工具减少手动步骤
  • 添加多平台一键分发功能
  • 构建口播稿质量评分和筛选机制

有问题欢迎在评论区留言交流!

常见问题

支持哪些素材类型?
支持文本、音频(MP3)和视频(MP4)三种素材类型,可从抖音、YouTube、豆瓣等平台获取素材。
如何处理长文本输出限制?
工作流使用Make DataStore和Repeater模块将长文本智能分段,配合不同的首段和后续段落提示词策略,确保上下文连贯。
生成成本高吗?
火山引擎DeepSeek R1约8元/百万token,可生成30-40万字口播稿,成本极低,支持多次尝试。
视频分析需要多久?
Google Gemini视频分析约需150-200秒,取决于视频长度和复杂度。

立即开始构建你的自动化

加入超过50万用户,使用 Make.com 实现工作自动化。无需编程,免费开始。

免费开始使用
无需信用卡每月1,000次免费操作5分钟快速上手

相关教程

关于作者

AC

Alex Chen

Automation Expert & Technical Writer

Alex Chen 是一位认证的 Make.com 专家,拥有超过5年构建企业自动化解决方案的经验。曾任科技初创公司软件工程师,现致力于帮助企业利用 AI 和无代码工具提升效率。

资质认证

Make.com Certified PartnerGoogle Cloud Certified500+ Automations BuiltFormer Software Engineer
免费试用 Make.com