Make教程:多模态工作流将文本、音频、视频一键转爆款口播稿
结合Google Gemini视频分析、Replicate音频转录和ByteDance DeepSeek R1风格化写作,支持多模态素材输入,自动生成抖音风格口播稿。
准备好开始自动化了吗?
使用 Make.com 构建此工作流 — 入门版永久免费。
概述
这是一套支持多模态输入的AI内容创作自动化方案。
无论素材是文本、音频还是视频,都能自动转化为风格化口播稿:
- 素材输入 - 在Notion中输入文本或音视频链接
- 智能识别 - 自动判断素材类型选择处理链路
- 内容提取 - Gemini分析视频/Replicate转录音频
- 分段处理 - DataStore智能分段处理长文本
- 风格生成 - DeepSeek R1生成抖音风格口播稿
支持文本、音频、视频多模态输入的工作流
核心决策因素
在选择多模态内容生成方案时,需考量:
- 多模态支持 - 能否处理文本、音频、视频等多种素材
- 内容质量 - 生成内容的逻辑连贯性和风格化程度
- 长文本能力 - 对数千字长篇素材的处理能力
- 成本效益 - API费用与产出价值的平衡
- 易用性 - 工作流设置和日常操作的复杂程度
技术规格参考
| 规格项 | 参数值 | 备注 |
|---|---|---|
| 核心平台 | Make.com | 工作流编排 |
| 数据库 | Notion | 素材管理和结果存储 |
| 视频分析 | Google Gemini Pro | Flash模型深度分析 |
| 素材加工 | OpenAI GPT-4o Mini | 初步提取和处理 |
| 数据存储 | Make DataStore | 长文本分段存储 |
| 口播稿生成 | 火山引擎 DeepSeek R1 | 风格化写作 |
| 音频转录 | Replicate | 长音频快速转录 |
| 生成成本 | 8元/百万token | 可生成30-40万字 |
| 视频分析时间 | 150-200秒 | 视频上传后等待 |
| 口播稿时长 | 280-300字/分钟 | 3000字支持10分钟视频 |
前置准备
在开始之前,请确保准备好:
- Make.com 账号(免费注册)
- Notion 账号和数据库
- Google Gemini API密钥
- 火山引擎 API密钥(ByteDance DeepSeek R1)
- Replicate 账号(音频转录)
- 开源直链网盘(音视频文件存储)
Notion数据库结构
创建素材管理数据库,包含以下字段:
- 素材类型 (Select) - 文本/音频/视频
- 素材内容 (Text) - 文本内容或音视频链接
- 状态 (Select) - 待处理/开始/已完成
- 写作风格 (Text) - 期望的口播稿风格
- 额外需求 (Text) - 其他定制要求
- 生成结果 (Text) - AI生成的口播稿
多模态处理架构
文本素材处理
直接将文本内容传入生成模块:
流程:
- 从Notion获取文本素材
- 使用GPT-4o Mini进行初步加工
- 传入DeepSeek R1生成口播稿
音频素材处理
使用Replicate进行音频转录:
配置要点:
- 支持长音频(数十分钟)处理
- 中英文识别效果佳
- 比OpenAI官方模块更稳定
流程:
- 获取音频直链URL
- Replicate转录为文字
- 传入生成模块处理
视频素材处理
Make平台中的多模态工作流模块连接
使用Google Gemini进行视频深度分析:
配置要点:
- 上传视频文件到Gemini
- 等待150-200秒分析
- 输出精准文字稿
流程:
- 下载视频并获取直链
- 上传到Google Gemini
- 深度分析提取内容
- 传入生成模块处理
长文本分段处理
解决大模型单次输出1000-2000字限制的核心机制:
DataStore数据存储与流转示意图
实现方式:
- 智能分段 - 将长素材按500/1000字分段
- DataStore存储 - 保存已生成内容作为上下文
- Repeater循环 - 逐段生成并累积
- 差异化提示词 - 首段和后续段落使用不同策略
首段提示词:
根据以下素材,生成口播稿的开头部分。
要求:抖音口语化风格,吸引观众注意...
后续段落提示词:
继续生成口播稿内容,保持与前文的连贯性。
已生成内容:{{previous_content}}
当前素材段落:{{current_segment}}
风格化写作
AI生成的口播稿内容和分段排版
火山引擎DeepSeek R1的风格化能力:
特点:
- 支持思考过程与内容分离
- 将严肃内容转化为口语化表达
- 适应财经、电影、育儿等多领域
风格转换示例:
- 经济学理论 → “甲子轮回”、“春种夏长秋收冬藏”
- 专业术语 → 生动比喻和故事化表达
- 书面语 → 抖音口语化钩子
新闻文本转化为抖音风格口播稿
注意事项
在搭建过程中容易遇到的问题:
-
手动预处理 - 抖音/YouTube视频下载和直链获取需手动完成
-
学习曲线 - Make工作流设置和逻辑理解需要投入时间
-
风格过度演绎 - DeepSeek R1可能添加原文没有的元素,需人工审校
-
Notion权限配置 - 新建数据库后需单独为Make授权访问
-
文件大小限制 - Make免费版文件下载限制较小,大视频需手动上传
-
内容扩充风险 - 素材较少时,AI扩充可能引入非原文元素
适用场景
推荐使用的用户
- 自媒体创作者 - 短视频、直播领域需要高效口播稿的从业者
- 内容二创者 - 将音视频素材转化为文字内容的用户
- 追求风格差异化 - 希望将严肃内容转化为口语化风格的创作者
- 效率追求者 - 愿意投入时间学习以实现规模化生产
可能不适合的情况
- 完全不想学习新工具的用户
- 对内容绝对准确性有极高要求且不愿审校的用户
- 对API配置和第三方工具集成感到抗拒的用户
常见问题
支持哪些素材类型?
支持文本、音频(MP3)和视频(MP4)三种素材类型,可从抖音、YouTube、豆瓣等平台获取素材。
如何处理长文本输出限制?
工作流使用Make DataStore和Repeater模块将长文本智能分段,配合不同的首段和后续段落提示词策略,确保上下文连贯。
生成成本高吗?
火山引擎DeepSeek R1约8元/百万token,可生成30-40万字口播稿,成本极低,支持多次尝试直到满意。
视频分析需要多久?
Google Gemini视频分析约需150-200秒,取决于视频长度和复杂度。
下一步
掌握基础后,你可以尝试:
- 添加更多写作风格模板
- 集成自动下载工具减少手动步骤
- 添加多平台一键分发功能
- 构建口播稿质量评分和筛选机制
有问题欢迎在评论区留言交流!
常见问题
- 支持哪些素材类型?
- 支持文本、音频(MP3)和视频(MP4)三种素材类型,可从抖音、YouTube、豆瓣等平台获取素材。
- 如何处理长文本输出限制?
- 工作流使用Make DataStore和Repeater模块将长文本智能分段,配合不同的首段和后续段落提示词策略,确保上下文连贯。
- 生成成本高吗?
- 火山引擎DeepSeek R1约8元/百万token,可生成30-40万字口播稿,成本极低,支持多次尝试。
- 视频分析需要多久?
- Google Gemini视频分析约需150-200秒,取决于视频长度和复杂度。



