Make教程：多模态工作流将文本、音频、视频一键转爆款口播稿

概述

这是一套支持多模态输入的AI内容创作自动化方案。

无论素材是文本、音频还是视频，都能自动转化为风格化口播稿：

素材输入 - 在Notion中输入文本或音视频链接
智能识别 - 自动判断素材类型选择处理链路
内容提取 - Gemini分析视频/Replicate转录音频
分段处理 - DataStore智能分段处理长文本
风格生成 - DeepSeek R1生成抖音风格口播稿

多模态工作流 支持文本、音频、视频多模态输入的工作流

核心决策因素

在选择多模态内容生成方案时，需考量：

多模态支持 - 能否处理文本、音频、视频等多种素材
内容质量 - 生成内容的逻辑连贯性和风格化程度
长文本能力 - 对数千字长篇素材的处理能力
成本效益 - API费用与产出价值的平衡
易用性 - 工作流设置和日常操作的复杂程度

技术规格参考

规格项	参数值	备注
核心平台	Make.com	工作流编排
数据库	Notion	素材管理和结果存储
视频分析	Google Gemini Pro	Flash模型深度分析
素材加工	OpenAI GPT-4o Mini	初步提取和处理
数据存储	Make DataStore	长文本分段存储
口播稿生成	火山引擎 DeepSeek R1	风格化写作
音频转录	Replicate	长音频快速转录
生成成本	8元/百万token	可生成30-40万字
视频分析时间	150-200秒	视频上传后等待
口播稿时长	280-300字/分钟	3000字支持10分钟视频

前置准备

在开始之前，请确保准备好：

Make.com 账号（免费注册）
Notion 账号和数据库
Google Gemini API密钥
火山引擎 API密钥（ByteDance DeepSeek R1）
Replicate 账号（音频转录）
开源直链网盘（音视频文件存储）

Notion数据库结构

创建素材管理数据库，包含以下字段：

素材类型 (Select) - 文本/音频/视频
素材内容 (Text) - 文本内容或音视频链接
状态 (Select) - 待处理/开始/已完成
写作风格 (Text) - 期望的口播稿风格
额外需求 (Text) - 其他定制要求
生成结果 (Text) - AI生成的口播稿

多模态处理架构

文本素材处理

直接将文本内容传入生成模块：

流程：

从Notion获取文本素材
使用GPT-4o Mini进行初步加工
传入DeepSeek R1生成口播稿

音频素材处理

使用Replicate进行音频转录：

配置要点：

支持长音频（数十分钟）处理
中英文识别效果佳
比OpenAI官方模块更稳定

流程：

获取音频直链URL
Replicate转录为文字
传入生成模块处理

视频素材处理

完整工作流架构 Make平台中的多模态工作流模块连接

使用Google Gemini进行视频深度分析：

配置要点：

上传视频文件到Gemini
等待150-200秒分析
输出精准文字稿

流程：

下载视频并获取直链
上传到Google Gemini
深度分析提取内容
传入生成模块处理

长文本分段处理

解决大模型单次输出1000-2000字限制的核心机制：

DataStore分段原理 DataStore数据存储与流转示意图

实现方式：

智能分段 - 将长素材按500/1000字分段
DataStore存储 - 保存已生成内容作为上下文
Repeater循环 - 逐段生成并累积
差异化提示词 - 首段和后续段落使用不同策略

首段提示词：

根据以下素材，生成口播稿的开头部分。
要求：抖音口语化风格，吸引观众注意...

后续段落提示词：

继续生成口播稿内容，保持与前文的连贯性。
已生成内容：{{previous_content}}
当前素材段落：{{current_segment}}

风格化写作

生成效果示例 AI生成的口播稿内容和分段排版

火山引擎DeepSeek R1的风格化能力：

特点：

支持思考过程与内容分离
将严肃内容转化为口语化表达
适应财经、电影、育儿等多领域

风格转换示例：

经济学理论 → “甲子轮回”、“春种夏长秋收冬藏”
专业术语 → 生动比喻和故事化表达
书面语 → 抖音口语化钩子

风格转换案例 新闻文本转化为抖音风格口播稿

注意事项

在搭建过程中容易遇到的问题：

手动预处理 - 抖音/YouTube视频下载和直链获取需手动完成
学习曲线 - Make工作流设置和逻辑理解需要投入时间
风格过度演绎 - DeepSeek R1可能添加原文没有的元素，需人工审校
Notion权限配置 - 新建数据库后需单独为Make授权访问
文件大小限制 - Make免费版文件下载限制较小，大视频需手动上传
内容扩充风险 - 素材较少时，AI扩充可能引入非原文元素

适用场景

可能不适合的情况

完全不想学习新工具的用户
对内容绝对准确性有极高要求且不愿审校的用户
对API配置和第三方工具集成感到抗拒的用户

常见问题

支持哪些素材类型？

支持文本、音频（MP3）和视频（MP4）三种素材类型，可从抖音、YouTube、豆瓣等平台获取素材。

如何处理长文本输出限制？

工作流使用Make DataStore和Repeater模块将长文本智能分段，配合不同的首段和后续段落提示词策略，确保上下文连贯。

生成成本高吗？

火山引擎DeepSeek R1约8元/百万token，可生成30-40万字口播稿，成本极低，支持多次尝试直到满意。

视频分析需要多久？

Google Gemini视频分析约需150-200秒，取决于视频长度和复杂度。

下一步

掌握基础后，你可以尝试：

添加更多写作风格模板
集成自动下载工具减少手动步骤
添加多平台一键分发功能
构建口播稿质量评分和筛选机制

有问题欢迎在评论区留言交流！

Make教程：多模态工作流将文本、音频、视频一键转爆款口播稿

准备好开始自动化了吗？

概述

核心决策因素

技术规格参考

前置准备

Notion数据库结构

多模态处理架构

文本素材处理

音频素材处理

视频素材处理

长文本分段处理

风格化写作

注意事项

适用场景

推荐使用的用户

可能不适合的情况

常见问题

支持哪些素材类型？

如何处理长文本输出限制？

生成成本高吗？

视频分析需要多久？

下一步

常见问题

立即开始构建你的自动化

相关教程

Make教程：DeepSeek爆文生成工作流，千人千面风格模仿

Make教程：Exa AI实时检索+ChatGPT全自动内容创作工作流

Make教程：Firecrawl全站抓取+AI自动生成博客文章实战

Make教程：用GPT-4o多模态能力自动构建Notion电子图书馆

关于作者

Alex Chen