Seedance 2.0“时间轴描述法”提示词指南：用文字精确控制15秒的每一帧（万字收藏版）

当前位置：点晴教程→闲情逸致 →『微信好文』

fangfang

2026年2月28日 17:4 本文热度 3872

一开始自己写提示词无从下手的，或觉得自己写提示词麻烦的，可文末扫我领取《Seedance2.0提示词生成器》和具体使用指南，方便你一键生成提示词做参考，暗号：生成器。

诸位好，我是心辰。

最近在网上，看了不少Seedance2.0的提示词案例。

有个现象就是，大多人不爱用时间轴描述法写提示词。

什么是时间轴描述法？

简单来说就是：

在提示词里按秒数分段写：第几秒到第几秒，画面里发生什么。

比如你要做一个15秒的视频，不是写一整段话让模型自己分配节奏，而是这样写：

0-3秒：怎样怎样，3-8秒：怎样怎样，8-15秒：怎样怎样。

相当于你给模型发了一张"时间表"，哪几秒该做什么事，写得清清楚楚。

模型就照着你的表走，不用自己猜。

如果再精简到一句话：

时间轴描写 = 给提示词加上时间戳，让模型知道每一秒该干什么。

这种提示词写法，其实官方手册也有不少。

这种写法做出来的视频，不是说画面有多精致，而是看起来有一种"节奏感"。

比如说，什么时候快、什么时候慢、什么时候停顿、什么时候突然加速……

最大的特点就是，画面感不会散，节奏有自己的“章法”。

第一章：时间轴描写的底层认知

1.1 一个核心区分：时间轴 ≠ 分镜

很多人会把"时间轴描写"和"分镜脚本"搞混，觉得都是"把视频切成几段来写"。

但实际上，这是两个完全独立的维度：

分镜回答的是"看什么"：景别、角度、构图、切镜方式。

它管的是空间。

时间轴回答的是"什么时候看"：第几秒开始、持续多久、什么节奏。

它管的是时间。

举个对比：

维度	纯分镜写法	纯时间轴写法	两者结合
关注点	这段用什么景别和机位	这段从第几秒到第几秒	第几秒用什么景别拍什么
示例	"特写产品细节，然后全景展示环境"	"0-5秒展示产品，5-10秒展示环境"	"0-5秒：特写产品细节；5-10秒：镜头拉远，全景展示环境"
控制的东西	画面构图	时间分配	画面构图 + 时间分配

两者可以叠加使用，也可以独立使用。

今天只聚焦时间维度，说的是如何精确控制15秒里每一段内容的时间分配。

1.2 没有时间标注时，模型在做什么？

当你的提示词里没有任何时间信息，只是用自然语言描述一连串动作时，比如：

女孩走进咖啡厅，在吧台点了一杯拿铁，然后找了个靠窗的位置坐下，望着窗外发呆。

这段描写里有四个动作节点：走进、点单、坐下、发呆。

但你没有告诉模型每个动作该占几秒。

模型会怎么处理？它会根据自己对文字描写的理解来分配时间。

描写越长越详细的动作，模型倾向于给更多时长；描写简短的动作，可能一闪而过。

这不是模型的问题，是你没给指令的问题。

而当你写成：

0-4秒：女孩推门走进咖啡厅，镜头跟随她的背影。

5-8秒：吧台前的特写，女孩微笑着点单，咖啡师开始研磨咖啡。

9-12秒：女孩端着咖啡走到靠窗的座位坐下。

13-15秒：侧面半身特写，女孩望着窗外，阳光洒在她脸上，画面缓缓虚化。

模型的理解就完全不同了，它精确地知道每段内容该占多少秒，不会出现"A占12秒BC没了"的情况。

第二章：三种时间控制模式

Seedance 2.0中所有涉及时间和顺序控制的写法，可以归纳为三种模式。

模式一：精确时间锚点

写法格式：X-Y秒：描写内容 或 X-Y秒画面：描写内容

定义：用明确的秒数区间锚定每一段内容的起止时间。

这是控制力最强的模式。

把大量使用精确时间锚点的优秀提示词横向对比后，能发现几个非常有意思的规律：

规律一：时间段并不需要等分

大部分人第一反应是把15秒均匀切成5段，每段3秒。

但实际上，优秀的提示词几乎没有这么干的。

它们的时间段划分都是根据内容重要性来的：

一段15秒的起床日常场景，时间段是 0-3 / 3-10 / 10-12 / 12-15 这样分的：

主要情节（叫起床的互动）占了3-10秒共7秒，开头的闹钟只有3秒，结尾的叹气回应只有3秒。

这说明什么？

核心情节可以分到一半以上的时间，开场和收尾快速带过就行。

再看一个商业广告的例子：

一段15秒的饰品广告，划分是 0-2 / 3-6 / 7-12 / 13-15：

产品佩戴场景展示（7-12秒）占了5秒，是最长的段落，因为那才是广告的核心卖点。

规律二：段数有上限和下限

视频时长	最少段数	最多段数	建议段数
4-6秒	2段	3段	2-3段
8秒	2段	4段	3-4段
10秒	3段	5段	3-4段
15秒	3段	6段	4-5段

为什么有下限？

因为每段时间太长（比如15秒只切2段），就失去了精确控制的意义。

为什么有上限？

因为每段时间太短（比如8秒切6段，平均每段1.3秒），模型来不及在那么短的时间里完整展现你描写的内容。

比如一个8秒的动漫打斗场景，切了4段（0-3 / 3-4 / 4-6 / 6-8），其中有一段仅仅1秒（3-4秒），只写了一个面部特写反应镜头。

这基本是单段时长的下限了。

规律三：首段和末段有固定功能

几乎所有好的时间轴提示词，第一段都是在做**"建立"**：建立场景、建立角色、建立氛围。

最后一段都是在做"收束"——品牌露出、情绪落点、画面留白。中间的段落才是真正的"叙事区"**。

这跟影视创作的基本结构是一致的。

模式二：画面编号

写法格式：画面1：描写内容画面2：描写内容

定义：不标注具体秒数，只用编号标注画面的先后顺序，让模型自行分配每段时间。

比如一个广告类的提示词就是用的这种写法：

画面1：侧面固定镜头，主体冲出围栏，旁边的动物受到惊吓。

画面2：主体在沙地盘旋，先特写轮胎，再切到半空中俯拍。

画面3：背景是雪山，主体从山坡飞越，广告语通过遮罩形式出现。

三个画面，15秒时长。

没有标注每段多少秒,时间分配的决定权留给了模型。

画面编号模式适合什么时候用？

当你知道自己要什么内容顺序，但不确定每段该多长的时候。

比如你脑子里有三个场景想串联，但你不知道第一个场景给3秒好还是5秒好,那就别硬定秒数，用画面编号让模型根据内容复杂度自行分配。

画面编号模式的注意事项：

描写越详细的画面，模型倾向于给更多时长——如果你的画面1写了100字、画面3只写了20字，模型很可能把大部分时间给了画面1。
15秒内建议不超过4-5个画面编号，太多的话，每个画面分到的时间太短，内容挤不下。
风险提示：由于你不控制秒数，可能出现前面太慢后面太赶的情况。如果你对节奏有明确要求，还是用精确时间锚点更稳。

模式三：动作流

写法格式：用"然后""此时""紧接着""随后""最后"等时间连接词，串联一段连续的动作链。

这是Seedance 2.0中最常见的写法模式。

大部分提示词都没有用秒数标注或画面编号，而是直接用自然语言描写一串连续动作：

角色心虚地左右看了看，快速将手伸出拿起饮料喝了一口，然后露出满足的表情，这时传来脚步声，角色赶紧将饮料放回原位，此时另一个人拿起饮料走了，最后镜头前推，画面慢慢变暗。

这段提示词里有5个时间节点，全部靠连接词串联："然后""这时""此时""最后"。

没有秒数，没有编号，但时间顺序是清晰的。

动作流模式的关键：不同的连接词暗示不同的时间速度

当你用不同的词来连接动作时，你其实在给模型传递节奏信息：

连接词/副词	暗示的时间感	模型倾向的时间分配
"突然""瞬间""猛地"	极快，几乎无间隔	分配极短时间，动作迅猛
"然后""随后""接着"	自然过渡，中等间隔	分配适中时间
"缓缓""慢慢""逐渐"	慢速，需要时间展开	分配较多时间，动作舒展
"最后""最终"	进入末段	模型知道要收尾了

所以，即使你不标注秒数，你依然可以通过连接词来影响模型对时间的分配。

只是这种影响是间接的、不精确的。

动作流模式适合什么时候用？

一镜到底的连续运动场景（不该有"切断感"）
情绪渐变的文艺向内容
你自己也不确定每段该多长的探索性创作

三种模式怎么选：决策路径

选择标准很简单：你对时间分配有多强的控制需求？

强控制 = 用精确时间锚点

广告片（品牌logo必须在第13秒出现）
有明确转折点的剧情（第8秒必须反转）
需要配合音乐卡点的内容
视频延长时精确控制新增部分

中等控制 = 用画面编号

你知道要几个场景，但不确定每个多长
产品展示类（先正面、再侧面、再全景）
多场景串联但节奏无硬性要求

弱控制 / 不需要控制 = 用动作流

一镜到底的沉浸式场景
情绪向、氛围向的慢节奏内容
简单的单一连续动作

三种模式不是"从低级到高级"的关系，而是"适用场景不同"的关系。

一镜到底的谍战跟拍场景，用动作流写反而比切时间段更好，因为一切时间段，画面就有了"断裂感"，破坏了一镜到底的连贯性。

第三章：单个时间段里该写什么——四层描写结构

学会了怎么切时间段之后，下一个问题是：

每个时间段里，到底该写哪些东西？

如果你只写"0-5秒：一个女孩在走路"，这会有点空。

模型不知道镜头怎么拍、走路的节奏是什么、环境是什么气氛。

反过来，如果你在3秒的时间段里塞了200字的描写，那又过于满了，模型来不及在3秒内执行完你的全部指令。

四层结构一览

镜头层 —— 摄像机在做什么？（推、拉、摇、移、特写、俯拍、跟随……）
主体层 —— 画面里是谁/什么物体？（角色、产品、场景元素……）
动作层 —— 主体在做什么？（坐下、奔跑、说话、拿起、转身……）
氛围层 —— 整体什么感觉？（光影、音效、环境音、情绪描写……）

实例拆解：一段高质量的广告时间段

来看一段广告类提示词的单个时间段，拆解其四层结构的实际组成：

示例：

0-3秒：镜头缓慢推近，穿西装的男人坐在昏暗的酒吧里，手指轻轻敲着桌面，神情冷峻。环境音低沉，远处有玻璃碰撞的声音，男人低声说"你准备好了吗。"

拆解：

镜头层：镜头缓慢推近 — 告诉模型摄像机从远到近移动
主体层：穿西装的男人 — 告诉模型画面里的角色是谁
动作层：坐在酒吧里，手指轻轻敲着桌面 + 低声说"你准备好了吗。" — 两个动作，一个肢体一个语言
氛围层：昏暗的 + 神情冷峻 + 环境音低沉，远处有玻璃碰撞的声音 — 光影+情绪+音效

四层全部出现，3秒时间段里的描写密度适中。

这就是一个标准的高质量时间段描写。

四层不是每层都必须写

这是很重要的一点。

不同类型的内容，四层的取舍完全不同：

氛围向内容（咖啡广告、治愈系）——强化氛围层，弱化动作层：

0-5秒：阳光透过纱帘在木质桌面上缓缓移动，桌上的陶瓷咖啡杯投下淡淡的影子，窗台上的薄荷叶随微风轻轻摆动。

这段描写里：镜头层缺省（暗示固定镜头），主体层是桌面和咖啡杯，动作层极弱（只有光影移动和叶片摆动），氛围层极强（阳光、影子、微风）。

5秒里只描写了环境的静态细节：这就是低密度、重氛围的写法。

动作向内容（打斗、追逐、快切）：强化镜头层和动作层，精简氛围层：

3-4秒：快速摇镜，切到对手的面部特写，对手咬紧牙关双手握拳。

这段只有1秒，但镜头层（快速摇镜+面部特写）和动作层（咬紧牙关+握拳）都写到了。

氛围层完全省略，因为快节奏的动作场景里，动作本身就是氛围。

对话向内容（搞笑对话、剧情推进）：强化动作层中的台词部分：

9-12秒：镜头切到女孩全身，她把一杯茶递给对面的男人，笑着说"这可是我今年最后一包茶叶了，你得谢我"。男人接过茶杯苦笑着摇了摇头。

动作层里的台词占了主导地位——这段时间段的核心是"对话"，镜头和氛围都是辅助。

声音描写：隐藏的第五层

一个大部分人忽略的规律：使用时间轴模式的提示词里，声音描写的出现频率远高于不使用时间轴的提示词。

为什么？

因为时间轴天然适合做声画同步，你可以精确指定"第几秒发出什么声音"。

在Seedance 2.0中，声音描写有三种常用类型：

第一种：台词型 — 角色说的话，直接用引号写出来

12-15秒：男人叹了口气，低声说"行吧，我认了"。

第二种：音效型 — 环境声或动作声

0-3秒：闹钟刺耳地响起，画面从模糊中渐渐清晰。

6-9秒：桌上的咖啡杯被放下，发出清脆的瓷器碰撞声。

第三种：画外音/配乐型 — 旁白或背景音乐

13-15秒：画面缓缓变暗，画外音响起"每一天，都值得被认真对待"。

0-15秒全程：背景配乐参考@视频1的音效。

时间轴 + 声音描写的组合，是做广告、叙事短片、品牌宣传片的杀手级写法。

因为你可以像剪辑师一样，让对白、音效、画面在精确的时间点上同步。

第四章：时间密度——15秒内塞多少信息才合适

这是落地到实操时，第一时间遇到的最实际的问题：

每秒钟该写多少内容？

什么是"时间密度"

时间密度 = 单位时间内的提示词信息量。

密度太高 → 模型来不及执行，要么快速略过部分内容，要么画面变得混乱。

密度太低 → 浪费时长，模型可能自行脑补你不想要的内容来填满空白。

找到合适的密度，是写好时间轴的核心技能之一。

三个密度档位

按每段描写的字数除以对应秒数来衡量，时间密度可以分为三个档位：

低密度档（氛围向 / 慢节奏）

特征：每秒约5-8字描写，大量留白，画面以静态细节和光影变化为主。

示例写法：

1-5秒：晨光穿过半透明的窗帘，在老旧的书桌上投下温柔的光斑，一杯刚泡好的茶冒着缭绕的白气。

5秒，约40字。

每个要素都是静态或微动的——光斑、白气。

没有任何角色行为，纯粹是氛围的铺陈。

适用场景：治愈系视频、产品氛围广告、片头/片尾留白、情绪铺垫段落。

中密度档（标准叙事）

特征：每秒约8-15字描写，有明确的角色行为，镜头有运动，节奏适中。

示例写法：

3-8秒：镜头跟随女孩穿过拥挤的集市，她的手拂过摊位上的水果，挑了一个苹果放进帆布袋，回头朝身后的同伴笑了笑。

5秒，约50字。

有镜头运动（跟随）、有角色行为（穿过、拂过、挑、放、回头笑）、有环境（拥挤的集市）。

信息量适中，每个动作都有空间展开。

适用场景：生活情景剧、叙事短片、中等节奏的产品展示。

高密度档（快节奏 / 广告）

特征：每秒约15-25字描写，大量动作和场景切换，追求画面冲击力。

示例写法：

7-12秒：快速切换四个佩戴场景——丝带系在风衣领口的通勤造型、缠绕在马尾上的甜美风格、扣在手袋链条上的简约搭配、别在西装胸口的利落质感。

5秒里塞了4次场景切换。

每个场景只用十几个字一笔带过。节奏极快，画面冲击力强——这就是典型的广告展示密度。

补充一个极端案例，实战中出现过仅1秒时间的段落：

3-4秒：快速摇镜，切到对方面部特写，表情扭曲不甘。

1秒，20字。

只写了镜头动作（快速摇镜+面部特写）和一个表情反应。1秒是单段时长的极限，对应的描写也必须精简到骨头，一个镜头+一个反应就够了。

适用场景：高节奏广告、动作打斗、MV卡点、快速蒙太奇。

密度和段数的匹配建议

视频总时长	低密度（慢节奏）	中密度（标准叙事）	高密度（快节奏）
4-6秒	不分段或2段	2-3段	3-4段
8-10秒	2-3段	3-4段	4-5段
15秒	3段	4-5段	5-6段

密度失控的三个警示信号

信号一：单个时间段的描写超过80字，但时间只有2-3秒

这意味着你在极短的时间里塞了太多指令。

模型要么跳过部分内容，要么把所有内容压缩成一个混乱的画面。

解法：删减到50字以内，问自己"这2秒里最重要的一个画面是什么"，只保留那个。

信号二：总提示词超过400字，但没有按时间段划分

如果你写了一大段400字的描写却没有时间标注，模型会把所有内容当作"一坨"来理解，完全自行分配时间。

大概率前半段堆积、后半段空白。

解法：把这400字按时间段拆开，给每段分配合理的秒数。

信号三：相邻两段的描写字数差异超过3倍

比如第一段写了100字，第二段只写了20字。

模型会困惑——前一段信息密度极高，后一段突然"断粮"。

解法：重新平衡，把第一段里的次要信息移到第二段，或者给第二段补充描写。

第五章：四大场景的时间轴实战模版

知道了怎么切段、怎么写每段、怎么控密度之后，这部分内容直接列举一些可以拿去改关键词就用的提示词模版。

模版一：商业广告——"三幕递进"结构

适用：产品推广、品牌宣传片、电商短视频

结构底层逻辑：所有好的广告都遵循"吸引注意 → 展示价值 → 行动号召"的三段式。

时间轴让你精确控制每一幕的权重。

模版：

0-[3]秒画面：[建立型镜头]，[产品或角色首次出场的方式]，[氛围奠定]。
[3]-[10]秒画面：[核心展示]——[产品卖点1的画面呈现]；[产品卖点2的画面呈现]；[产品卖点3的画面呈现]。
[10]-15秒画面：[收束镜头]，[品牌文字/slogan的出现方式]，[结尾画面描写]。

实战示例——一款手工皮具品牌的15秒广告：

0-3秒画面：微距镜头缓缓划过皮面的纹理，指尖轻触牛皮表面，质感细腻，背景传来缝纫机运转的轻微嗡鸣。

3-10秒画面：镜头拉远展示工匠在工作台前手工缝制皮包，特写穿针引线的过程，随后快速切换三个佩戴场景——背在肩上走进写字楼、挂在咖啡馆椅背上、斜挎着走在秋天的银杏大道上。

10-15秒画面：镜头缓慢下推，皮包正面居中放置在深色木桌上，品牌名"MANO"从画面底部缓缓上浮，下方出现一行小字"手工制，慢慢来"。

拆解这个示例里的设计思路：

第一幕（0-3秒）用微距+触感建立"手工质感"的调性，只有3秒但足够让观众的注意力被皮面纹理锁住。
第二幕（3-10秒）给了7秒——最大的时间权重给了核心卖点，先展示制作过程（手工价值），再展示使用场景（生活价值），逻辑清晰。
第三幕（10-15秒）品牌收尾，文字出现方式写得具体（"从底部缓缓上浮"），不是含糊地说"出现品牌名"。

技巧提示：品牌文字的出现方式一定要写具体，"渐显""弹出""从底部上浮""从中间向两边展开""字幕淡入"，这些不同的写法会产生不同的视觉效果，不要只写"出现品牌名"。

模版二：剧情叙事——"情绪弧线"结构

适用：情感短片、短剧片段、故事向内容

结构底层逻辑：好的短叙事需要在15秒内完成"建立→发展→转折→落点"的情绪曲线。时间轴帮你精确控制转折出现在第几秒。

模版：

0-[3]秒：[场景建立 + 角色状态奠定]，[暗示情绪基调的细节]。
[3]-[7]秒：[事件推进]，[角色行为展开]，[互动开始]。
[7]-[12]秒：[转折/冲突/高潮]，[情绪变化的关键动作]，[关键台词]。
[12]-15秒：[情绪落点]，[留白或收束]，[最后一个画面的定格感]。

实战示例——一段15秒的父女告别场景：

0-3秒：火车站台，清晨的薄雾中，父亲站在候车线外，手里攥着一个塞得鼓鼓的帆布袋。镜头从他的手部特写开始。

3-7秒：女儿拖着行李箱走过来，父亲把帆布袋递过去，嘴上说"路上饿了吃"，女儿接过袋子，笑着说"又装这么多"。

7-12秒：列车进站的广播声响起，女儿转身走向车厢，父亲抬起手想挥一下但又放下了，嘴唇微微颤动，没有说出口的话留在了喉咙里。

12-15秒：车窗里女儿的脸一闪而过，父亲站在原地没动，镜头缓缓拉远，他的身影在薄雾中越来越小。

拆解这个示例里的设计思路：

转折点设计在7-12秒（第三段）：列车进站的广播声是触发情绪转折的外部事件，"抬手又放下""嘴唇颤动"是内在情绪的外化
前两段（0-7秒）是暖色调的互动，第三段突然切入离别的紧迫——情绪密度在第三段瞬间拉满
最后一段只有3秒，但用了"缓缓拉远"+"身影越来越小"做情绪留白——不是所有故事都需要"说出来"，留白本身就是叙事

关键点：在15秒的剧情里，转折点应该放在60%-80%的位置（即第9-12秒），前面用来铺垫，后面用来消化。如果转折太早（比如第3秒就反转），后面留太多时间无法填充；如果转折太晚（比如第14秒），观众还没来得及感受就结束了。

模版三：氛围情绪——"渐进呼吸"结构

适用：治愈系视频、散文风格Vlog、品牌调性片、情绪铺垫

结构底层逻辑：不追求叙事和冲突，而是追求"画面会呼吸"的感觉。节奏极慢，信息密度极低，每一秒都是为了营造一种"想停下来看一会儿"的氛围。

模版：

0-[5]秒：[静态环境细节]，[自然光影的变化描写]，[极微小的运动元素]。
[5]-[10]秒：[一个缓慢展开的动作或变化]，[空间中新元素的缓缓出现]。
[10]-15秒：[画面聚焦到一个最终的视觉焦点]，[情绪收束或自然留白]。

实战示例——一段15秒的雨天窗台画面：

0-5秒：镜头固定在一扇半开的木窗前，窗外的雨丝斜斜地飘着，偶尔有几滴打在窗沿上溅起细小的水花，窗台上一本翻开的旧书被微风吹动了一下页角。

5-10秒：一只手缓缓伸入画面，把一杯冒着热气的茶放到了书旁边，茶杯里的热气和窗外的冷空气交汇，形成一小团白雾。

10-15秒：镜头缓慢推近，聚焦到茶杯表面的水波纹和倒映其中的雨滴涟漪，背景只剩下雨声和远处若有似无的钢琴声。

这个模版的核心特征：

几乎没有角色行为：只有一只手伸入画面，连人都没完整出现。主体是环境本身
运动速度极慢："缓缓伸入""缓慢推近"，所有动作都带着"慢"字
感官描写替代动作描写：热气、冷空气、水花、涟漪、雨声、钢琴声。调动的是视觉+听觉+温度感
密度极低：5秒一段，每段只写2-3个视觉要素。这种"空"正是氛围感的来源

模版四：动作快切——"密集脉冲"结构

适用：打斗场面、MV卡点、快速蒙太奇、节奏感强的混剪

结构底层逻辑：用短而密的时间段制造视觉冲击力。每段时间极短（1-3秒），但镜头切换和动作信息极密集。

模版：

0-[2]秒：[快速建立镜头]，[核心视觉元素快速落位]。
[2]-[4]秒：[第一次动作/切换]，[镜头急转]，[反应镜头]。
[4]-[6]秒：[第二次动作/切换]，[视觉高潮瞬间]。
[6]-[8]秒：[收尾动作]，[最终定格或转场]。

实战示例——一段8秒的武侠对决：

0-2秒：俯拍镜头，两人在竹林空地上对峙，竹叶纷纷落下，画面安静得只听到风声。

2-4秒：近景快切，左侧角色拔剑出鞘，剑光一闪，右侧角色侧身闪避，衣袖被划破飘落。

4-6秒：环绕镜头急速旋转，两人交锋三招，竹竿被剑气劈断，截面整齐地斜滑落地。

6-8秒：低角度仰拍定格，胜者收剑入鞘，败者单膝跪地，漫天竹叶缓缓回落画面渐暗。

这个模版的核心特征：

每段只有2秒：不给任何多余的喘息空间
每段都有镜头变化：俯拍→近景快切→环绕急旋→低角度仰拍，4段4种机位
第一段是"静"：风声、竹叶、对峙。为什么？因为快节奏场景的第一段越静，后面的爆发感越强
最后一段的"慢"是反差设计："缓缓回落""渐暗"，用慢动作定格给整段高速打斗一个有重量感的句号

第六章：时间轴描写的高阶组合技巧

6.1 时间轴 + @素材参考的分段绑定

大部分人用@素材参考时，是在提示词的开头写一句"参考@视频1的运镜"，然后整段提示词都跟这个参考绑定。

但实际上，你完全可以在不同的时间段里绑定不同的参考素材。

示例写法：

0-5秒：@图片1作为首帧画面，角色在街道上行走，运镜参考@视频1的正面跟拍。

5-10秒：角色进入一扇门，室内场景参考@图片2，动作参考@视频2中的转身回望。

10-15秒：画面风格突然切换为动画效果，参考@图片3的插画风格，角色继续行走但画面变成手绘感。

三个时间段，分别引用了不同的参考素材。这意味着你可以在一段12-15秒的视频里实现风格渐变、场景跳转、动作切换，每段都有独立的"参考源"。

6.2 时间轴 + 视频延长的组合

视频延长时使用时间轴是一个被严重低估的技巧。

当你写"将@视频1延长10秒"时，如果只是这一句话，模型会自行决定这10秒放什么内容。但如果你加上时间轴：

将@视频1延长10秒。

1-4秒：上一段画面的运动继续保持，但镜头开始缓缓拉远，展示更大的环境。

4-7秒：一个新角色从画面右侧走入，停在主角面前，两人对视。

7-10秒：新角色递出一个信封，主角接过打开，镜头推近到信纸上的文字特写。

注意：这里的时间标注是相对于新增部分的。

"1-4秒"指的是新增10秒中的第1-4秒，不是整个视频（原片+延长）的第1-4秒。

这个技巧特别适合做"连续剧式创作"，第一段生成完，用时间轴+延长无缝接上第二段，角色和场景保持一致，但剧情精确推进。

6.3 段与段之间的"过渡设计"

初级的时间轴写法，每段是各自独立的，段与段之间没有连接。高级的写法会在上一段的末尾或下一段的开头植入过渡线索。

三种过渡技巧：

视觉过渡：用画面元素做不同段落的衔接

6-10秒：......镜头向角色手中的玻璃杯推进，画面逐渐被玻璃的折射光填满，直至纯白色。

10-14秒：纯白色画面中渐渐浮现出雪山的轮廓......

第一段结束在"纯白色"，第二段从"纯白色"开始，一个视觉元素（白色）同时存在于两段中，产生了无缝衔接的效果。

动作过渡——上一段的动作直接延续到下一段

0-4秒：角色猛地将门推开——

4-8秒：门后是一片出乎意料的花海，角色呆住了，手还保持着推门的姿势。

第一段的"推门"动作在第二段仍然延续（手保持推门姿势），两段之间有动作的连贯性。

声音过渡——用声音做段落间的桥梁

7-10秒：......远处传来火车汽笛的声音。

10-14秒：画面切到火车站台，汽笛声从远到近变得刺耳......

声音在第一段作为背景暗示出现，在第二段成为主导元素：听觉上的连贯性让视觉上的场景切换更加自然。

6.4 "留白区间"的高级用法

在精确时间锚点模式下，你的时间段之间可以故意留出1-2秒的空白：

0-3秒画面：角色站在雨中，仰头望着天空。

5-8秒画面：角色低下头，雨水顺着脸颊滑落，嘴角勾起一个微笑。

注意：3-5秒之间没有任何描写，这2秒的空白，模型会自行做过渡处理——可能是一个静止的画面，可能是一个缓慢的镜头运动。

这种"留白区间"有时候反而比逐帧塞满效果更好——因为你给了模型一个"自由呼吸"的窗口，让它自然地完成两段之间的衔接，而不是被你逼着在每一秒都执行指令。

当然，这个技巧有风险：如果留白太长（超过3秒），模型可能脑补出你完全不想要的内容。

建议留白区间控制在1-2秒。

附录：一个可以直接复制的工作流

一个五步工作流，今后每次需要写时间轴类的提示词时，按这个流程走就行：

第一步：定时长

根据你的内容决定生成4s / 6s / 8s / 10s / 15s，时长决定了你的总容量。

第二步：选模式

问自己"我对时间分配的控制需求有多强"，强控制用精确时间锚点，中等用画面编号，弱控制或一镜到底用动作流。

第三步：切段落

根据时长和密度档位确定切几段，参考第四章的匹配表。

第四步：填四层

每段里按需填写镜头层、主体层、动作层、氛围层。

短段落（1-3秒）写两层，标准段落（3-5秒）写三层，长段落（5秒以上）可以写满四层。

别忘了声音描写。

第五步：查连接

检查段与段之间的过渡是否自然。

有没有视觉/动作/声音上的衔接？有没有时间段重叠？有没有哪段密度明显过高或过低？

最后的话：

时间轴描写法的本质，是把"创作者脑子里对节奏的直觉"翻译成"模型能理解的时间指令"。

你的节奏感越好，时间轴就写得越好。

所以，在动笔写提示词之前，先在脑子里把这15秒的"内部电影"放一遍：

你会知道哪里该快、哪里该慢、哪里该停顿，然后把这个感觉写下来就行了。

当然，提示词第一步实在不想自己写的，可文末扫我领提示词生成器。

原文链接：https://mp.weixin.qq.com/s/Cr5DZAcnA7Ltx1TV7Mzl1w

该文章在 2026/2/28 17:04:07 编辑过

关键字查询

正在查询...