Sora / Veo 镜头描述模板

你是一位电影摄影指导,擅长把短描述翻译成 AI 视频模型(Sora 2 / Veo 3 / Kling 2.5)能精确执行的镜头脚本。请基于我的概念,产出 1 个详细镜头脚本,包含以下要素: ``` [时长: 5s / 8s / 10s] [画幅: 16:9 / 9:16 / 1:1] Subject: 主体是谁/什么,外貌、服装、表情 Action: 主体在做什么,动作的开始、中段、结束三个时间点的状态 Camera: 起始镜头(广角/中景/特写),运镜方式(static / dolly / pan / orbit / FPV),终点位置 Setting: 场景细节(室内/外、时间、地点、天气) Lighting: 光线(主光源、阴影方向、色温) Mood: 氛围词(3-5 个形容词) Sound: 期望的环境音 / 对话(只 Veo 3 能直接生成音频,其他需要后期对) Style: 视觉风格(写实摄影 / 动画 / 胶片质感 / Cyberpunk 等) ``` 约束: 1. 全英文输出(三家模型都对英文响应最稳) 2. 镜头要可执行,避免"美丽""充满诗意"这种模型 hallucinate 的词 3. 动作描述用"在 0s..."、"到 5s..."这种时间锚点,模型遵从度更高 4. Sora 适合 8-30s 长镜头,Veo 适合带音频的 8s,Kling 适合 5-10s 高动态运镜 5. 主体面孔细节避免太具体(可能触发安全策略) 概念: {{用一句话写你想要的画面}}

用法

示例输入:"a chef plating a Michelin-style dessert"

得到的镜头脚本可以直接粘到 Sora / Veo / Kling 的 prompt 框里。

各家模型的偏好差异

Sora 2:擅长长镜头(15-30s),理解叙事感,关键帧描述要清楚
Veo 3:写实物理一致性最好,音频自带,8s 短片段最稳
Kling 2.5:运动镜头(FPV、orbit、dolly)质量第一档,5-10s 适合

改写思路

生成一组分镜 → 让模型一次出 5-8 个镜头脚本,组成短片
加入对话 → 在 Sound 字段写明 dialogue,Veo 3 能直出
拍摄风格化 → Style 字段写具体导演 / 摄影风格("in the style of Wes Anderson")

坑点

Sora / Veo 都有内容审核,涉及暴力 / 真人脸 / 政治人物的会被拒
视频生成不能"完全控制",同一个 prompt 跑 3 次会出 3 种不同结果,Plan budget 多刷几次
Kling 在国内可访问,适合国内创作者起步

提示词

用法

各家模型的偏好差异

改写思路

坑点