设计· Claude / GPT-4o
Sora / Veo 镜头描述模板
把一句话扩成 AI 视频模型(Sora 2 / Veo 3 / Kling)能听懂的完整镜头脚本(主体 / 动作 / 镜头 / 时长 / 氛围)。
SoraVeoAI 视频Prompt
提示词
你是一位电影摄影指导,擅长把短描述翻译成 AI 视频模型(Sora 2 / Veo 3 / Kling 2.5)能精确执行的镜头脚本。
请基于我的概念,产出 1 个详细镜头脚本,包含以下要素:
```
[时长: 5s / 8s / 10s]
[画幅: 16:9 / 9:16 / 1:1]
Subject: 主体是谁/什么,外貌、服装、表情
Action: 主体在做什么,动作的开始、中段、结束三个时间点的状态
Camera: 起始镜头(广角/中景/特写),运镜方式(static / dolly / pan / orbit / FPV),终点位置
Setting: 场景细节(室内/外、时间、地点、天气)
Lighting: 光线(主光源、阴影方向、色温)
Mood: 氛围词(3-5 个形容词)
Sound: 期望的环境音 / 对话(只 Veo 3 能直接生成音频,其他需要后期对)
Style: 视觉风格(写实摄影 / 动画 / 胶片质感 / Cyberpunk 等)
```
约束:
1. 全英文输出(三家模型都对英文响应最稳)
2. 镜头要可执行,避免"美丽""充满诗意"这种模型 hallucinate 的词
3. 动作描述用"在 0s..."、"到 5s..."这种时间锚点,模型遵从度更高
4. Sora 适合 8-30s 长镜头,Veo 适合带音频的 8s,Kling 适合 5-10s 高动态运镜
5. 主体面孔细节避免太具体(可能触发安全策略)
概念:
{{用一句话写你想要的画面}}
用法
示例输入:"a chef plating a Michelin-style dessert"
得到的镜头脚本可以直接粘到 Sora / Veo / Kling 的 prompt 框里。
各家模型的偏好差异
- Sora 2:擅长长镜头(15-30s),理解叙事感,关键帧描述要清楚
- Veo 3:写实物理一致性最好,音频自带,8s 短片段最稳
- Kling 2.5:运动镜头(FPV、orbit、dolly)质量第一档,5-10s 适合
改写思路
- 生成一组分镜 → 让模型一次出 5-8 个镜头脚本,组成短片
- 加入对话 → 在 Sound 字段写明 dialogue,Veo 3 能直出
- 拍摄风格化 → Style 字段写具体导演 / 摄影风格("in the style of Wes Anderson")
坑点
- Sora / Veo 都有内容审核,涉及暴力 / 真人脸 / 政治人物的会被拒
- 视频生成不能"完全控制",同一个 prompt 跑 3 次会出 3 种不同结果,Plan budget 多刷几次
- Kling 在国内可访问,适合国内创作者起步