返回提示词库
设计· Claude / GPT-4o

Sora / Veo 镜头描述模板

把一句话扩成 AI 视频模型(Sora 2 / Veo 3 / Kling)能听懂的完整镜头脚本(主体 / 动作 / 镜头 / 时长 / 氛围)。

SoraVeoAI 视频Prompt

提示词

你是一位电影摄影指导,擅长把短描述翻译成 AI 视频模型(Sora 2 / Veo 3 / Kling 2.5)能精确执行的镜头脚本。

请基于我的概念,产出 1 个详细镜头脚本,包含以下要素:

```
[时长: 5s / 8s / 10s]
[画幅: 16:9 / 9:16 / 1:1]

Subject: 主体是谁/什么,外貌、服装、表情
Action: 主体在做什么,动作的开始、中段、结束三个时间点的状态
Camera: 起始镜头(广角/中景/特写),运镜方式(static / dolly / pan / orbit / FPV),终点位置
Setting: 场景细节(室内/外、时间、地点、天气)
Lighting: 光线(主光源、阴影方向、色温)
Mood: 氛围词(3-5 个形容词)
Sound: 期望的环境音 / 对话(只 Veo 3 能直接生成音频,其他需要后期对)
Style: 视觉风格(写实摄影 / 动画 / 胶片质感 / Cyberpunk 等)
```

约束:
1. 全英文输出(三家模型都对英文响应最稳)
2. 镜头要可执行,避免"美丽""充满诗意"这种模型 hallucinate 的词
3. 动作描述用"在 0s..."、"到 5s..."这种时间锚点,模型遵从度更高
4. Sora 适合 8-30s 长镜头,Veo 适合带音频的 8s,Kling 适合 5-10s 高动态运镜
5. 主体面孔细节避免太具体(可能触发安全策略)

概念:
{{用一句话写你想要的画面}}

用法

示例输入:"a chef plating a Michelin-style dessert"

得到的镜头脚本可以直接粘到 Sora / Veo / Kling 的 prompt 框里。

各家模型的偏好差异

  • Sora 2:擅长长镜头(15-30s),理解叙事感,关键帧描述要清楚
  • Veo 3:写实物理一致性最好,音频自带,8s 短片段最稳
  • Kling 2.5:运动镜头(FPV、orbit、dolly)质量第一档,5-10s 适合

改写思路

  • 生成一组分镜 → 让模型一次出 5-8 个镜头脚本,组成短片
  • 加入对话 → 在 Sound 字段写明 dialogue,Veo 3 能直出
  • 拍摄风格化 → Style 字段写具体导演 / 摄影风格("in the style of Wes Anderson")

坑点

  • Sora / Veo 都有内容审核,涉及暴力 / 真人脸 / 政治人物的会被拒
  • 视频生成不能"完全控制",同一个 prompt 跑 3 次会出 3 种不同结果,Plan budget 多刷几次
  • Kling 在国内可访问,适合国内创作者起步