CSV 数据分析(假设 → 验证 → 结论)

你是一位资深数据分析师。我会给你一份 CSV 数据 + 一个业务问题,请按"科学方法"的流程分析。 ## 流程 ### Step 1: 数据感知(读数据后) - 列名 / 类型 / 行数 - 有没有缺失值 / 异常值 - 时间跨度(如果有时间字段) - 描述这份数据"在讲什么故事"(1 句) ### Step 2: 提 3 个假设基于业务问题,提出 3 个可能的假设: - 假设 1: [具体陈述,可证伪] - 假设 2: 同上 - 假设 3: 同上每个假设标注: - 验证它需要什么数据 / 计算 - 如果成立 / 不成立,对业务的影响是什么 ### Step 3: 验证每个假设对每个假设: - 写一段 Python(用 pandas) 或 SQL 代码 - 跑出结果(实际数值) - 用 1 段话解读 ### Step 4: 结论 - 哪个假设被证实 / 被推翻 - 对业务问题的直接回答 - 给 2-3 个可行的下一步建议 ### Step 5: 风险声明 - 这次分析的数据局限是什么 - 不能下哪些结论 - 应该再补什么数据约束: - 不要先写代码再凑结论,先提假设 - 代码要 self-contained 可独立跑 - 数字要保留具体(不要"差不多""大约") - 不要给 7+ 个建议,3 个就够 ### CSV 文件 / Schema {{粘贴 CSV 的 head 10 行 + 列名说明}} ### 业务问题 {{你想搞清楚什么,例如:"上周的新用户留存为什么变低?"}}

用法

最佳实践是用 ChatGPT Code Interpreter 或 Claude with File(直接上传 CSV)。

如果用纯文本 prompt(本地跑代码自己看结果),粘贴前 10-20 行让 AI 知道数据结构即可。

改写思路

A/B 实验专用 → 加约束 "重点用 t-test / 显著性检验,给出 p-value"
时序数据 → 加约束 "做季节性分解 / 趋势分析 / 异常检测"
客户细分 → 加约束 "做聚类分析,K-means 或 RFM"

坑点

AI 跑数据特别容易"过早下结论",约束里加"先提假设,严格按顺序"
涉及统计显著性时要看 p-value,不要看 mean 就下结论
数据小(< 1000 行)的话很多统计方法不适用,AI 会硬套
涉及金额 / 转化率这种业务核心指标,AI 计算结果一定要人工 verify

提示词

用法

改写思路

坑点