客户X "数据飞轮" 需求拆分决策¶
日期:2026-04-13 触发:客户X 口头提议"我们已经有几个月数据了,能不能用来做数据标记、做数据飞轮?" 决策人:产品 + 工程 相关 backlog 条目:R-011 / R-012 / R-013 / R-014
原始需求¶
客户X 在例行沟通时提出:
"我们用 retaintive 几个月了,已经存了不少 call 数据,能不能把这些数据用来做数据飞轮?做个数据标记之类的。"
产品第一反应:"下期可以做,要技术评估工作量。但 V0 的分类做得很简单,意义不大;只有 V1 的 task→AI→标注链路才是真正有意义的训练数据。现在回头标注耗人力,不建议做。"
为什么不接受"直接做 / 直接不做"的二元结论¶
风险 1:混淆了"标签粗糙" vs "原始数据没价值"¶
V0 的分类字段粗糙 ≠ V0 的原始数据没价值。raw data 包括:通话录音、transcript、outcome(booked / showed up / 付费)、时间戳、staff、contact 信息。这些原始信号仍然完整。
如果因为"V0 标签不好"就整体丢弃 V0 raw data,V1 的 AI 模型会 cold start。按当前 call volume 估算,要积累到能训练的规模(10K+ 有效样本)可能需要 6-12 个月。这段时间"数据飞轮"根本转不起来,客户看不到效果。
风险 2:混淆了"人工标注" vs "自动标注"¶
"耗人力"的前提是"人工标注每一条"。但 2026 年有两种零人工的标注方式:
- Derive labeling:用已有下游结果反推标签(SQL join 即可),零成本
- LLM auto-labeling:用 Kimi/Claude 批量跑 transcript,成本 $1.5/1000 条,几分钟跑完
4 人团队做不了人工标注,但完全有能力做自动标注。
风险 3:没问清楚客户到底要什么¶
客户说"数据飞轮"时,可能指三种完全不同的东西:
| 客户可能想的 | 要做的事 | 工作量 |
|---|---|---|
| 训练 AI 精度越来越高 | 标注数据 + 训练链路 | 中-大 |
| 看历史数据的回顾分析报告 | 聚合统计 dashboard,不需要打标 | 小 |
| 新客户上来就能看到"你们数据已经告诉我们什么" | Onboarding demo | 小-中 |
第二和第三种根本不需要训练模型。直接按第一种做可能是解错了题。
拆分成 4 条的逻辑¶
为避免"all or nothing"的错误决策,把这条需求拆成 4 个可独立评估、可独立排期的子项:
R-011 — V0 数据 Derive labeling 管道¶
做什么:写一组 SQL join,从已有的下游结果反推训练标签。例如:
- Call 后 24h 内 lead booked →
outcome: converted - Call 时长 >2min + 同日第二通 call →
quality: engaged - Call 时长 <10s →
outcome: hang_up - 同 contact 7 天内 ≥3 次未接通 →
pattern: cold_lead - Member 在 call 后 30 天内付费 →
value: converted_member
为什么 next 本期就做:
- 零人工成本 — 完全是 SQL,不需要打标
- 工作量极小(Effort=2,估 3-5 天)
- 立刻产生价值 — 几千条有 ground truth 的样本可以用作 V1 模型的 bootstrap
- 风险极低(Risk=2)— 已知信号是否存在,写查询就行
Score 6.5 / 本期最高 ROI 项目之一。
R-012 — V0 数据 LLM 自动标注 + 抽检¶
做什么:对 Derive 搞不定的维度(客户情绪、staff 专业度、是否错过 credit card capture 等),用 LLM 跑 transcript 批量打标,人工抽检 50-100 条确认准确率。
为什么是 evaluating 不是 next:
- 质量未验证 — LLM 打标的准确率在 retaintive 业务场景下是否 >80% 未知,先小规模试跑 100 条再决定是否 scale 到全量
- 依赖 R-011 — 先看 R-011 derive 能覆盖多少场景,剩下的缺口才是 R-012 的范围
- 评估步骤:先用 $1.5 跑 1000 条样本 → 人工抽检 50 条 → 如果准确率 >80% 就推进,否则调 prompt 或放弃
Score 3.0 / 中等。
R-013 — V1 task→AI→标注反馈链路¶
做什么:V1 核心功能 — task 生成后 AI 辅助决策,决策结果和人工修正作为高质量训练样本反馈给模型。
为什么 must 但是 next+2:
- 这是 V1 的核心卖点,战略必做(Tag=must override Score)
- Score 1.8 确实低 — 因为 Effort=5(XL)、Risk=4(高)— 但 Score 在这里只是提示风险,不是决策依据
- next+2 而非 next — 因为 V1 roadmap 已经排在后期迭代,R-011 和 R-012 是 V1 的前置准备
Score 1.8 / 战略必做不看分。
R-014 — 新客户 onboarding 历史数据展示¶
做什么:新客户登录第一天,展示"你们店的 call 数据已经告诉我们什么" — 比如 "上周 OTF Ardmore 有 37 通 call,其中 12 通是 intro booking,6 通成功"。
为什么 evaluating + nice:
- 这是对客户意图的假设 — 客户说"数据飞轮"时可能真正想要的是这个,不是训练 AI
- 如果假设对了,Score 7.0 是本次拆分的最高分,做出来是巨大的销售加分项
- 如果假设错了,就是 nice-to-have,不影响核心 roadmap
- 前置动作:下次和客户X 聊 15 分钟,问一个问题:"新客户登录第一天,你希望他第一眼看到什么?"
Score 7.0 / 最高 ROI 但意图待确认。
这次决策的排期结论¶
| 本期(next) | R-011 | | 下次评估会(evaluating → next) | R-012(依赖 R-011 结果) | | V1 迭代(next+2) | R-013(战略必做) | | 客户意图确认后决定(evaluating → ?) | R-014 |
给客户的回复话术¶
"历史数据我们一定要用起来,但直接让人回头打标不现实。我们的方案是:
- 用已有的业务结果(谁 booked / 谁付费 / 谁流失)自动反推标签,覆盖 60-70% 场景,零人工;
- 剩下需要理解通话内容的部分,用 AI 自动标注 + 人工抽检质量;
- V1 上线后,task 决策链路会持续产生高质量新标签。
这样 V0 数据不浪费,人力也不压垮。大概 2-3 周就能看到第一版效果。
另外想请教一下:新客户第一天登录,您希望他第一眼看到什么?这个问题的答案会帮我们决定要不要把历史数据做成 onboarding 页面。"
需要监控的信号¶
拆分决策做完后,定期回看这 4 个假设有没有被现实否定:
| 假设 | 怎么验证 | 推翻时怎么办 |
|---|---|---|
| V0 derive 能覆盖 60-70% 场景 | R-011 做完后统计覆盖率 | 如果只覆盖 <30%,R-012 必须提前 |
| LLM 自动标注准确率 >80% | R-012 抽检 50 条 | 如果 <80%,放弃 R-012 或调 prompt |
| V1 模型能用 V0 derive + LLM 标签训出来 | V1 初版训练结果 | 如果效果差,重新评估是否需要人工标注关键样本 |
| 客户真正要的是 onboarding demo | 下次和客户X 的沟通 | 如果客户要的是 AI 训练,R-014 降级 |
Update(被 override 时往这里加,不删原文)¶
无