跳转至

客户X "数据飞轮" 需求拆分决策

日期:2026-04-13 触发:客户X 口头提议"我们已经有几个月数据了,能不能用来做数据标记、做数据飞轮?" 决策人:产品 + 工程 相关 backlog 条目:R-011 / R-012 / R-013 / R-014


原始需求

客户X 在例行沟通时提出:

"我们用 retaintive 几个月了,已经存了不少 call 数据,能不能把这些数据用来做数据飞轮?做个数据标记之类的。"

产品第一反应:"下期可以做,要技术评估工作量。但 V0 的分类做得很简单,意义不大;只有 V1 的 task→AI→标注链路才是真正有意义的训练数据。现在回头标注耗人力,不建议做。"


为什么不接受"直接做 / 直接不做"的二元结论

风险 1:混淆了"标签粗糙" vs "原始数据没价值"

V0 的分类字段粗糙 ≠ V0 的原始数据没价值。raw data 包括:通话录音、transcript、outcome(booked / showed up / 付费)、时间戳、staff、contact 信息。这些原始信号仍然完整

如果因为"V0 标签不好"就整体丢弃 V0 raw data,V1 的 AI 模型会 cold start。按当前 call volume 估算,要积累到能训练的规模(10K+ 有效样本)可能需要 6-12 个月。这段时间"数据飞轮"根本转不起来,客户看不到效果

风险 2:混淆了"人工标注" vs "自动标注"

"耗人力"的前提是"人工标注每一条"。但 2026 年有两种零人工的标注方式:

  1. Derive labeling:用已有下游结果反推标签(SQL join 即可),零成本
  2. LLM auto-labeling:用 Kimi/Claude 批量跑 transcript,成本 $1.5/1000 条,几分钟跑完

4 人团队做不了人工标注,但完全有能力做自动标注。

风险 3:没问清楚客户到底要什么

客户说"数据飞轮"时,可能指三种完全不同的东西:

客户可能想的 要做的事 工作量
训练 AI 精度越来越高 标注数据 + 训练链路 中-大
看历史数据的回顾分析报告 聚合统计 dashboard,不需要打标
新客户上来就能看到"你们数据已经告诉我们什么" Onboarding demo 小-中

第二和第三种根本不需要训练模型。直接按第一种做可能是解错了题。


拆分成 4 条的逻辑

为避免"all or nothing"的错误决策,把这条需求拆成 4 个可独立评估、可独立排期的子项:

R-011 — V0 数据 Derive labeling 管道

做什么:写一组 SQL join,从已有的下游结果反推训练标签。例如:

  • Call 后 24h 内 lead booked → outcome: converted
  • Call 时长 >2min + 同日第二通 call → quality: engaged
  • Call 时长 <10s → outcome: hang_up
  • 同 contact 7 天内 ≥3 次未接通 → pattern: cold_lead
  • Member 在 call 后 30 天内付费 → value: converted_member

为什么 next 本期就做

  • 零人工成本 — 完全是 SQL,不需要打标
  • 工作量极小(Effort=2,估 3-5 天)
  • 立刻产生价值 — 几千条有 ground truth 的样本可以用作 V1 模型的 bootstrap
  • 风险极低(Risk=2)— 已知信号是否存在,写查询就行

Score 6.5 / 本期最高 ROI 项目之一

R-012 — V0 数据 LLM 自动标注 + 抽检

做什么:对 Derive 搞不定的维度(客户情绪、staff 专业度、是否错过 credit card capture 等),用 LLM 跑 transcript 批量打标,人工抽检 50-100 条确认准确率。

为什么是 evaluating 不是 next

  • 质量未验证 — LLM 打标的准确率在 retaintive 业务场景下是否 >80% 未知,先小规模试跑 100 条再决定是否 scale 到全量
  • 依赖 R-011 — 先看 R-011 derive 能覆盖多少场景,剩下的缺口才是 R-012 的范围
  • 评估步骤:先用 $1.5 跑 1000 条样本 → 人工抽检 50 条 → 如果准确率 >80% 就推进,否则调 prompt 或放弃

Score 3.0 / 中等

R-013 — V1 task→AI→标注反馈链路

做什么:V1 核心功能 — task 生成后 AI 辅助决策,决策结果和人工修正作为高质量训练样本反馈给模型。

为什么 must 但是 next+2

  • 这是 V1 的核心卖点,战略必做(Tag=must override Score)
  • Score 1.8 确实低 — 因为 Effort=5(XL)、Risk=4(高)— 但 Score 在这里只是提示风险,不是决策依据
  • next+2 而非 next — 因为 V1 roadmap 已经排在后期迭代,R-011 和 R-012 是 V1 的前置准备

Score 1.8 / 战略必做不看分

R-014 — 新客户 onboarding 历史数据展示

做什么:新客户登录第一天,展示"你们店的 call 数据已经告诉我们什么" — 比如 "上周 OTF Ardmore 有 37 通 call,其中 12 通是 intro booking,6 通成功"。

为什么 evaluating + nice

  • 这是对客户意图的假设 — 客户说"数据飞轮"时可能真正想要的是这个,不是训练 AI
  • 如果假设对了,Score 7.0 是本次拆分的最高分,做出来是巨大的销售加分项
  • 如果假设错了,就是 nice-to-have,不影响核心 roadmap
  • 前置动作:下次和客户X 聊 15 分钟,问一个问题:"新客户登录第一天,你希望他第一眼看到什么?"

Score 7.0 / 最高 ROI 但意图待确认


这次决策的排期结论

| 本期(next) | R-011 | | 下次评估会(evaluating → next) | R-012(依赖 R-011 结果) | | V1 迭代(next+2) | R-013(战略必做) | | 客户意图确认后决定(evaluating → ?) | R-014 |


给客户的回复话术

"历史数据我们一定要用起来,但直接让人回头打标不现实。我们的方案是:

  1. 用已有的业务结果(谁 booked / 谁付费 / 谁流失)自动反推标签,覆盖 60-70% 场景,零人工;
  2. 剩下需要理解通话内容的部分,用 AI 自动标注 + 人工抽检质量;
  3. V1 上线后,task 决策链路会持续产生高质量新标签。

这样 V0 数据不浪费,人力也不压垮。大概 2-3 周就能看到第一版效果。

另外想请教一下:新客户第一天登录,您希望他第一眼看到什么?这个问题的答案会帮我们决定要不要把历史数据做成 onboarding 页面。"


需要监控的信号

拆分决策做完后,定期回看这 4 个假设有没有被现实否定:

假设 怎么验证 推翻时怎么办
V0 derive 能覆盖 60-70% 场景 R-011 做完后统计覆盖率 如果只覆盖 <30%,R-012 必须提前
LLM 自动标注准确率 >80% R-012 抽检 50 条 如果 <80%,放弃 R-012 或调 prompt
V1 模型能用 V0 derive + LLM 标签训出来 V1 初版训练结果 如果效果差,重新评估是否需要人工标注关键样本
客户真正要的是 onboarding demo 下次和客户X 的沟通 如果客户要的是 AI 训练,R-014 降级

Update(被 override 时往这里加,不删原文)