客户X "数据飞轮" 需求拆分决策¶

日期：2026-04-13 触发：客户X 口头提议"我们已经有几个月数据了，能不能用来做数据标记、做数据飞轮？" 决策人：产品 + 工程 相关 backlog 条目：R-011 / R-012 / R-013 / R-014

原始需求¶

客户X 在例行沟通时提出：

"我们用 retaintive 几个月了，已经存了不少 call 数据，能不能把这些数据用来做数据飞轮？做个数据标记之类的。"

产品第一反应："下期可以做，要技术评估工作量。但 V0 的分类做得很简单，意义不大；只有 V1 的 task→AI→标注链路才是真正有意义的训练数据。现在回头标注耗人力，不建议做。"

为什么不接受"直接做 / 直接不做"的二元结论¶

风险 1：混淆了"标签粗糙" vs "原始数据没价值"¶

V0 的分类字段粗糙 ≠ V0 的原始数据没价值。raw data 包括：通话录音、transcript、outcome（booked / showed up / 付费）、时间戳、staff、contact 信息。这些原始信号仍然完整。

如果因为"V0 标签不好"就整体丢弃 V0 raw data，V1 的 AI 模型会 cold start。按当前 call volume 估算，要积累到能训练的规模（10K+ 有效样本）可能需要 6-12 个月。这段时间"数据飞轮"根本转不起来，客户看不到效果。

风险 2：混淆了"人工标注" vs "自动标注"¶

"耗人力"的前提是"人工标注每一条"。但 2026 年有两种零人工的标注方式：

Derive labeling：用已有下游结果反推标签（SQL join 即可），零成本
LLM auto-labeling：用 Kimi/Claude 批量跑 transcript，成本 $1.5/1000 条，几分钟跑完

4 人团队做不了人工标注，但完全有能力做自动标注。

风险 3：没问清楚客户到底要什么¶

客户说"数据飞轮"时，可能指三种完全不同的东西：

客户可能想的	要做的事	工作量
训练 AI 精度越来越高	标注数据 + 训练链路	中-大
看历史数据的回顾分析报告	聚合统计 dashboard，不需要打标	小
新客户上来就能看到"你们数据已经告诉我们什么"	Onboarding demo	小-中

第二和第三种根本不需要训练模型。直接按第一种做可能是解错了题。

拆分成 4 条的逻辑¶

为避免"all or nothing"的错误决策，把这条需求拆成 4 个可独立评估、可独立排期的子项：

R-011 — V0 数据 Derive labeling 管道¶

做什么：写一组 SQL join，从已有的下游结果反推训练标签。例如：

Call 后 24h 内 lead booked → outcome: converted
Call 时长 >2min + 同日第二通 call → quality: engaged
Call 时长 <10s → outcome: hang_up
同 contact 7 天内 ≥3 次未接通 → pattern: cold_lead
Member 在 call 后 30 天内付费 → value: converted_member

为什么 next 本期就做：

零人工成本 — 完全是 SQL，不需要打标
工作量极小（Effort=2，估 3-5 天）
立刻产生价值 — 几千条有 ground truth 的样本可以用作 V1 模型的 bootstrap
风险极低（Risk=2）— 已知信号是否存在，写查询就行

Score 6.5 / 本期最高 ROI 项目之一。

R-012 — V0 数据 LLM 自动标注 + 抽检¶

做什么：对 Derive 搞不定的维度（客户情绪、staff 专业度、是否错过 credit card capture 等），用 LLM 跑 transcript 批量打标，人工抽检 50-100 条确认准确率。

为什么是 evaluating 不是 next：

质量未验证 — LLM 打标的准确率在 retaintive 业务场景下是否 >80% 未知，先小规模试跑 100 条再决定是否 scale 到全量
依赖 R-011 — 先看 R-011 derive 能覆盖多少场景，剩下的缺口才是 R-012 的范围
评估步骤：先用 $1.5 跑 1000 条样本 → 人工抽检 50 条 → 如果准确率 >80% 就推进，否则调 prompt 或放弃

Score 3.0 / 中等。

R-013 — V1 task→AI→标注反馈链路¶

做什么：V1 核心功能 — task 生成后 AI 辅助决策，决策结果和人工修正作为高质量训练样本反馈给模型。

为什么 must 但是 next+2：

这是 V1 的核心卖点，战略必做（Tag=must override Score）
Score 1.8 确实低 — 因为 Effort=5（XL）、Risk=4（高）— 但 Score 在这里只是提示风险，不是决策依据
next+2 而非 next — 因为 V1 roadmap 已经排在后期迭代，R-011 和 R-012 是 V1 的前置准备

Score 1.8 / 战略必做不看分。

R-014 — 新客户 onboarding 历史数据展示¶

做什么：新客户登录第一天，展示"你们店的 call 数据已经告诉我们什么" — 比如 "上周 OTF Ardmore 有 37 通 call，其中 12 通是 intro booking，6 通成功"。

为什么 evaluating + nice：

这是对客户意图的假设 — 客户说"数据飞轮"时可能真正想要的是这个，不是训练 AI
如果假设对了，Score 7.0 是本次拆分的最高分，做出来是巨大的销售加分项
如果假设错了，就是 nice-to-have，不影响核心 roadmap
前置动作：下次和客户X 聊 15 分钟，问一个问题："新客户登录第一天，你希望他第一眼看到什么？"

Score 7.0 / 最高 ROI 但意图待确认。

这次决策的排期结论¶

给客户的回复话术¶

"历史数据我们一定要用起来，但直接让人回头打标不现实。我们的方案是：

用已有的业务结果（谁 booked / 谁付费 / 谁流失）自动反推标签，覆盖 60-70% 场景，零人工；

剩下需要理解通话内容的部分，用 AI 自动标注 + 人工抽检质量；

V1 上线后，task 决策链路会持续产生高质量新标签。

这样 V0 数据不浪费，人力也不压垮。大概 2-3 周就能看到第一版效果。

另外想请教一下：新客户第一天登录，您希望他第一眼看到什么？这个问题的答案会帮我们决定要不要把历史数据做成 onboarding 页面。"

需要监控的信号¶

拆分决策做完后，定期回看这 4 个假设有没有被现实否定：

假设	怎么验证	推翻时怎么办
V0 derive 能覆盖 60-70% 场景	R-011 做完后统计覆盖率	如果只覆盖 <30%，R-012 必须提前
LLM 自动标注准确率 >80%	R-012 抽检 50 条	如果 <80%，放弃 R-012 或调 prompt
V1 模型能用 V0 derive + LLM 标签训出来	V1 初版训练结果	如果效果差，重新评估是否需要人工标注关键样本
客户真正要的是 onboarding demo	下次和客户X 的沟通	如果客户要的是 AI 训练，R-014 降级

Update（被 override 时往这里加，不删原文）¶

无