Talents AI 平台项目降本建议书
分析日 2026-07-02 · 数据源:分析库全量 + 看板 dws 双通道对账(checker 复算残差 +0.6%)· 全部结论经数据复核官 + 反方辩手对抗后定稿 · 2026-07-04 更新:151 棱镜页整页升级为四维体检(fable vs sonnet 双模型辩论,4 轮双边共识)
¥1,328万
平台全周期总支出
人力 ¥1,135万 + API ¥193万
¥133万
废题相关支出(≠浪费)
API ¥66.4万 + 质检 ¥66.6万,拆三层见口径
≈¥58万
其中前瞻可治理
扣除必要质量成本与已停项目沉没后
34%
API 钱烧在废题比例
内部基线:68 项目为 9%
20.1%
质检钱付给废题比例
¥66.6万 / ¥332万
¥74.9万
近30天 API
其中 146 一家占 52%
39,646/53,913
题目 完成/废弃
全平台 99,257 题
四大浪费引擎(所有项目问题都落在这四类)
引擎一:agent 调用的 token 结构失控
两种形态:①provider 侧 agentic 循环前缀重放——146 的 GPT-5.5 wide-search 每次 22 个内部轮次,输入 p50=11.5 万 tok 且缓存命中仅 3.9%;②会话历史全量重放——98 opus-excel 中位 75 万 tok/次、116 opus-aioffice 47.7 万。两种形态的解法不同(缓存/轮次/effort vs 截断/摘要),开错药方会伤产品。
引擎二:查重/自检 checker 全量塞历史
阶梯 6/26 增量化已实证(约 20 万→600 tok/次,checker 钱 -25~30%,无质量回退)——全报告最硬的一条工程教训。同类肥 checker 已在 103/107(v4 变体 33-51k tok/次)烧掉 ¥1.2-2.5 万/项目,146 的变体还在跑。
引擎三:打回后专家走人(返修弃单)
废弃题吃掉质检结算 ≈¥66.6 万,按 final_reason 拆:超时废弃的题反而背着最多质检钱(¥30.4 万 > 主动放弃 ¥25.2 万)——真身是「被打回→专家不回来→领取过期」,和 6/23 返修放弃诊断是同一头怪。注意:被打回 ≥2 次的题 55.5% 最终完成,「早停杀题」会成建制杀死能活的题,禁用。
引擎四:题池投放与完成动力学脱节
116 每个月度 cohort 废弃率 ≥85%(结构性失败)vs 151 周完成 8→197 爬坡中(冻结会饿死流水线)——同样的「低完成率」需要相反的处方。投放规则必须带 cohort 成熟度修正,禁止用全池完成率一刀切。
平台级动作(跨项目,优先于单项目修补)
P0 立即「查重/自检增量化」沉淀为平台 checker 模板 + token 周巡检榜双方一致
为什么:阶梯 6/26 前后对照实证:查重从每次全量塞历史(≈20 万 tok)改增量后降到 573-696 tok/次,checker 成本 -25~30%,无质量代价——纯工程、跨项目可复现(辩论双方一致认定为全报告最硬的一条)。而 103/107 的 v4 变体(33-51k tok/次)跑完了整个生命周期,无任何巡检拦截。
怎么做:研发把增量化修法抽成公共实现;对全部在跑 check_type 建「单次 token×调用量」周巡检榜(dws 数据现成,加一个视图),超阈值自动告警;新项目默认套用。
预期收益:checker 侧全平台月省 5 位数;更重要的是防止 96/103/107 式的整周期陪葬复发。
P0 立即agent 调用成本三杠杆:先修缓存,再 AB 轮次/effort,最后才是内容治理经辩论改写
为什么:辩论推翻了「检索结果拼接」误诊:146 的 GPT-5.5 是 provider 侧 agentic 搜索循环(22 轮前缀重放),「截断检索结果」在我们手里没有旋钮。真正的杠杆按风险排序:①缓存命中率仅 3.9%(前缀重放场景理应大头命中,纯工程零产品风险);②输出侧 ¥9.6 万/30 天、95% 是 reasoning tokens,effort 降档可 AB;③轮次/搜索次数上限可 AB。会话重放型(97/98/116)才适用截断/摘要。
怎么做:146:先修 prompt cache(结构化前缀/确认开启),再跑 effort high→medium 与轮次上限的评测一致性 AB;97/98/116:会话滚动摘要+文件分片+单次 token 预算硬顶。
预期收益:146 缓存修复输入侧月省潜力数万至 ¥10 万(零风险);AB 类杠杆合计上限约 -40%(需产品拍板);97/98/116 截断类 -30~50%。
⚠ 前提/风险:wide-search 的轨迹疑似交付物(落 OSS 供专家评测),动轮次=动产品规格,必须先过评测有效性 AB。
P1 本月返修弃单主线:首打回抢救 + 48h 未动工干预 + ≥2 轮升级人工裁决(禁自动杀题)经辩论改写
为什么:废题质检钱的最大桶是「打回后专家走人」(超时废弃背 ¥30.4 万质检钱,按曾质检题均摊 ¥69.8/题 四类最高;其中实际带结算的约 2,400-3,100 题);而被打回 ≥2 次的题 55.5% 最终完成(122 高达 70%),多质检一轮均价仅 ¥82.4,期望值一边倒支持救题而不是杀题——初稿「2 轮早停终止」被辩论否决,与 6/23「轮数上限杀题=制度化白嫖」的结论也冲突。
怎么做:①首打回一屏说清 must-fix+锁定已通过部分(6/23 P0 复用);②打回后 48h 未动工自动提醒/改派;③≥2 轮未收敛升级人工同步裁决(救活优先,不自动终止);④MAX_REJECTED 系统杀题按已通过部分结算(1,868 题、¥7.2 万质检钱陪葬的补偿机制)。
预期收益:作用于 ¥66.6 万废题质检盘子中「可治理」的部分(在营项目 ≈¥44.7 万),核心收益是把 55% 能活的题真正送到完成。
P1 本月题池投放与完成动力学联动(带 cohort 成熟度修正)经辩论改写
为什么:「全池完成率」对年轻批次天然偏低,151 若在 6 月中被这规则冻结,正在爬坡的流水线(周完成 8→197)会被错杀;而 116 每个成熟 cohort 都死 85%+,是结构性失败。
怎么做:投放决策看「成熟 cohort(投放 ≥4 周)废弃率」而非全池完成率;成熟批次废弃 ≥60% 触发归因评审(题设计/专家匹配/质检标准),归因未清不放量;爬坡项目按质检产能对齐投放节奏。
预期收益:少放一道注定废弃的题=省它的自检+质检+专家无偿劳动;同时避免错杀爬坡项目。
P2 规划未提交题自检次数闸门(配置卫生,非降本项)经辩论改写
为什么:辩论实证(146):提交前自检 4-7 次的题首检通过率 62.6%,16+ 次的只有 47.1%——自检次数是「专家在挣扎」的信号而非质量投资,16+ 次的边际自检大概率纯烧钱;且反方担心的「限自检→打回率上升」在数据里无支撑。但省钱体量要诚实:146 未提交废题 checker 总花费仅 ¥5.7k,全平台 ≈¥12.2 万且多在已停项目。
怎么做:未提交题自检超 N 次(按项目分布 P75 定)后冷却+降档模型;上线带首检通过率/打回率监控;同时作为反刷接口的卫生闸门。
预期收益:卫生规则:防复发(96/103/107 每题 24-30 次的历史)+ 反作弊面收窄,直接省钱有限。
P2 规划数据债三件:dws 回补 / 151 itemId 埋点 / 停态项目 API 白名单双方一致
为什么:看板窗口外 ≈¥39.5 万真实消耗(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万)导致全周期口径低估 34%;151 的 response 归因 7/4 已打通(dwd_model_response_task_log_daily 100% item_id)但 token 字段全 0,金额仍靠消息数×均价估算;停态项目 API 泄漏现状很小(143/131/133 停后日烧≈0),白名单机制是低成本卫生项而非省钱项。
怎么做:ETL 回填 2026-01-20 前窗口与缺行;world_lab_agent_task 补 token 用量埋点(item_id 已有,缺 token 真值);项目停态默认 checker 白名单。
预期收益:数据可信度——151 response 从「不可归因」升级为「估算可归因」,补齐 token 埋点后闭环。
项目目录(按浪费+活跃度排序)
146 千寻计划 search 方向(英文)
头号火源 · 近30天烧掉平台 API 的 52%
浪费 ¥10.9万30天API ¥39.3万总投入 ¥110万
GPT-5.5 agentic 搜索 22 轮前缀重放、缓存命中仅 3.9%;日烧 ¥1.7-2.3 万无收敛;第一刀是修缓存。
151 棱镜计划 四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训)
核心破口:打回→废弃 58.8% · 一个 48h 时钟杀掉 1,455 题
浪费 ¥9.6万30天API ¥13.9万总投入 ¥46.2万
四维=两差两危急;D1/D3 两条流失支路被同一个 48h 静默超时收割;T1-T7 双模型共识定稿。
116 文脉计划 Word/PDF 文档输出
结构性失败 · 真议题是停/续
浪费 ¥8.2万30天API ¥3.5万总投入 ¥23.2万
每个月度 cohort 废弃率 ≥85%、api/完成题 ¥501;投放已趋零——该做的是停/续止损评审,不是修修补补。
97/98 Excel 大师 3/4 期【中文】
单次调用 token 全平台之最(会话重放型)
浪费 ¥5.0万30天API ¥3.7万总投入 ¥30.1万
opus-excel 均值 131 万 tok/次(中位 75 万/P90 320 万);98 日烧创新高,先设硬顶再瘦身输入。
111/109/114 领航计划(法律/医疗/自然科学)
checker 健康 · 打回拉锯但半数能救活
浪费 ¥10.4万30天API ¥2.7万总投入 ¥91.6万
废弃题拖 2.5-3.1 轮质检;但打回≥2 次的题 54-61% 最终完成——救题优先,杀题禁用。
128/139/150 Openclaw 小龙虾养殖计划 一/二/三期
标准错配实锤 · 家族级校准
浪费 ¥8.7万30天API ¥1.3万总投入 ¥33.1万
同一批专家在 139 首过率 3.3%,在其他项目 31.6%(10 倍差)——不是人差,是标准/题型特异性问题。
131/133 阶梯计划 单轮/多轮指令
已治理 · 监控页
浪费 ¥7.6万30天API ¥2.8万总投入 ¥16.2万
查重 6/26 已修(→600 tok);6/28 后日烧≈0;留三件事:gate 瘦身、老题退场、修法沉淀。
107 阿加莎 全领域长文项目
活动骤降 · 续期前先修两件事
浪费 ¥5.4万30天API ¥3,217总投入 ¥48.5万
自检烧钱王:2,363 题未提交废弃×26.3 次自检;v4 查重 51k tok/次未修;续期前必须先治理。
122 进阶规划
降温中 · 全平台最不该杀题的项目
浪费 ¥3.9万30天API ¥1,320总投入 ¥44.7万
打回≥2 次的题 70% 最终完成(≥3 次也有 67%)——这里的多轮是「修得慢」不是「修不好」。
68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示)
全平台效率标杆 · 但红利一半来自题型
浪费 ¥2.4万30天API ¥6,127总投入 ¥160万
api/完成题 ¥4.3 全平台最好;可推广的是三条原则,不是整包配置。
已停项目复盘(81/96/73/24/63/103/108)
≈¥39.5 万看板外消耗的主人 · 教训固化页
浪费 ¥38.1万30天API ¥186总投入 ¥243万
沉没成本不追溯;四条教训进新项目 checklist(第五条「早停杀题」已被辩论否决删除)。
口径与方法
- API 成本 = 按 ETL 同款计价逐调用复算(dim_model_api_price 官网价、USD×6.8、OpenRouter+5.5%),与看板 dws_project_api_cost_daily 在其覆盖窗口内对账,残差 +0.6%(¥787,159 vs ¥782,106);主力项目逐项目残差 <2%。
- 「API 烧在废弃题」= tbl_rubric_ai_check_log.project_item_id / tbl_ai_sessions.business_context->>itemId 按题归因后,题目终态 current_status=abandoned 的部分。active 题未来还会废弃,因此是下限。
- 「质检结算浪费」= dwd_item_quality_cost(金额按 settlement_facts.item_id 归题、biz_type=task_basic、events approved,与成本看板对齐);数据复核官用 settlement 三表独立路线重推差 +0.04% 印证,且确认 100% 浪费题都有真实质检事件、无重复结算。
- 废题支出 ≈¥133 万必须拆三层(辩论修正):①必要质量成本——首轮判废是质检的本职;未提交废题的 ¥12.2 万 checker 中一部分是闸门价值(上限反事实:若这些题全进人工质检,代价约 3 万题 × ¥133.5——实际拦截比例低于此,部分是弃领/弃作);②已沉没——checker 废题钱的 63%(¥22.4 万,重点 24 项目 checker 口径,分母 ¥35.8 万)与质检废题钱的 33%(¥21.9 万)在已停项目,追不回;③前瞻可治理 ≈¥58 万存量口径(在营项目的超额轮次、超发题池、肥 checker)——管理层沟通请用这一层。
- 废弃率基线:内部最优的 68 项目废弃率也有 38%,最好的月度 cohort 约 30%——30-40% 废弃是本业务常态,超出部分才是治理对象;行业外部基线不存在。
- 返修/打回 = tbl_project_items_log action=rejected AND stage IN (review,qa)(含二审,与周会口径一致);废弃去向按 final_reason:LABELER_/TIMEOUT_/MAX_REJECTED_/TERMINATED_ABANDONED。
- 人力成本 = dws_project_cost_summary(专家+质检+激励+补偿,结算口径);「专家几乎不为废题获得标注结算」经 settlement facts 路线验证(全平台仅约 ¥5k)——废题的专家劳动近乎全部无偿,这是体验问题大于成本问题。
- 本报告金额均为全周期累计(平台 2025-11 至今),另附近 30 天 API 区分「历史教训」与「正在燃烧」;质检浪费等随活库逐日增长(报告写「≈」值,分析时点 2026-07-02)。
- 看板窗口外 ≈¥39.5 万构成:各项目 dws 回填起点(全局 2026-01-20)之前 ≈¥25-30 万 + 窗口内 493 个「项目-天」缺行 ≈¥9-11 万;146 的 response 双路线(复算 ¥35.8 万 / dws ¥35.2 万,-1.8%)取复算值。
- 151 归因口径 7/4 修正:此前「151 response 无法按题归因」系查错表——`dwd_model_response_task_log_daily` 100% 带 item_id 可 join(tbl_ai_sessions 路径才是死路);但该表 token 字段全 0,金额为消息数×模型均价的估算口径(废弃题 ≈¥5.5 万),真值待补 token 埋点。146 有 160 题「已提交未打回却废弃」(¥707 checker)属正常尾部。
对抗验证记录:本报告经两个独立对抗角色审核后收敛定稿。①数据复核官:对 10 组关键数字用替代 SQL 路线独立重推(质检浪费走 settlement 三表 vs dwd 宽表、response 走 dws 看板 vs 逐消息复算、自检次数换事件词表重数等),10/10 MATCH、0 推翻;要求的 4 处修正(98 均值须并列中位数 75 万/P90 320 万、活库漂移加注、146 双路线加注、窗口外金额拆构成)已全部落实。②反方辩手:对 10 条高风险论点连库举证攻击,2 条建议被否决并已删改(「打回 2 轮早停终止」——实测被打回 ≥2 次的题 55.5% 最终完成、122 达 70%,早停会成建制杀死活题;「151 冻结题池」——151 周完成 8→197 爬坡中,冻结会饿死流水线),1 条机制误诊被重写(146 的 11.4 万 tok/次是 provider 侧 agentic 搜索 22 轮前缀重放而非检索拼接,第一杠杆改为修缓存——实测命中率仅 3.9%),多条措辞弱化(TIMEOUT 真身是返修弃单而非占坑、68 健康有题型红利、「浪费 ¥133 万」拆三层)。2 次攻击失败反而加固原结论:小龙虾「标准错配」拿到实锤(同一批专家在 139 首过率 3.3% vs 其他项目 31.6%,10 倍差);「自检限额会推高打回率」被数据否定(自检越多首过率反而单调走低)。终稿全文回传反方复核:核心裁定「无一遗漏、无一被稀释」,除两处措辞修正(闸门价值标注为上限反事实、沉没占比标注 24 项目 checker 口径,均已落实)外确认 CONSENSUS,无未决分歧。反方最终警语:在这个平台上,「看起来在浪费钱的环节」有一半其实是质量闸门和活题在工作;先问「砍掉它会杀死什么」,再问「能省多少」。
2026-07-04 第二场辩论(151 棱镜专项):按「每方最多 3 轮、中途共识即停」协议,fable 与 sonnet 两个不同模型对抗,4 轮达成双边 CONSENSUS(Fable 立场稿 → Sonnet 攻击出 8 条必改 → Fable 全部修正并补新证 → Sonnet 独立复现 4 个承重数字后签字)。战果:Sonnet 打掉了串行根因链、「修 2-3 轮活得多」(幸存者偏差)、一处假事实与 caching 经验平移;Fable 推翻了本报告 7/2 版「151 response 不可归因」的结论(查错表,Sonnet 复核后加固)。151 页已整页升级为辩论定稿,完整记录在 outputs/20260704-棱镜四维体检/。
146 千寻计划 search 方向(英文) in_progress
¥110万
全周期总成本
API ¥40.0万 + 人力 ¥69.7万
5,643/3,725/9,725
题目 完成/废弃/总
完成率 58%
¥9.6万
API 烧在废弃题
占已归因 API 的 24%
诊断
- 近 30 天 API ¥39.3 万(平台 52%),日烧 ¥17-22k 趋势向上(7/1 = ¥22,778),周调用量 4.7k→19.1k 无自然收敛——当前唯一的六位数月燃烧项目。
- 机制(辩论修正后):GPT-5.5-high-wide-search 62,572 次 × 输入 p50=11.5 万 tok(p90=12.8 万,极度均匀=固定管线行为)。存库 user prompt 中位仅 680 字符——大 token 不是我们拼的 prompt,而是 provider 侧 agentic 搜索循环(每次约 22 个内部轮次,搜索约 21 次)的前缀重放累计计费。
- 缓存命中率仅 3.9-4.0%:前缀重放场景理应大头命中 prompt cache——这是全项目最大的零风险漏洞。
- 输出侧被忽略:30 天输出 ¥9.6 万(占 GPT-5.5 成本 30%),约 95% 是 reasoning tokens(¥204/1M)。
- wide_search_prompt_cheating 查重单次 tok 两周内 21k→6.8k 自行下降中(疑似已有人在修),30 天成本 ¥13.7k,占项目 API 仅 3.4%。
- 健康面:完成率 58% 全平台前列;质检浪费绝对额 ¥1.3 万不大——它的问题是单位成本,不是废弃率。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| wide_search_prompt_cheating | 53,321 | 12,195 | ¥1.4万 | ¥3,058 |
| wide_search_prompt_quality | 53,946 | 4,403 | ¥1.3万 | ¥4,339 |
| wide_search_answer_validation | 24,435 | 6,492 | ¥5,980 | ¥1,602 |
| wide_search_query_step_quality_check | 14,293 | 6,313 | ¥4,612 | ¥861 |
| wide_search_sota_answer_validation | 13,587 | 6,632 | ¥3,240 | ¥715 |
| wide_search_industry_domain_china_specific_check | 52,629 | 3,150 | ¥1,041 | ¥328 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| qwen-3.7-max-wide-search | 100,186 | 8,164 | 9,143 |
| GPT-5.5-high-wide-search | 62,572 | 7,451 | 114,248 |
| Gemini-3.1-pro-online-wide-search | 8,397 | 3,376 | 18,255 |
改进建议
P0 立即修 prompt cache(第一优先,零产品风险)经辩论改写
为什么:22 轮前缀重放循环的缓存命中率只有 3.9%——每一轮都在为几乎相同的前缀付全价输入费。这是辩论环节发现的最大安全杠杆,不动任何产品规格。
怎么做:排查会话前缀结构(时间戳/随机量破坏缓存的常见原因)、确认 provider 缓存开启并结构化前缀;上线后用 cached_tokens 占比周监控。
预期收益:输入侧(30 天 ¥22.7 万)月省潜力数万至 ¥10 万,取决于可命中比例。
P0 立即轮次/搜索次数上限 + reasoning effort 降档,双 AB一致·带条件
为什么:输入 token 分布极度均匀=每次都跑满轮次预算;输出 95% 是 reasoning。两个旋钮都可能影响评测结果质量,必须 AB 而非硬切。
怎么做:①max rounds / 搜索次数上限梯度 AB(判定一致率为准);②effort high→medium AB。任一通过即固化。
预期收益:两杠杆合计上限约 -40%(月 ¥10-15 万),以 AB 结果为准。
⚠ 前提/风险:轨迹本身疑似交付物(trajectoryOssKey 落 OSS 供专家评测),动轮次=动产品规格,需产品负责人拍板(辩论共识:此为规格决策,不是运维优化)。
P1 本月查重 checker 增量化(先核实是否已在修)一致·带条件
为什么:单次 tok 两周自行腰斩(21k→6.8k),疑似已有人动手;若无人在修,照抄阶梯 6/26 修法压到约 600 tok。
怎么做:先问研发确认;未修则复用增量化实现,上线后巡检榜验证。
预期收益:按 6/29 run-rate 约 ¥0.6-1.2 万/月,随基数衰减;占项目盘子 3.4%,优先级排缓存与 AB 之后。
P2 规划未提交题自检闸门(卫生规则)经辩论改写
为什么:2,966 题未提交即废弃(平均自检 11.5 次,checker ¥5.7k);辩论实证:自检 4-7 次的题首过率 62.6% vs 16+ 次 47.1%——多自检不买质量,16+ 次的边际调用纯烧钱,且限额不会推高打回率(该假设被数据否定)。
怎么做:未提交题自检超 P75(约 10 次)后冷却+降档;带首过率监控上线。
预期收益:¥5.7k 存量级,定位是配置卫生+反刷闸门,不入降本账。
P2 规划TERMINATED 决策前置(170 题复盘)双方一致
为什么:170 题被运营终止前已产生检查与质检消耗;终止决策越晚,沉没越多。
怎么做:复盘终止原因与时点;把批次终止评审提前到质检消耗发生前。
预期收益:一次性教训固化,防复发。
151 棱镜计划 四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训) in_progress
¥46.2万
全周期总成本
API ¥14.3万 + 人力 ¥31.9万
534/3,167/4,150
题目 完成/废弃/总
完成率 13%
¥2.6万
API 烧在废弃题
占已归因 API 的 18%
本页 2026-07-04 整页升级:按「每方最多 3 轮、共识即停」协议跑 fable vs sonnet 双模型辩论,4 轮达成双边 CONSENSUS,取代 7/2 版 151 建议(投放节流/48h 干预两条被吸收进 T1/T2 体系,「response 不可归因」被推翻修正)。数据截至 7/4:3,933 题 / 完成 456 / 废弃 3,127 / live 349;API 累计 ¥126,579,折 ¥278/完成题。完整辩论记录与可复跑 SQL:outputs/20260704-棱镜四维体检/。
诊断
- 四维评分卡:①提交率 35.0%(理想 ≥55.7%=同批专家在其他项目实测;平台中位 50.7%)【差】 ②首检通过率 13.0%,7 月掉到 7.0%(理想主锚 ≥22.5%=151 自身老手第 6-15 题实测,上限 31.0%=同人 elsewhere 剔 68 后)【差·趋势危急】 ③打回→废弃 58.8%(平台中位 39.6%、同题型 146=31.2%;首轮打回后完成率仅 26% vs 68=81%)【危急·核心破口】 ④checker ¥80/完成题(直接成本仅 ¥21,负担率 3.81× 全场最差;68=1.14×)【危急】。
- 根因=两个并行杀手(辩论改画:非串行链):因A 质量门槛失配——题难+打回理由黑盒(纯「见批注」);7 月新老专家首过率同步腰斩(rookie 12.1%→4.4% / veteran 28.1%→14.9%),已排除新人稀释与 reviewer 换人,「同批质检口径收紧」未排除(打回理由均长 +31%),双假设并存待书面确认。因B 48h labeling 静默超时时钟(配置 timeout_actions={labeling, abandon, 48h},无任何到期提醒)。
- 48h 时钟一杆收割两条支路(本轮最大发现,Sonnet 独立复现):D1 未提交超时 1,066 题与 D3 打回后超时 389 题的存活时长签名完全一致(p25/50/75 = 48.3/48.5/48.8h)= 同一时钟,合计 1,455 题当量的静默流失面;maxReworkCount=5 容错够用(制度杀题仅 71),缺的是到期触达,不是窗口长度。
- checker 真冗余 = 同 check_type 对同一题反复调用:占全部 61,773 次调用的 83.4%,第 3 次及以后占 70.7%(极值:单题单类型 124 次)——「七件套全家桶齐发」的说法被辩论证伪(多数题不满 7 种、非并发),7 类检查本身不砍。
- response 侧:100% 走 OpenRouter→gemini-3.1-pro-preview;输入 9.07B tok vs 输出 0.15B(成本几乎全在输入,PDF 前缀反复投喂);按题归因(估算口径)废弃题烧掉 ≈¥5.5 万 response(≈60%)。
- 未提交废弃 2,406 题两种死法:63% 领题 <30 分钟秒退(领取端错配)+ 686 题平均自检 14 次「力竭不敢交」;前身 143(已停,6/18 后零烧)同病:单次 86k tok、废弃题拖 2.4 轮质检——教训未被 151 吸收,本次以 T1-T7 制度化。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| pdf_long_vlm_prompt_and_answer_check | 24,145 | 29,099 | ¥1.5万 | ¥9,133 |
| pdf_long_vlm_CoT_check | 15,470 | 31,010 | ¥9,376 | ¥5,800 |
| pdf_long_vlm_ai_reply_check | 7,577 | 26,527 | ¥3,469 | ¥2,022 |
| pdf_long_prompt_and_answer_check | 4,524 | 28,866 | ¥2,796 | ¥1,672 |
| pdf_long_vlm_rubrics_check | 4,548 | 28,192 | ¥2,585 | ¥1,195 |
| pdf_long_ai_reply_check | 5,507 | 24,770 | ¥2,438 | ¥1,366 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| qwen-3.6-plus-pdflong | 4,250 | 335 | 86,460 |
| GPT-5.5-high-pdflong | 3,693 | 335 | 16,916 |
改进建议
P0 立即T1|48h 到期前 24h 提醒 + 打回理由结构化(禁纯「见批注」)双方一致
为什么:一次建设覆盖 D1+D3 两条支路共 1,455 题当量的静默流失(两批题死亡签名同为 48.3-48.8h,Sonnet 复现);打回后废弃每题沉没 ≈¥130-150,已沉没 ≈¥7.1 万。选「提醒」不选「延长窗口」:容错空间够(maxRework=5、制度杀仅 71 题),缺的是触达。不动质量标准。
怎么做:到期前 24h 站内+推送提醒(首领专家与返修专家共用同一触达);打回理由强制结构化(must-fix 清单),禁纯「见批注」。
预期收益:挽回幅度为假设区间,以 T7 A/B 两周回填真值后再全量。
P0 立即T2|首过率异动书面核查 + 执行口径显性化一致·带条件
为什么:7 月双腰斩已排除新人稀释与 reviewer 换人,但「同批 reviewer 口径收紧」未排除(理由均长 +31%,头部 reviewer approve_rate 有腰斩)——双假设并存;好在两个假设的动作同构。
怎么做:第 1 步=向 review 负责人书面确认 6/22 前后执行口径是否变更(前提未满足不做第 2 步);第 2 步=把执行口径写成文档+样例题(标准收紧→新标准显性化;题池变难→难点写进指引)。
预期收益:每 +5pp 首过率 ≈ 少 100 次打回/月(待前提确认后的估算)。
⚠ 前提/风险:归因表述在书面确认前保持双假设,不得单押「题变难」或「标准收紧」。
P0 立即T7|165 道在飞已打回题定向挽留 A/B(T1 的拍板依据)双方一致
为什么:T1 的所有 ROI 数字、「回来修就能活」的因果、以及「修 2-3 轮完成率更高」辅证的幸存者偏差,全部以此 A/B 拍板——两周出结果,避免拍脑袋全量。
怎么做:165 道在飞已打回题随机分组:实验组上 T1 提醒+结构化理由,对照组现状;两周对比回工率/完成率。
预期收益:验证器本身不省钱,但决定 T1 是否全量与预期收益真值。
P1 本月T3|checker 同 check_type 重复调用治理(-35% 量级)经辩论改写
为什么:真实冗余是同类型反复全量复检(第 3 次及以后占调用 70.7%)——辩论证伪了「七件套齐发」的机制描述后,治理面反而更大(R1 估 -20~30% 属保守下界)。
怎么做:同一 check_type 第 3 次起只复检上次失败项/变更项(失败项必复检);明确不砍 check_type 种类,防按错误机制模型设计导致漏检;完成题终检全量覆盖一次不减。
预期收益:checker 侧(累计 ¥3.5 万,7/4)约 -35% 量级。
P1 本月T4|response 按题归因落地(修正 7/2 版数据债结论)双方一致
为什么:辩论推翻旧结论:dwd_model_response_task_log_daily 在 151 下 36,225 行 100% 带 item_id、100% 可 join(tbl_ai_sessions 路径才是死路)——151 的 response 从「不可归因」升级为「估算可归因」(消息数×模型均价,废弃题 ≈¥5.5 万,消息份额 60.1% 与估算金额份额 59.7% 互洽)。
怎么做:看板接入该表做题级 response 归因(过渡口径);研发补 token 用量埋点拿真值(该表 token 字段全 0)。
预期收益:不直接省钱,是 151 后续所有 API 决策的度量前提。
P2 规划T5|prompt caching / PDF 解析复用评估(待研发确认)一致·带条件
为什么:输入 9.07B tok vs 输出 0.15B,成本几乎全在输入;单消息输入 211-447k tok,同会话 PDF 前缀重复投喂高度可能——方向成立。
怎么做:研发确认 OpenRouter→Gemini 路径的 caching 可行性与计费透传;可行则试点。
预期收益:高潜力但不进预算排期——146 的 OpenAI 缓存经验不可平移(辩论裁定),量级以研发确认为准。
⚠ 前提/风险:151 checker/response 100% 走 OpenRouter+Gemini,缓存机制与 OpenAI 直连不同。
P2 规划T6|领题前难度/工作量预览标签双方一致
为什么:63% 未提交废弃是领题 30 分钟内秒退——「开题即劝退」型错配,发生在领取端,提醒(T1)接不住这批。
怎么做:领题页展示预计工作量/页数/格式要求/样题预览;与 T1 互补(T6 挡领取前错配,T1 接领取后静默)。
预期收益:间接:压 D1 分母,减少每题 4.5 次白烧自检(存量 ¥6.2k 量级)。
116 文脉计划 Word/PDF 文档输出 in_progress
¥23.2万
全周期总成本
API ¥6.7万 + 人力 ¥16.5万
133/1,253/1,461
题目 完成/废弃/总
完成率 9%
¥4.1万
API 烧在废弃题
占已归因 API 的 62%
诊断
- 每个月度 cohort 的废弃率都 ≥85%(4 月 70/85、5 月 614/689、6 月 564/671)——不是爬坡期问题,每一批都死(与 151 形成鲜明对照)。
- API/完成题 ¥501 全平台最差之一;近 30 天仍烧 ¥35.0k;质检浪费 ≈¥41,351(40%)。
- 7 月仅投放 16 题,题池事实上已冻结——「冻结」是马后炮,真正悬而未决的是项目停/续决策。
- claude-opus-4.7-aioffice 2,506 次 × 平均 477k tok:office agent 会话历史全量重放(会话重放型,适用截断/摘要,与 146 的 agentic 型不同)。
- 116 被打回 ≥2 次的题最终完成率 29%(平台 55.5%)——与 151 并列全平台最低,裁决试点第二候选。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| proposal_rno_rf_rubrics_check | 4,688 | 35,221 | ¥3,492 | ¥2,100 |
| proposal_rno_rubrics_check | 8,932 | 7,268 | ¥3,446 | ¥2,324 |
| proposal_rednote_office_review_rubrics | 2,447 | 31,158 | ¥2,175 | ¥1,512 |
| proposal_rednote_office_task_check | 4,013 | 3,512 | ¥796 | ¥608 |
| instruction_contradiction_check | 2 | 17,011 | ¥3 | ¥3 |
| instruction_prompt_clarity | 2 | 11,048 | ¥2 | ¥2 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| claude-opus-4.7-aioffice | 2,506 | 774 | 477,343 |
| GPT-5.4-high-aioffice | 1,236 | 426 | 87,792 |
改进建议
P0 立即停/续止损评审(本页真正的决策)经辩论改写
为什么:辩论指出初稿回避了真议题:投放已趋零、每个成熟批次废 85%+、单题 API ¥501——继续烧 ¥3.5 万/月的前提应当是有明确的翻盘假设,否则是惯性燃烧。
怎么做:两周内出停/续评审:①废弃题按打回理由抽样归因(题设计 vs 专家匹配 vs 质检标准,可复用小龙虾的双盲复核法);②若续,须给出「成熟 cohort 废弃率 <60%」的达成路径与期限;③若停,走体面收尾(在制题裁决+专家结算保护),避免 TERMINATED 式突然死亡。
预期收益:止住 ¥3.5 万/月的惯性燃烧,或给出继续烧的正当理由。
P0 立即opus 会话上下文截断/摘要(若续办,立即做)双方一致
为什么:477k tok/次 × opus 单价=单次调用 ¥16+;office 文档逐轮累积全量重放,是会话重放型的教科书案例。
怎么做:会话历史滚动摘要;文档只带当前操作分片;单次 token 预算 15 万并告警(与 98 试点共用方案)。
预期收益:response -50% 量级(月省 ¥1-1.5 万,按当前燃烧)。
P2 规划超时题并入返修弃单主线措辞已弱化
为什么:608 道超时废弃与 606 道主动放弃对半;辩论修正后不再当「占坑」治,并入打回后 48h 干预主线。
怎么做:同 151 方案;若停/续评审判停,此条随之关闭。
预期收益:随主线计。
97/98 Excel 大师 3/4 期【中文】 in_progress
¥30.1万
全周期总成本
API ¥6.0万 + 人力 ¥24.1万
360/1,010/1,453
题目 完成/废弃/总
完成率 25%
¥3.1万
API 烧在废弃题
占已归因 API 的 52%
诊断
- 98 的 Claude-opus-4.6-excel 平均 131 万 tok/次(280 次;中位数 75 万 / P90 320 万——均值被长尾拉高 1.7 倍,但中位数已是全平台之最)、97 为 63.6 万(513 次)——全量表格+历史重放叠加极端长会话。
- 98 近 30 天 ¥22.0k 且 7/1 单日 ¥3,451 创新高(爬坡中);97 近 30 天 ¥15.2k。
- 完成率 97=15%、98=35%;质检浪费 ≈¥11.8k(38%)/ ¥7.1k(29%);废弃题平均质检 2.1/2.2 轮。
- 97 提交率 0.3 偏低(476 题未提交废弃,平均自检 7.5 次)。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| excel_match_cn_ref_answer_file_check | 4,564 | 42,087 | ¥6,067 | ¥2,783 |
| excel_ami_cn_rubric_content_discrimination | 1,877 | 54,914 | ¥4,147 | ¥2,154 |
| excel_ami_cn_ref_answer_file_check | 3,236 | 34,052 | ¥3,833 | ¥2,364 |
| excel_ami_cn_rubric_coverage_check | 1,854 | 7,093 | ¥711 | ¥365 |
| excel_ami_cn_prompt_check | 5,852 | 5,750 | ¥691 | ¥451 |
| excel_ami_cn_rubric_split | 725 | 7,817 | ¥451 | ¥303 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| GPT-5.5-high-excel | 590 | 293 | 71,772 |
| Claude-opus-4.6-excel | 513 | 239 | 635,782 |
| GPT-5.5-high-excel | 481 | 225 | 64,263 |
| Claude-Sonnet-4.6 | 480 | 98 | — |
| GPT-5.4-xhigh | 476 | 97 | 56,468 |
| GPT-5.4-xhigh | 298 | 45 | 40,108 |
改进建议
P0 立即Excel 输入瘦身:diff/相关 sheet/结构摘要替代全量投喂 + 长会话硬顶双方一致
为什么:均值 131 万 tok 一次调用输入侧≈¥45(中位≈¥26,P90 长会话超 ¥100)——长尾会话是硬顶首要目标;Excel 场景天然可用「变更 diff+相关区域」替代整表重放,信息无损。
怎么做:首轮传结构摘要,后续轮只传 diff 与引用区域;单次 token 预算 30 万硬顶+告警(P90 的 1/10);98 爬坡中优先落地,97 跟随。
预期收益:两项目 response 合计月省 ¥1.5-2.5 万(按 7 月燃烧速率)。
P1 本月97 成熟 cohort 归因 + 投放联动经辩论改写
为什么:完成 106/721 且成熟批次表现无改善迹象;按平台修正后的规则用成熟 cohort 废弃率(而非全池完成率)触发归因评审。
怎么做:成熟 cohort 废弃率核算→≥60% 触发归因;未提交题自检闸门(卫生规则)同步开。
预期收益:质检+checker 浪费增速控制。
P2 规划打回后 48h 干预(并入返修弃单主线)经辩论改写
为什么:废弃题平均 2.1-2.2 轮质检,主要流失形态与平台一致(打回后走人)。
怎么做:复用平台主线方案(首打回抢救+48h 干预+≥2 轮人工裁决,禁自动杀题)。
预期收益:随平台主线计。
111/109/114 领航计划(法律/医疗/自然科学) in_progress
¥91.6万
全周期总成本
API ¥4.8万 + 人力 ¥86.7万
931/1,920/3,155
题目 完成/废弃/总
完成率 30%
¥1.3万
API 烧在废弃题
占已归因 API 的 26%
诊断
- checker 结构健康(rubrics_v3 家族单次 5-11k tok,成本低),API 不是问题;30 天 API 合计约 ¥2.7 万,项目活跃。
- 人力盘子大:三项目结算合计 ¥86.7 万;质检浪费 ≈¥43,361(21%)/ ¥33,179(22%)/ ¥14,905(15%),合计 ≈¥9.1 万;废弃题平均被质检 2.8/3.1/2.5 轮,全平台最深的打回拉锯。
- 但辩论实证否决了「早停杀题」:111 被打回 ≥2 次的 226 题里 122 题(54%)最终完成,109=60%、114=61%——把这些当「可挽回浪费」算是把交付物当浪费;多质检一轮均价仅 ¥82.4,期望值支持继续救。
- 真正的浪费在两处:打回后专家走人(超时废弃背最多质检钱)+ 收敛太慢(挤牙膏式打回意见)。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| rubrics_v3_model_evaluation | 19,062 | 10,771 | ¥6,692 | ¥1,975 |
| rubrics_v3_quality_check | 19,256 | 6,296 | ¥4,975 | ¥1,407 |
| rubrics_v3_model_evaluation | 13,536 | 8,704 | ¥4,206 | ¥1,294 |
| rubrics_v3_model_evaluation | 9,405 | 11,502 | ¥3,431 | ¥799 |
| rubrics_v3_answer_alignment | 8,111 | 9,278 | ¥3,369 | ¥1,001 |
| rubrics_v3_quality_check | 13,525 | 4,805 | ¥3,033 | ¥907 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| qwen-3.6-plus-rubricsV3 | 993 | 326 | 42,863 |
| Claude-4.6-thinking-rubricsV3 | 964 | 325 | 9,091 |
| qwen-3.6-plus-rubricsV3 | 895 | 407 | 59,201 |
| Claude-4.6-thinking-rubricsV3 | 886 | 407 | 9,445 |
| Claude-4.6-thinking-rubricsV3 | 829 | 212 | 19,321 |
| qwen-3.6-plus-rubricsV3 | 764 | 212 | 65,965 |
改进建议
P0 立即≥2 轮升级人工同步裁决(救活优先,禁自动终止)经辩论改写
为什么:54-61% 的 ≥2 轮题能活,说明大部分拉锯是「能修但修得慢」;人工同步裁决(质检+专家+PE 当日对齐 must-fix)打断拉锯,把活题更快送达完成,而不是把它杀掉。原稿「早停终止+挽回 30-50%」经辩论否决删除。
怎么做:≥2 轮未收敛自动进裁决队列(当日 SLA);裁决产出=完整 must-fix 清单或终止(终止按已通过部分结算);配套跟踪裁决后完成率。
预期收益:收益主体是交付加速与专家留存;直接省钱限于真死题少拖 1-2 轮(量级 ¥1-2 万/同期)。
P1 本月质检收敛激励(红色警示版)措辞已弱化
为什么:多轮质检按次全价计酬确实缺收敛激励;但辩论升级了警示:计酬递减的理性对策是第 1 轮直接放行,腐蚀质量闸门——此风险比拉锯本身更贵。
怎么做:不动单轮计酬;改做正向激励:按「题目最终完成且轮次 ≤2」发收敛奖金,配质检推翻率抽检对冲放水。任何计酬递减/封顶方案在有推翻率监控前禁止上线。
预期收益:间接;核心是别把闸门改坏。
⚠ 前提/风险:需财务+质检团队联合设计,先小范围试点。
P2 规划首打回抢救包(一屏说清+锁定已过部分)双方一致
为什么:60% 的返修流失发生在第 1 次打回(平台级规律);领航是出题类,流失的是最贵的专家。
怎么做:复用 6/23 返修放弃报告 P0-0 方案。
预期收益:间接:降低废弃率分母。
128/139/150 Openclaw 小龙虾养殖计划 一/二/三期 in_progress
¥33.1万
全周期总成本
API ¥2.1万 + 人力 ¥31.1万
141/1,490/1,737
题目 完成/废弃/总
完成率 8%
¥3,948
API 烧在废弃题
占已归因 API 的 19%
诊断
- 完成率:一期 57/685(8.3%)、二期 40/520(7.7%)、三期 44/501(8.8%)——三期无改善;质检浪费占比:二期 ≈59%(¥46,511)全平台最高、一期 35%(¥31,925);废弃题平均质检 2.7/3.3 轮。
- 辩论实锤(反方攻击失败反而补上证据):在 139 提交过的 143 名专家,在 139 的首次质检通过率 3.3%;同一批人在其他项目 1,284 题首过率 31.6%(68=48.3%、134=58.7%、108=41.7%、146=35.5%)——「专家太差」假设被杀死,139 特异性(标准/题型/rubric)是根因。
- 连带发现:这批人在 114(2.6%)、116(6.7%)、81(9.3%)、96(10.5%)首过率也极低——低首过率是 WLE/office/instruction 家族的族性,139 只是最极端,校准应打包到家族级。
- checker 几乎免费(wle 家族单次 1-2k tok,合计 <¥1k)——纯人力浪费型;二期已是「大幅简化版」仍然如此,简化题目没有解决判定标准问题。
- 128 被打回 ≥2 次的题 53% 最终完成——止损同样禁用自动杀题。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| wle_rubric_model_evaluation | 6,755 | 8,983 | ¥2,387 | ¥1,082 |
| wle_rubric_quality_check | 6,908 | 4,991 | ¥2,348 | ¥1,031 |
| wle_file_assoc_check | 1,534 | 8,200 | ¥777 | ¥314 |
| wle_ref_process_check | 1,801 | 8,263 | ¥505 | ¥284 |
| wle3_all_ai_check | 483 | 46,543 | ¥480 | ¥124 |
| wle_prompt_check | 2,977 | 1,900 | ¥344 | ¥240 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| Claude-4.6-thinking-rubricsV3 | 2 | 1 | 5,332 |
| qwen-3.6-plus-rubricsV3 | 2 | 1 | 6,321 |
改进建议
P0 立即家族级质检标准校准(归因已由数据完成,直接进入校准)经辩论改写
为什么:初稿建议「先做归因实验」;辩论用同专家跨项目对照直接完成了归因——根因锁定在 139/WLE 家族的标准与题型,不是专家质量。跳过实验,直接校准。
怎么做:①双盲复核 30 道被打回题(第二质检员+PE 仲裁)定位标准分歧点;②rubric 明确化+样题预审;③校准动作打包适用于 WLE/office 家族(114/116 同病);④校准后跟踪首过率,目标 ≥30%(同人群在其他项目的自然水平)。
预期收益:二三期若首过率 3%→30%,同等产出的质检轮次接近腰斩(该家族质检浪费 ≈¥7.8 万存量)。
P0 立即在制题人工裁决(禁自动终止)经辩论改写
为什么:拖 2.7-3.3 轮才废弃=每道死题多付 2 轮质检费;但 128 的 ≥2 轮题 53% 能活——止损靠人工裁决,不靠规则杀题。
怎么做:已打回 ≥2 且未收敛的在制题进裁决队列;终止按已通过部分结算。
预期收益:按当前浪费速率,每期止血千元至万元级。
P1 本月三期放量冻结直到校准达标一致·带条件
为什么:三期 44/501 与前两期同构(成熟 cohort 证据充分,不适用「爬坡期」豁免);继续放量=继续按约 59% 比例烧质检费。
怎么做:三期投放冻结,先完成上面的家族校准;首过率 >30% 再放。
预期收益:避免三期重演二期的 ≈¥4.7 万浪费。
⚠ 前提/风险:与 151 不同:此处冻结合法,因为三期的成熟 cohort 已证明结构性失败(辩论 D2 的 cohort 规则正向应用)。
131/133 阶梯计划 单轮/多轮指令 in_progress
¥16.2万
全周期总成本
API ¥5.8万 + 人力 ¥10.4万
111/1,595/1,713
题目 完成/废弃/总
完成率 6%
¥4.3万
API 烧在废弃题
占已归因 API 的 74%
诊断
- 历史之最:api/完成题 ¥625/¥401;API 的 75%/73% 烧在废题;质检浪费占比 69%/72%。根因已归因(6/27):题复杂(17-19 条 rubric)×废弃率 92-94%,非刷量非死亡螺旋。
- 查重增量化 6/26 生效:6/29 当周单次 573/696 tok(修前 5-8 万);两项目 6/8 后无新题,6/28 后日烧≈0。
- 遗留:①gate_quality 单次仍最重(6/27 曾见单次百万 tok 级);②6/26 后所有调用来自 6 道跨界老题;③修法尚未产品化沉淀。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| instruction_prompt_cheating | 10,651 | 57,948 | ¥9,652 | ¥6,757 |
| instruction_v3sp_mod_prompt_quality | 12,703 | 8,910 | ¥7,700 | ¥6,346 |
| instruction_prompt_rubric | 10,978 | 26,718 | ¥5,496 | ¥3,912 |
| instruction_prompt_rubrics_batch | 3,497 | 31,043 | ¥3,384 | ¥2,629 |
| instruction_prompt_rubrics_batch | 3,265 | 19,214 | ¥3,193 | ¥2,394 |
| instruction_gate_quality | 987 | 169,457 | ¥2,799 | ¥1,914 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| Qwen3.6-Plus | 10,872 | 545 | 12,277 |
| Qwen3.6-Plus | 3,620 | 616 | 13,357 |
| GPT-5.2 | 1,247 | 393 | 13,094 |
| Gemini-3.1-pro | 1,213 | 402 | 9,574 |
| claude-opus-4.5 | 1,178 | 392 | 22,300 |
| GPT-5.2 | 400 | 235 | 13,450 |
改进建议
P2 规划跨界老题退场 + 停态白名单(卫生项,非省钱项)措辞已弱化
为什么:辩论修正:143/131/133 停后日烧≈0,泄漏现状很小——此条是机制卫生,别当降本成果卖。
怎么做:对 6 道跨界老题设截止;项目收尾态 checker 白名单化(并入平台数据债三件)。
预期收益:机制价值,金额趋零。
P1 本月若重启:gate_quality 先瘦身 + rubric 增量判定双方一致
为什么:gate 单次全量塞题面+rubric+历史;重启后会按老单价燃烧。
怎么做:gate 改增量/分段;rubric 逐条判定已是增量机制(勿重复建设,6/27 已证)。
预期收益:重启场景 checker -30% 量级。
P2 规划把本项目治理打包为案例模板双方一致
为什么:查重增量化 + 归因方法论(口径三层/流错配陷阱)是平台资产,146 正是下一个适用者。
怎么做:沉淀至平台 checker 模板与新项目 checklist(对应平台级 P0 第一条)。
预期收益:跨项目复利。
107 阿加莎 全领域长文项目 in_progress
¥48.5万
全周期总成本
API ¥7.7万 + 人力 ¥40.8万
781/2,757/3,538
题目 完成/废弃/总
完成率 22%
¥3.1万
API 烧在废弃题
占已归因 API 的 40%
诊断
- 废弃 2,757/3,538(78%);其中 2,363 题从未提交,平均每题自检 26.3 次(¥11.1k checker 烧在这批题上)。
- instruction_v4_prompt_cheating 单次 51k tok 未套用增量化修法,6/8 周后调用停止(项目活动骤降,30 天仅 ¥3.2k)。
- 质检浪费 ≈¥22,522(37%);全周期 API ¥76.7k;146 之外查重欠账最大的在营项目。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| instruction_v4_prompt_cheating | 46,513 | 33,488 | ¥2.5万 | ¥1.0万 |
| instruction_v4_answer_uniqueness_check | 7,290 | 34,781 | ¥8,677 | ¥2,938 |
| instruction_v5_trajectory_check | 11,770 | 23,764 | ¥6,896 | ¥3,233 |
| instruction_v5_reference_answer_check | 11,422 | 21,257 | ¥5,389 | ¥2,461 |
| instruction_v4_prompt_ai_nature | 45,382 | 14,207 | ¥2,966 | ¥1,794 |
| instruction_vltr_prompt_quality | 45,771 | 20,215 | ¥2,776 | ¥1,860 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| Qwen3.6-Plus | 25,569 | 2,096 | 22,596 |
| Hy3-preview-tob | 11,431 | 1,767 | 22,828 |
| Gemini-3.1-pro | 5,017 | 1,392 | 20,277 |
| GPT-5.5-xhigh-v5 | 3,444 | 928 | 26,224 |
| GPT-5.2-Multimodal | 1,843 | 517 | 23,539 |
改进建议
P1 本月续期门槛:v4 查重增量化 + 自检闸门先行双方一致
为什么:项目当前低活动,但题池与配置还在;若按原配置续期/复用到新批次,26 次/题的自检和 51k 的查重会原样回来。
怎么做:把两项治理设为续期前置条件;配置修复后才放新题。
预期收益:续期场景下 checker -40% 量级(自检+查重两刀)。
P2 规划题池设计复盘双方一致
为什么:78% 废弃、2,363 题连提交都没有——「上手就放弃」型(与领航的轮次拉锯型不同);自检 16+ 次首过率反而更低的平台规律在此同样适用。
怎么做:对未提交废弃题抽样看自检失败集中在哪些 rubric;修题干与准入说明。
预期收益:影响续期成败,间接。
122 进阶规划 in_progress
¥44.7万
全周期总成本
API ¥3.2万 + 人力 ¥41.6万
454/1,327/1,791
题目 完成/废弃/总
完成率 25%
¥1.2万
API 烧在废弃题
占已归因 API 的 37%
诊断
- 近 30 天 API 仅 ¥1.3k(降温中);全周期 API ¥31.8k;质检浪费 ≈¥27,331(24%);废弃题平均质检 2.0 轮。
- 完成题中 114/454(25%)打回 ≥3 轮才过;但被打回 ≥2 次的题 70% 最终完成、≥3 次也有 67%——全平台最高的救活率,任何早停/杀题规则在本项目都是净损失(辩论 D4 的反例项目)。
- adv_plan_skeleton_check 单次 20.6k tok 偏肥(¥15.9k),但随项目降温改造 ROI 有限。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| adv_plan_skeleton_check | 15,335 | 20,635 | ¥1.6万 | ¥6,129 |
| adv_plan_timeline_check | 10,933 | 6,690 | ¥4,051 | ¥1,597 |
| adv_plan_verdict | 14,192 | 2,121 | ¥1,457 | ¥707 |
| hack_signal_render | 3 | 0 | ¥0 | ¥0 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| Hy3-preview-advplan | 9,799 | 890 | 11,767 |
| GPT-5.5-xhigh-advplan | 8,880 | 888 | 10,026 |
| Qwen3.6-Plus | 6,763 | 657 | 10,894 |
| Kimi-K2-Thinking2 | 9 | 1 | 17,069 |
| Qwen3-235B-Thinking | 8 | 1 | 17,838 |
改进建议
P1 本月收敛加速(不减轮次,减每轮损耗):打回意见结构化+全量一次说清经辩论改写
为什么:70% 救活率说明题都能修好,浪费在「挤牙膏式打回」拖长轮次;方向是让每轮更有效,而不是限制轮次。
怎么做:第 2 轮起打回必须列全 must-fix 清单且锁定已通过部分;质检意见模板化。
预期收益:把 3+ 轮题压向 2 轮,该部分质检费 -30%(约 ¥3-5k/同期),且不损失 70% 的救活率。
P2 规划skeleton check 瘦身(仅在项目回暖时做)双方一致
为什么:20.6k tok/次偏肥,但项目降温,改造 ROI 看回暖与否。
怎么做:挂进平台 checker 巡检榜,回暖自动触发。
预期收益:条件性。
68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示) in_progress
¥160万
全周期总成本
API ¥4.1万 + 人力 ¥156万
9,729/6,149/16,196
题目 完成/废弃/总
完成率 60%
¥3,752
API 烧在废弃题
占已归因 API 的 9%
诊断
- 全平台最大人力盘子(¥155.7 万)但效率最好:api/完成题 ¥4.3,API 废题占比 9%,质检浪费仅 4.1%;完成 9,729/16,196(60%)。
- 辩论修正:『未提交题自检 0.9 次』是选择性统计——全项目 checker 调用 17 万次 / 1.6 万领取题 ≈ 10.6 次/题,并不低;便宜靠的是 check 家族(cua_traj_audit 等 1.7-10.8k tok、便宜模型)+ 提交/审核节点触发而非作业中无限自检循环 + CUA 产物(操作轨迹)天然小。
- F7 的「30 倍自检差异」是跨 check 家族对比,配置与题型混杂——68 的健康一半是题型红利,出题类项目照抄配置会拆掉质量闸门。
- TIMEOUT_ABANDONED 2,508 题(废弃的 41%),但这些题 checker 消耗极小(合计 ≈¥240),多次领取占比仅 18%——按辩论修正,是流转/体验问题,不是钱的问题。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| cua_traj_audit | 26,773 | 10,225 | ¥1.8万 | ¥897 |
| cua_prompt_checker | 61,068 | 2,602 | ¥8,286 | ¥1,298 |
| cua_translate | 54,135 | 1,771 | ¥6,593 | ¥638 |
| cua_pe_check | 9,779 | 10,828 | ¥5,145 | ¥467 |
| cua_coverage_check | 18,346 | 3,239 | ¥3,255 | ¥451 |
改进建议
P2 规划超时题并入返修弃单主线(提效项,非省钱项)措辞已弱化
为什么:2,508 题超时废弃拖慢流转,但 API/质检消耗极小;辩论后定位从「降本」改为「流转卫生」。
怎么做:打回后 48h 干预复用平台主线;配额类功能先用「专家并发囤题」数据证明囤积存在再立项。
预期收益:流转速度,非直接金额。
P2 规划提炼三条可移植原则进新项目 checklist(不是照抄配置)经辩论改写
为什么:辩论修正:可移植的是原则——①便宜模型分层;②check 在提交/审核节点触发而非作业中循环;③check 输入只带必要上下文。目标值必须按题型分层(CUA 类 ¥4.3/题做得到,出题类做不到)。
怎么做:三原则写入新项目 checklist;按题型家族设差异化目标值。
预期收益:跨项目复利,防止「基线崇拜」误伤质量闸门。
已停项目复盘(81/96/73/24/63/103/108) stopped
¥243万
全周期总成本
API ¥52.6万 + 人力 ¥190万
6,440/14,709/21,156
题目 完成/废弃/总
完成率 30%
¥24.2万
API 烧在废弃题
占已归因 API 的 46%
¥13.9万
质检结算浪费(废题)
占质检结算 28%
诊断
- 这批已停项目贡献了看板窗口外 ≈¥39.5 万 checker 消耗的大头,也持有历史浪费之最:81 质检浪费 ≈¥70,678(绝对额历史第一)、96 每未提交题自检 24.1 次、103/108 达 30/29 次。
- 沉没占比(辩论 D8,重点 24 项目 checker 口径):checker 废题钱的 63%(¥22.4 万/¥35.8 万)、质检废题钱的 33%(¥21.9 万)在已停项目——本页只固化教训,不追溯翻账。
- 96 指令遵循单轮 2 期:1,837 题未提交废弃 × 24 次自检 ≈ ¥2.4 万纯自检烧钱;查重 59k tok/次跑完整个生命周期;24 期有 719 题 TERMINATED(运营批量终止)。
- 共性:废弃率 70-80%、查重/自检肥、题池超发——当时无任何巡检告警拦截;首过率族性差(81=9.3%、96=10.5%)与小龙虾同源。
废弃题去向(final_reason)
Checker 结构(按成本 Top)
| check_type | 调用次数 | 平均tok/次 | 成本 | 其中废题 |
|---|
| proposal_user_session_prompt_record | 255,155 | 4,533 | ¥5.1万 | ¥3.0万 |
| instruction_prompt_rubric | 76,716 | 21,195 | ¥3.3万 | ¥1.3万 |
| instruction_prompt_cheating | 27,864 | 59,393 | ¥2.8万 | ¥1.1万 |
| instruction_contradiction_check | 28,303 | 12,904 | ¥2.8万 | ¥1.6万 |
| proposal_user_session_prompt_link | 121,997 | 3,148 | ¥2.0万 | ¥1.3万 |
| proposal_user_session_prompt_record | 72,822 | 5,596 | ¥1.9万 | ¥1.4万 |
被测模型调用(model_response)
| 模型 | 调用次数 | 题数 | 平均tok/次 |
|---|
| Qwen3.5-397B | 60,843 | 3,355 | 11,319 |
| Qwen3.6-Plus | 18,565 | 1,886 | 14,297 |
| Gemini-3.1-pro-v5 | 15,551 | 1,464 | 13,603 |
| Qwen3.5-397B | 14,365 | 1,873 | 11,219 |
| Qwen3.6-Plus | 9,981 | 1,827 | 18,211 |
| Hy3-preview-tob-new | 6,086 | 1,198 | 17,310 |
改进建议
P1 本月新项目上线 checklist(四条,防复发)经辩论改写
为什么:同样的配置错误在 146/151/107 身上正在或刚刚重演,说明教训没有制度化。原第五条「打回 2 轮早停」被辩论否决(≥2 轮题 55.5% 完成),已替换为人工裁决升级。
怎么做:①查重/自检默认增量化(全报告最硬教训,阶梯已实证);②未提交题自检限额默认开(卫生规则);③题池按成熟 cohort 废弃率滚动投放(带成熟度修正,防错杀爬坡项目);④打回 ≥2 轮升级人工裁决(救活优先,禁自动杀题)。新项目不满足不放量。
预期收益:防复发:以 96 为参照,单项目可避免 ¥5-10 万级重复浪费。
P2 规划dws 看板回补 2026-01-20 前窗口与缺行双方一致
为什么:≈¥39.5 万真实消耗不在看板(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万),任何「全周期成本」汇报都会低估约 34%。
怎么做:ETL 回填(tbl_rubric_ai_check_log 数据都在);标注回填区间。
预期收益:数据可信度。