总览146 千寻search151 棱镜四维体检116 文脉97/98 Excel领航×3小龙虾×3131/133 阶梯107 阿加莎122 进阶规划68 CUA基线已停项目复盘

Talents AI 平台项目降本建议书

分析日 2026-07-02 · 数据源:分析库全量 + 看板 dws 双通道对账(checker 复算残差 +0.6%)· 全部结论经数据复核官 + 反方辩手对抗后定稿 · 2026-07-04 更新:151 棱镜页整页升级为四维体检(fable vs sonnet 双模型辩论,4 轮双边共识)

¥1,328万
平台全周期总支出
人力 ¥1,135万 + API ¥193万
¥133万
废题相关支出(≠浪费)
API ¥66.4万 + 质检 ¥66.6万,拆三层见口径
≈¥58万
其中前瞻可治理
扣除必要质量成本与已停项目沉没后
34%
API 钱烧在废题比例
内部基线:68 项目为 9%
20.1%
质检钱付给废题比例
¥66.6万 / ¥332万
¥74.9万
近30天 API
其中 146 一家占 52%
39,646/53,913
题目 完成/废弃
全平台 99,257 题

四大浪费引擎(所有项目问题都落在这四类)

引擎一:agent 调用的 token 结构失控
两种形态:①provider 侧 agentic 循环前缀重放——146 的 GPT-5.5 wide-search 每次 22 个内部轮次,输入 p50=11.5 万 tok 且缓存命中仅 3.9%;②会话历史全量重放——98 opus-excel 中位 75 万 tok/次、116 opus-aioffice 47.7 万。两种形态的解法不同(缓存/轮次/effort vs 截断/摘要),开错药方会伤产品。
引擎二:查重/自检 checker 全量塞历史
阶梯 6/26 增量化已实证(约 20 万→600 tok/次,checker 钱 -25~30%,无质量回退)——全报告最硬的一条工程教训。同类肥 checker 已在 103/107(v4 变体 33-51k tok/次)烧掉 ¥1.2-2.5 万/项目,146 的变体还在跑。
引擎三:打回后专家走人(返修弃单)
废弃题吃掉质检结算 ≈¥66.6 万,按 final_reason 拆:超时废弃的题反而背着最多质检钱(¥30.4 万 > 主动放弃 ¥25.2 万)——真身是「被打回→专家不回来→领取过期」,和 6/23 返修放弃诊断是同一头怪。注意:被打回 ≥2 次的题 55.5% 最终完成,「早停杀题」会成建制杀死能活的题,禁用。
引擎四:题池投放与完成动力学脱节
116 每个月度 cohort 废弃率 ≥85%(结构性失败)vs 151 周完成 8→197 爬坡中(冻结会饿死流水线)——同样的「低完成率」需要相反的处方。投放规则必须带 cohort 成熟度修正,禁止用全池完成率一刀切。

平台级动作(跨项目,优先于单项目修补)

P0 立即「查重/自检增量化」沉淀为平台 checker 模板 + token 周巡检榜双方一致
为什么:阶梯 6/26 前后对照实证:查重从每次全量塞历史(≈20 万 tok)改增量后降到 573-696 tok/次,checker 成本 -25~30%,无质量代价——纯工程、跨项目可复现(辩论双方一致认定为全报告最硬的一条)。而 103/107 的 v4 变体(33-51k tok/次)跑完了整个生命周期,无任何巡检拦截。
怎么做:研发把增量化修法抽成公共实现;对全部在跑 check_type 建「单次 token×调用量」周巡检榜(dws 数据现成,加一个视图),超阈值自动告警;新项目默认套用。
预期收益:checker 侧全平台月省 5 位数;更重要的是防止 96/103/107 式的整周期陪葬复发。
P0 立即agent 调用成本三杠杆:先修缓存,再 AB 轮次/effort,最后才是内容治理经辩论改写
为什么:辩论推翻了「检索结果拼接」误诊:146 的 GPT-5.5 是 provider 侧 agentic 搜索循环(22 轮前缀重放),「截断检索结果」在我们手里没有旋钮。真正的杠杆按风险排序:①缓存命中率仅 3.9%(前缀重放场景理应大头命中,纯工程零产品风险);②输出侧 ¥9.6 万/30 天、95% 是 reasoning tokens,effort 降档可 AB;③轮次/搜索次数上限可 AB。会话重放型(97/98/116)才适用截断/摘要。
怎么做:146:先修 prompt cache(结构化前缀/确认开启),再跑 effort high→medium 与轮次上限的评测一致性 AB;97/98/116:会话滚动摘要+文件分片+单次 token 预算硬顶。
预期收益:146 缓存修复输入侧月省潜力数万至 ¥10 万(零风险);AB 类杠杆合计上限约 -40%(需产品拍板);97/98/116 截断类 -30~50%。
⚠ 前提/风险:wide-search 的轨迹疑似交付物(落 OSS 供专家评测),动轮次=动产品规格,必须先过评测有效性 AB。
P1 本月返修弃单主线:首打回抢救 + 48h 未动工干预 + ≥2 轮升级人工裁决(禁自动杀题)经辩论改写
为什么:废题质检钱的最大桶是「打回后专家走人」(超时废弃背 ¥30.4 万质检钱,按曾质检题均摊 ¥69.8/题 四类最高;其中实际带结算的约 2,400-3,100 题);而被打回 ≥2 次的题 55.5% 最终完成(122 高达 70%),多质检一轮均价仅 ¥82.4,期望值一边倒支持救题而不是杀题——初稿「2 轮早停终止」被辩论否决,与 6/23「轮数上限杀题=制度化白嫖」的结论也冲突。
怎么做:①首打回一屏说清 must-fix+锁定已通过部分(6/23 P0 复用);②打回后 48h 未动工自动提醒/改派;③≥2 轮未收敛升级人工同步裁决(救活优先,不自动终止);④MAX_REJECTED 系统杀题按已通过部分结算(1,868 题、¥7.2 万质检钱陪葬的补偿机制)。
预期收益:作用于 ¥66.6 万废题质检盘子中「可治理」的部分(在营项目 ≈¥44.7 万),核心收益是把 55% 能活的题真正送到完成。
P1 本月题池投放与完成动力学联动(带 cohort 成熟度修正)经辩论改写
为什么:「全池完成率」对年轻批次天然偏低,151 若在 6 月中被这规则冻结,正在爬坡的流水线(周完成 8→197)会被错杀;而 116 每个成熟 cohort 都死 85%+,是结构性失败。
怎么做:投放决策看「成熟 cohort(投放 ≥4 周)废弃率」而非全池完成率;成熟批次废弃 ≥60% 触发归因评审(题设计/专家匹配/质检标准),归因未清不放量;爬坡项目按质检产能对齐投放节奏。
预期收益:少放一道注定废弃的题=省它的自检+质检+专家无偿劳动;同时避免错杀爬坡项目。
P2 规划未提交题自检次数闸门(配置卫生,非降本项)经辩论改写
为什么:辩论实证(146):提交前自检 4-7 次的题首检通过率 62.6%,16+ 次的只有 47.1%——自检次数是「专家在挣扎」的信号而非质量投资,16+ 次的边际自检大概率纯烧钱;且反方担心的「限自检→打回率上升」在数据里无支撑。但省钱体量要诚实:146 未提交废题 checker 总花费仅 ¥5.7k,全平台 ≈¥12.2 万且多在已停项目。
怎么做:未提交题自检超 N 次(按项目分布 P75 定)后冷却+降档模型;上线带首检通过率/打回率监控;同时作为反刷接口的卫生闸门。
预期收益:卫生规则:防复发(96/103/107 每题 24-30 次的历史)+ 反作弊面收窄,直接省钱有限。
P2 规划数据债三件:dws 回补 / 151 itemId 埋点 / 停态项目 API 白名单双方一致
为什么:看板窗口外 ≈¥39.5 万真实消耗(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万)导致全周期口径低估 34%;151 的 response 归因 7/4 已打通(dwd_model_response_task_log_daily 100% item_id)但 token 字段全 0,金额仍靠消息数×均价估算;停态项目 API 泄漏现状很小(143/131/133 停后日烧≈0),白名单机制是低成本卫生项而非省钱项。
怎么做:ETL 回填 2026-01-20 前窗口与缺行;world_lab_agent_task 补 token 用量埋点(item_id 已有,缺 token 真值);项目停态默认 checker 白名单。
预期收益:数据可信度——151 response 从「不可归因」升级为「估算可归因」,补齐 token 埋点后闭环。

项目目录(按浪费+活跃度排序)

146 千寻计划 search 方向(英文)
头号火源 · 近30天烧掉平台 API 的 52%
浪费 ¥10.9万30天API ¥39.3万总投入 ¥110万
GPT-5.5 agentic 搜索 22 轮前缀重放、缓存命中仅 3.9%;日烧 ¥1.7-2.3 万无收敛;第一刀是修缓存。
151 棱镜计划 四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训)
核心破口:打回→废弃 58.8% · 一个 48h 时钟杀掉 1,455 题
浪费 ¥9.6万30天API ¥13.9万总投入 ¥46.2万
四维=两差两危急;D1/D3 两条流失支路被同一个 48h 静默超时收割;T1-T7 双模型共识定稿。
116 文脉计划 Word/PDF 文档输出
结构性失败 · 真议题是停/续
浪费 ¥8.2万30天API ¥3.5万总投入 ¥23.2万
每个月度 cohort 废弃率 ≥85%、api/完成题 ¥501;投放已趋零——该做的是停/续止损评审,不是修修补补。
97/98 Excel 大师 3/4 期【中文】
单次调用 token 全平台之最(会话重放型)
浪费 ¥5.0万30天API ¥3.7万总投入 ¥30.1万
opus-excel 均值 131 万 tok/次(中位 75 万/P90 320 万);98 日烧创新高,先设硬顶再瘦身输入。
111/109/114 领航计划(法律/医疗/自然科学)
checker 健康 · 打回拉锯但半数能救活
浪费 ¥10.4万30天API ¥2.7万总投入 ¥91.6万
废弃题拖 2.5-3.1 轮质检;但打回≥2 次的题 54-61% 最终完成——救题优先,杀题禁用。
128/139/150 Openclaw 小龙虾养殖计划 一/二/三期
标准错配实锤 · 家族级校准
浪费 ¥8.7万30天API ¥1.3万总投入 ¥33.1万
同一批专家在 139 首过率 3.3%,在其他项目 31.6%(10 倍差)——不是人差,是标准/题型特异性问题。
131/133 阶梯计划 单轮/多轮指令
已治理 · 监控页
浪费 ¥7.6万30天API ¥2.8万总投入 ¥16.2万
查重 6/26 已修(→600 tok);6/28 后日烧≈0;留三件事:gate 瘦身、老题退场、修法沉淀。
107 阿加莎 全领域长文项目
活动骤降 · 续期前先修两件事
浪费 ¥5.4万30天API ¥3,217总投入 ¥48.5万
自检烧钱王:2,363 题未提交废弃×26.3 次自检;v4 查重 51k tok/次未修;续期前必须先治理。
122 进阶规划
降温中 · 全平台最不该杀题的项目
浪费 ¥3.9万30天API ¥1,320总投入 ¥44.7万
打回≥2 次的题 70% 最终完成(≥3 次也有 67%)——这里的多轮是「修得慢」不是「修不好」。
68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示)
全平台效率标杆 · 但红利一半来自题型
浪费 ¥2.4万30天API ¥6,127总投入 ¥160万
api/完成题 ¥4.3 全平台最好;可推广的是三条原则,不是整包配置。
已停项目复盘(81/96/73/24/63/103/108)
≈¥39.5 万看板外消耗的主人 · 教训固化页
浪费 ¥38.1万30天API ¥186总投入 ¥243万
沉没成本不追溯;四条教训进新项目 checklist(第五条「早停杀题」已被辩论否决删除)。

口径与方法

对抗验证记录:本报告经两个独立对抗角色审核后收敛定稿。①数据复核官:对 10 组关键数字用替代 SQL 路线独立重推(质检浪费走 settlement 三表 vs dwd 宽表、response 走 dws 看板 vs 逐消息复算、自检次数换事件词表重数等),10/10 MATCH、0 推翻;要求的 4 处修正(98 均值须并列中位数 75 万/P90 320 万、活库漂移加注、146 双路线加注、窗口外金额拆构成)已全部落实。②反方辩手:对 10 条高风险论点连库举证攻击,2 条建议被否决并已删改(「打回 2 轮早停终止」——实测被打回 ≥2 次的题 55.5% 最终完成、122 达 70%,早停会成建制杀死活题;「151 冻结题池」——151 周完成 8→197 爬坡中,冻结会饿死流水线),1 条机制误诊被重写(146 的 11.4 万 tok/次是 provider 侧 agentic 搜索 22 轮前缀重放而非检索拼接,第一杠杆改为修缓存——实测命中率仅 3.9%),多条措辞弱化(TIMEOUT 真身是返修弃单而非占坑、68 健康有题型红利、「浪费 ¥133 万」拆三层)。2 次攻击失败反而加固原结论:小龙虾「标准错配」拿到实锤(同一批专家在 139 首过率 3.3% vs 其他项目 31.6%,10 倍差);「自检限额会推高打回率」被数据否定(自检越多首过率反而单调走低)。终稿全文回传反方复核:核心裁定「无一遗漏、无一被稀释」,除两处措辞修正(闸门价值标注为上限反事实、沉没占比标注 24 项目 checker 口径,均已落实)外确认 CONSENSUS,无未决分歧。反方最终警语:在这个平台上,「看起来在浪费钱的环节」有一半其实是质量闸门和活题在工作;先问「砍掉它会杀死什么」,再问「能省多少」。

2026-07-04 第二场辩论(151 棱镜专项):按「每方最多 3 轮、中途共识即停」协议,fable 与 sonnet 两个不同模型对抗,4 轮达成双边 CONSENSUS(Fable 立场稿 → Sonnet 攻击出 8 条必改 → Fable 全部修正并补新证 → Sonnet 独立复现 4 个承重数字后签字)。战果:Sonnet 打掉了串行根因链、「修 2-3 轮活得多」(幸存者偏差)、一处假事实与 caching 经验平移;Fable 推翻了本报告 7/2 版「151 response 不可归因」的结论(查错表,Sonnet 复核后加固)。151 页已整页升级为辩论定稿,完整记录在 outputs/20260704-棱镜四维体检/。

146 千寻计划 search 方向(英文) in_progress

¥110万
全周期总成本
API ¥40.0万 + 人力 ¥69.7万
¥39.3万
近30天 API
5,643/3,725/9,725
题目 完成/废弃/总
完成率 58%
¥9.6万
API 烧在废弃题
占已归因 API 的 24%
¥1.3万
质检结算浪费(废题)
占质检结算 56%

诊断

废弃题去向(final_reason)

专家主动放弃
2,359 题(63%)
超时回收废弃
1,147 题(31%)
运营终止
170 题(5%)
撞返修上限系统杀
49 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
wide_search_prompt_cheating53,32112,195¥1.4万¥3,058
wide_search_prompt_quality53,9464,403¥1.3万¥4,339
wide_search_answer_validation24,4356,492¥5,980¥1,602
wide_search_query_step_quality_check14,2936,313¥4,612¥861
wide_search_sota_answer_validation13,5876,632¥3,240¥715
wide_search_industry_domain_china_specific_check52,6293,150¥1,041¥328

被测模型调用(model_response)

模型调用次数题数平均tok/次
qwen-3.7-max-wide-search100,1868,1649,143
GPT-5.5-high-wide-search62,5727,451114,248
Gemini-3.1-pro-online-wide-search8,3973,37618,255

改进建议

P0 立即修 prompt cache(第一优先,零产品风险)经辩论改写
为什么:22 轮前缀重放循环的缓存命中率只有 3.9%——每一轮都在为几乎相同的前缀付全价输入费。这是辩论环节发现的最大安全杠杆,不动任何产品规格。
怎么做:排查会话前缀结构(时间戳/随机量破坏缓存的常见原因)、确认 provider 缓存开启并结构化前缀;上线后用 cached_tokens 占比周监控。
预期收益:输入侧(30 天 ¥22.7 万)月省潜力数万至 ¥10 万,取决于可命中比例。
P0 立即轮次/搜索次数上限 + reasoning effort 降档,双 AB一致·带条件
为什么:输入 token 分布极度均匀=每次都跑满轮次预算;输出 95% 是 reasoning。两个旋钮都可能影响评测结果质量,必须 AB 而非硬切。
怎么做:①max rounds / 搜索次数上限梯度 AB(判定一致率为准);②effort high→medium AB。任一通过即固化。
预期收益:两杠杆合计上限约 -40%(月 ¥10-15 万),以 AB 结果为准。
⚠ 前提/风险:轨迹本身疑似交付物(trajectoryOssKey 落 OSS 供专家评测),动轮次=动产品规格,需产品负责人拍板(辩论共识:此为规格决策,不是运维优化)。
P1 本月查重 checker 增量化(先核实是否已在修)一致·带条件
为什么:单次 tok 两周自行腰斩(21k→6.8k),疑似已有人动手;若无人在修,照抄阶梯 6/26 修法压到约 600 tok。
怎么做:先问研发确认;未修则复用增量化实现,上线后巡检榜验证。
预期收益:按 6/29 run-rate 约 ¥0.6-1.2 万/月,随基数衰减;占项目盘子 3.4%,优先级排缓存与 AB 之后。
P2 规划未提交题自检闸门(卫生规则)经辩论改写
为什么:2,966 题未提交即废弃(平均自检 11.5 次,checker ¥5.7k);辩论实证:自检 4-7 次的题首过率 62.6% vs 16+ 次 47.1%——多自检不买质量,16+ 次的边际调用纯烧钱,且限额不会推高打回率(该假设被数据否定)。
怎么做:未提交题自检超 P75(约 10 次)后冷却+降档;带首过率监控上线。
预期收益:¥5.7k 存量级,定位是配置卫生+反刷闸门,不入降本账。
P2 规划TERMINATED 决策前置(170 题复盘)双方一致
为什么:170 题被运营终止前已产生检查与质检消耗;终止决策越晚,沉没越多。
怎么做:复盘终止原因与时点;把批次终止评审提前到质检消耗发生前。
预期收益:一次性教训固化,防复发。

151 棱镜计划 四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训) in_progress

¥46.2万
全周期总成本
API ¥14.3万 + 人力 ¥31.9万
¥13.9万
近30天 API
534/3,167/4,150
题目 完成/废弃/总
完成率 13%
¥2.6万
API 烧在废弃题
占已归因 API 的 18%
¥7.0万
质检结算浪费(废题)
占质检结算 38%
本页 2026-07-04 整页升级:按「每方最多 3 轮、共识即停」协议跑 fable vs sonnet 双模型辩论,4 轮达成双边 CONSENSUS,取代 7/2 版 151 建议(投放节流/48h 干预两条被吸收进 T1/T2 体系,「response 不可归因」被推翻修正)。数据截至 7/4:3,933 题 / 完成 456 / 废弃 3,127 / live 349;API 累计 ¥126,579,折 ¥278/完成题。完整辩论记录与可复跑 SQL:outputs/20260704-棱镜四维体检/。

诊断

废弃题去向(final_reason)

专家主动放弃
1,658 题(52%)
超时回收废弃
1,432 题(45%)
撞返修上限系统杀
78 题(2%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
pdf_long_vlm_prompt_and_answer_check24,14529,099¥1.5万¥9,133
pdf_long_vlm_CoT_check15,47031,010¥9,376¥5,800
pdf_long_vlm_ai_reply_check7,57726,527¥3,469¥2,022
pdf_long_prompt_and_answer_check4,52428,866¥2,796¥1,672
pdf_long_vlm_rubrics_check4,54828,192¥2,585¥1,195
pdf_long_ai_reply_check5,50724,770¥2,438¥1,366

被测模型调用(model_response)

模型调用次数题数平均tok/次
qwen-3.6-plus-pdflong4,25033586,460
GPT-5.5-high-pdflong3,69333516,916

改进建议

P0 立即T1|48h 到期前 24h 提醒 + 打回理由结构化(禁纯「见批注」)双方一致
为什么:一次建设覆盖 D1+D3 两条支路共 1,455 题当量的静默流失(两批题死亡签名同为 48.3-48.8h,Sonnet 复现);打回后废弃每题沉没 ≈¥130-150,已沉没 ≈¥7.1 万。选「提醒」不选「延长窗口」:容错空间够(maxRework=5、制度杀仅 71 题),缺的是触达。不动质量标准。
怎么做:到期前 24h 站内+推送提醒(首领专家与返修专家共用同一触达);打回理由强制结构化(must-fix 清单),禁纯「见批注」。
预期收益:挽回幅度为假设区间,以 T7 A/B 两周回填真值后再全量。
P0 立即T2|首过率异动书面核查 + 执行口径显性化一致·带条件
为什么:7 月双腰斩已排除新人稀释与 reviewer 换人,但「同批 reviewer 口径收紧」未排除(理由均长 +31%,头部 reviewer approve_rate 有腰斩)——双假设并存;好在两个假设的动作同构。
怎么做:第 1 步=向 review 负责人书面确认 6/22 前后执行口径是否变更(前提未满足不做第 2 步);第 2 步=把执行口径写成文档+样例题(标准收紧→新标准显性化;题池变难→难点写进指引)。
预期收益:每 +5pp 首过率 ≈ 少 100 次打回/月(待前提确认后的估算)。
⚠ 前提/风险:归因表述在书面确认前保持双假设,不得单押「题变难」或「标准收紧」。
P0 立即T7|165 道在飞已打回题定向挽留 A/B(T1 的拍板依据)双方一致
为什么:T1 的所有 ROI 数字、「回来修就能活」的因果、以及「修 2-3 轮完成率更高」辅证的幸存者偏差,全部以此 A/B 拍板——两周出结果,避免拍脑袋全量。
怎么做:165 道在飞已打回题随机分组:实验组上 T1 提醒+结构化理由,对照组现状;两周对比回工率/完成率。
预期收益:验证器本身不省钱,但决定 T1 是否全量与预期收益真值。
P1 本月T3|checker 同 check_type 重复调用治理(-35% 量级)经辩论改写
为什么:真实冗余是同类型反复全量复检(第 3 次及以后占调用 70.7%)——辩论证伪了「七件套齐发」的机制描述后,治理面反而更大(R1 估 -20~30% 属保守下界)。
怎么做:同一 check_type 第 3 次起只复检上次失败项/变更项(失败项必复检);明确不砍 check_type 种类,防按错误机制模型设计导致漏检;完成题终检全量覆盖一次不减。
预期收益:checker 侧(累计 ¥3.5 万,7/4)约 -35% 量级。
P1 本月T4|response 按题归因落地(修正 7/2 版数据债结论)双方一致
为什么:辩论推翻旧结论:dwd_model_response_task_log_daily 在 151 下 36,225 行 100% 带 item_id、100% 可 join(tbl_ai_sessions 路径才是死路)——151 的 response 从「不可归因」升级为「估算可归因」(消息数×模型均价,废弃题 ≈¥5.5 万,消息份额 60.1% 与估算金额份额 59.7% 互洽)。
怎么做:看板接入该表做题级 response 归因(过渡口径);研发补 token 用量埋点拿真值(该表 token 字段全 0)。
预期收益:不直接省钱,是 151 后续所有 API 决策的度量前提。
P2 规划T5|prompt caching / PDF 解析复用评估(待研发确认)一致·带条件
为什么:输入 9.07B tok vs 输出 0.15B,成本几乎全在输入;单消息输入 211-447k tok,同会话 PDF 前缀重复投喂高度可能——方向成立。
怎么做:研发确认 OpenRouter→Gemini 路径的 caching 可行性与计费透传;可行则试点。
预期收益:高潜力但不进预算排期——146 的 OpenAI 缓存经验不可平移(辩论裁定),量级以研发确认为准。
⚠ 前提/风险:151 checker/response 100% 走 OpenRouter+Gemini,缓存机制与 OpenAI 直连不同。
P2 规划T6|领题前难度/工作量预览标签双方一致
为什么:63% 未提交废弃是领题 30 分钟内秒退——「开题即劝退」型错配,发生在领取端,提醒(T1)接不住这批。
怎么做:领题页展示预计工作量/页数/格式要求/样题预览;与 T1 互补(T6 挡领取前错配,T1 接领取后静默)。
预期收益:间接:压 D1 分母,减少每题 4.5 次白烧自检(存量 ¥6.2k 量级)。

116 文脉计划 Word/PDF 文档输出 in_progress

¥23.2万
全周期总成本
API ¥6.7万 + 人力 ¥16.5万
¥3.5万
近30天 API
133/1,253/1,461
题目 完成/废弃/总
完成率 9%
¥4.1万
API 烧在废弃题
占已归因 API 的 62%
¥4.1万
质检结算浪费(废题)
占质检结算 40%

诊断

废弃题去向(final_reason)

超时回收废弃
608 题(49%)
专家主动放弃
606 题(48%)
撞返修上限系统杀
38 题(3%)
运营终止
1 题(0%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
proposal_rno_rf_rubrics_check4,68835,221¥3,492¥2,100
proposal_rno_rubrics_check8,9327,268¥3,446¥2,324
proposal_rednote_office_review_rubrics2,44731,158¥2,175¥1,512
proposal_rednote_office_task_check4,0133,512¥796¥608
instruction_contradiction_check217,011¥3¥3
instruction_prompt_clarity211,048¥2¥2

被测模型调用(model_response)

模型调用次数题数平均tok/次
claude-opus-4.7-aioffice2,506774477,343
GPT-5.4-high-aioffice1,23642687,792

改进建议

P0 立即停/续止损评审(本页真正的决策)经辩论改写
为什么:辩论指出初稿回避了真议题:投放已趋零、每个成熟批次废 85%+、单题 API ¥501——继续烧 ¥3.5 万/月的前提应当是有明确的翻盘假设,否则是惯性燃烧。
怎么做:两周内出停/续评审:①废弃题按打回理由抽样归因(题设计 vs 专家匹配 vs 质检标准,可复用小龙虾的双盲复核法);②若续,须给出「成熟 cohort 废弃率 <60%」的达成路径与期限;③若停,走体面收尾(在制题裁决+专家结算保护),避免 TERMINATED 式突然死亡。
预期收益:止住 ¥3.5 万/月的惯性燃烧,或给出继续烧的正当理由。
P0 立即opus 会话上下文截断/摘要(若续办,立即做)双方一致
为什么:477k tok/次 × opus 单价=单次调用 ¥16+;office 文档逐轮累积全量重放,是会话重放型的教科书案例。
怎么做:会话历史滚动摘要;文档只带当前操作分片;单次 token 预算 15 万并告警(与 98 试点共用方案)。
预期收益:response -50% 量级(月省 ¥1-1.5 万,按当前燃烧)。
P2 规划超时题并入返修弃单主线措辞已弱化
为什么:608 道超时废弃与 606 道主动放弃对半;辩论修正后不再当「占坑」治,并入打回后 48h 干预主线。
怎么做:同 151 方案;若停/续评审判停,此条随之关闭。
预期收益:随主线计。

97/98 Excel 大师 3/4 期【中文】 in_progress

¥30.1万
全周期总成本
API ¥6.0万 + 人力 ¥24.1万
¥3.7万
近30天 API
360/1,010/1,453
题目 完成/废弃/总
完成率 25%
¥3.1万
API 烧在废弃题
占已归因 API 的 52%
¥1.9万
质检结算浪费(废题)
占质检结算 34%

诊断

废弃题去向(final_reason)

专家主动放弃
623 题(62%)
超时回收废弃
353 题(35%)
撞返修上限系统杀
25 题(2%)
运营终止
9 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
excel_match_cn_ref_answer_file_check4,56442,087¥6,067¥2,783
excel_ami_cn_rubric_content_discrimination1,87754,914¥4,147¥2,154
excel_ami_cn_ref_answer_file_check3,23634,052¥3,833¥2,364
excel_ami_cn_rubric_coverage_check1,8547,093¥711¥365
excel_ami_cn_prompt_check5,8525,750¥691¥451
excel_ami_cn_rubric_split7257,817¥451¥303

被测模型调用(model_response)

模型调用次数题数平均tok/次
GPT-5.5-high-excel59029371,772
Claude-opus-4.6-excel513239635,782
GPT-5.5-high-excel48122564,263
Claude-Sonnet-4.648098
GPT-5.4-xhigh4769756,468
GPT-5.4-xhigh2984540,108

改进建议

P0 立即Excel 输入瘦身:diff/相关 sheet/结构摘要替代全量投喂 + 长会话硬顶双方一致
为什么:均值 131 万 tok 一次调用输入侧≈¥45(中位≈¥26,P90 长会话超 ¥100)——长尾会话是硬顶首要目标;Excel 场景天然可用「变更 diff+相关区域」替代整表重放,信息无损。
怎么做:首轮传结构摘要,后续轮只传 diff 与引用区域;单次 token 预算 30 万硬顶+告警(P90 的 1/10);98 爬坡中优先落地,97 跟随。
预期收益:两项目 response 合计月省 ¥1.5-2.5 万(按 7 月燃烧速率)。
P1 本月97 成熟 cohort 归因 + 投放联动经辩论改写
为什么:完成 106/721 且成熟批次表现无改善迹象;按平台修正后的规则用成熟 cohort 废弃率(而非全池完成率)触发归因评审。
怎么做:成熟 cohort 废弃率核算→≥60% 触发归因;未提交题自检闸门(卫生规则)同步开。
预期收益:质检+checker 浪费增速控制。
P2 规划打回后 48h 干预(并入返修弃单主线)经辩论改写
为什么:废弃题平均 2.1-2.2 轮质检,主要流失形态与平台一致(打回后走人)。
怎么做:复用平台主线方案(首打回抢救+48h 干预+≥2 轮人工裁决,禁自动杀题)。
预期收益:随平台主线计。

111/109/114 领航计划(法律/医疗/自然科学) in_progress

¥91.6万
全周期总成本
API ¥4.8万 + 人力 ¥86.7万
¥2.7万
近30天 API
931/1,920/3,155
题目 完成/废弃/总
完成率 30%
¥1.3万
API 烧在废弃题
占已归因 API 的 26%
¥9.1万
质检结算浪费(废题)
占质检结算 20%

诊断

废弃题去向(final_reason)

专家主动放弃
1,049 题(55%)
超时回收废弃
820 题(43%)
撞返修上限系统杀
42 题(2%)
运营终止
10 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
rubrics_v3_model_evaluation19,06210,771¥6,692¥1,975
rubrics_v3_quality_check19,2566,296¥4,975¥1,407
rubrics_v3_model_evaluation13,5368,704¥4,206¥1,294
rubrics_v3_model_evaluation9,40511,502¥3,431¥799
rubrics_v3_answer_alignment8,1119,278¥3,369¥1,001
rubrics_v3_quality_check13,5254,805¥3,033¥907

被测模型调用(model_response)

模型调用次数题数平均tok/次
qwen-3.6-plus-rubricsV399332642,863
Claude-4.6-thinking-rubricsV39643259,091
qwen-3.6-plus-rubricsV389540759,201
Claude-4.6-thinking-rubricsV38864079,445
Claude-4.6-thinking-rubricsV382921219,321
qwen-3.6-plus-rubricsV376421265,965

改进建议

P0 立即≥2 轮升级人工同步裁决(救活优先,禁自动终止)经辩论改写
为什么:54-61% 的 ≥2 轮题能活,说明大部分拉锯是「能修但修得慢」;人工同步裁决(质检+专家+PE 当日对齐 must-fix)打断拉锯,把活题更快送达完成,而不是把它杀掉。原稿「早停终止+挽回 30-50%」经辩论否决删除。
怎么做:≥2 轮未收敛自动进裁决队列(当日 SLA);裁决产出=完整 must-fix 清单或终止(终止按已通过部分结算);配套跟踪裁决后完成率。
预期收益:收益主体是交付加速与专家留存;直接省钱限于真死题少拖 1-2 轮(量级 ¥1-2 万/同期)。
P1 本月质检收敛激励(红色警示版)措辞已弱化
为什么:多轮质检按次全价计酬确实缺收敛激励;但辩论升级了警示:计酬递减的理性对策是第 1 轮直接放行,腐蚀质量闸门——此风险比拉锯本身更贵
怎么做:不动单轮计酬;改做正向激励:按「题目最终完成且轮次 ≤2」发收敛奖金,配质检推翻率抽检对冲放水。任何计酬递减/封顶方案在有推翻率监控前禁止上线。
预期收益:间接;核心是别把闸门改坏。
⚠ 前提/风险:需财务+质检团队联合设计,先小范围试点。
P2 规划首打回抢救包(一屏说清+锁定已过部分)双方一致
为什么:60% 的返修流失发生在第 1 次打回(平台级规律);领航是出题类,流失的是最贵的专家。
怎么做:复用 6/23 返修放弃报告 P0-0 方案。
预期收益:间接:降低废弃率分母。

128/139/150 Openclaw 小龙虾养殖计划 一/二/三期 in_progress

¥33.1万
全周期总成本
API ¥2.1万 + 人力 ¥31.1万
¥1.3万
近30天 API
141/1,490/1,737
题目 完成/废弃/总
完成率 8%
¥3,948
API 烧在废弃题
占已归因 API 的 19%
¥8.3万
质检结算浪费(废题)
占质检结算 44%

诊断

废弃题去向(final_reason)

专家主动放弃
781 题(52%)
超时回收废弃
672 题(45%)
撞返修上限系统杀
24 题(2%)
运营终止
13 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
wle_rubric_model_evaluation6,7558,983¥2,387¥1,082
wle_rubric_quality_check6,9084,991¥2,348¥1,031
wle_file_assoc_check1,5348,200¥777¥314
wle_ref_process_check1,8018,263¥505¥284
wle3_all_ai_check48346,543¥480¥124
wle_prompt_check2,9771,900¥344¥240

被测模型调用(model_response)

模型调用次数题数平均tok/次
Claude-4.6-thinking-rubricsV3215,332
qwen-3.6-plus-rubricsV3216,321

改进建议

P0 立即家族级质检标准校准(归因已由数据完成,直接进入校准)经辩论改写
为什么:初稿建议「先做归因实验」;辩论用同专家跨项目对照直接完成了归因——根因锁定在 139/WLE 家族的标准与题型,不是专家质量。跳过实验,直接校准。
怎么做:①双盲复核 30 道被打回题(第二质检员+PE 仲裁)定位标准分歧点;②rubric 明确化+样题预审;③校准动作打包适用于 WLE/office 家族(114/116 同病);④校准后跟踪首过率,目标 ≥30%(同人群在其他项目的自然水平)。
预期收益:二三期若首过率 3%→30%,同等产出的质检轮次接近腰斩(该家族质检浪费 ≈¥7.8 万存量)。
P0 立即在制题人工裁决(禁自动终止)经辩论改写
为什么:拖 2.7-3.3 轮才废弃=每道死题多付 2 轮质检费;但 128 的 ≥2 轮题 53% 能活——止损靠人工裁决,不靠规则杀题。
怎么做:已打回 ≥2 且未收敛的在制题进裁决队列;终止按已通过部分结算。
预期收益:按当前浪费速率,每期止血千元至万元级。
P1 本月三期放量冻结直到校准达标一致·带条件
为什么:三期 44/501 与前两期同构(成熟 cohort 证据充分,不适用「爬坡期」豁免);继续放量=继续按约 59% 比例烧质检费。
怎么做:三期投放冻结,先完成上面的家族校准;首过率 >30% 再放。
预期收益:避免三期重演二期的 ≈¥4.7 万浪费。
⚠ 前提/风险:与 151 不同:此处冻结合法,因为三期的成熟 cohort 已证明结构性失败(辩论 D2 的 cohort 规则正向应用)。

131/133 阶梯计划 单轮/多轮指令 in_progress

¥16.2万
全周期总成本
API ¥5.8万 + 人力 ¥10.4万
¥2.8万
近30天 API
111/1,595/1,713
题目 完成/废弃/总
完成率 6%
¥4.3万
API 烧在废弃题
占已归因 API 的 74%
¥3.3万
质检结算浪费(废题)
占质检结算 71%

诊断

废弃题去向(final_reason)

专家主动放弃
1,097 题(69%)
超时回收废弃
459 题(29%)
撞返修上限系统杀
22 题(1%)
运营终止
17 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
instruction_prompt_cheating10,65157,948¥9,652¥6,757
instruction_v3sp_mod_prompt_quality12,7038,910¥7,700¥6,346
instruction_prompt_rubric10,97826,718¥5,496¥3,912
instruction_prompt_rubrics_batch3,49731,043¥3,384¥2,629
instruction_prompt_rubrics_batch3,26519,214¥3,193¥2,394
instruction_gate_quality987169,457¥2,799¥1,914

被测模型调用(model_response)

模型调用次数题数平均tok/次
Qwen3.6-Plus10,87254512,277
Qwen3.6-Plus3,62061613,357
GPT-5.21,24739313,094
Gemini-3.1-pro1,2134029,574
claude-opus-4.51,17839222,300
GPT-5.240023513,450

改进建议

P2 规划跨界老题退场 + 停态白名单(卫生项,非省钱项)措辞已弱化
为什么:辩论修正:143/131/133 停后日烧≈0,泄漏现状很小——此条是机制卫生,别当降本成果卖。
怎么做:对 6 道跨界老题设截止;项目收尾态 checker 白名单化(并入平台数据债三件)。
预期收益:机制价值,金额趋零。
P1 本月若重启:gate_quality 先瘦身 + rubric 增量判定双方一致
为什么:gate 单次全量塞题面+rubric+历史;重启后会按老单价燃烧。
怎么做:gate 改增量/分段;rubric 逐条判定已是增量机制(勿重复建设,6/27 已证)。
预期收益:重启场景 checker -30% 量级。
P2 规划把本项目治理打包为案例模板双方一致
为什么:查重增量化 + 归因方法论(口径三层/流错配陷阱)是平台资产,146 正是下一个适用者。
怎么做:沉淀至平台 checker 模板与新项目 checklist(对应平台级 P0 第一条)。
预期收益:跨项目复利。

107 阿加莎 全领域长文项目 in_progress

¥48.5万
全周期总成本
API ¥7.7万 + 人力 ¥40.8万
¥3,217
近30天 API
781/2,757/3,538
题目 完成/废弃/总
完成率 22%
¥3.1万
API 烧在废弃题
占已归因 API 的 40%
¥2.3万
质检结算浪费(废题)
占质检结算 37%

诊断

废弃题去向(final_reason)

专家主动放弃
1,768 题(64%)
超时回收废弃
972 题(35%)
撞返修上限系统杀
17 题(1%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
instruction_v4_prompt_cheating46,51333,488¥2.5万¥1.0万
instruction_v4_answer_uniqueness_check7,29034,781¥8,677¥2,938
instruction_v5_trajectory_check11,77023,764¥6,896¥3,233
instruction_v5_reference_answer_check11,42221,257¥5,389¥2,461
instruction_v4_prompt_ai_nature45,38214,207¥2,966¥1,794
instruction_vltr_prompt_quality45,77120,215¥2,776¥1,860

被测模型调用(model_response)

模型调用次数题数平均tok/次
Qwen3.6-Plus25,5692,09622,596
Hy3-preview-tob11,4311,76722,828
Gemini-3.1-pro5,0171,39220,277
GPT-5.5-xhigh-v53,44492826,224
GPT-5.2-Multimodal1,84351723,539

改进建议

P1 本月续期门槛:v4 查重增量化 + 自检闸门先行双方一致
为什么:项目当前低活动,但题池与配置还在;若按原配置续期/复用到新批次,26 次/题的自检和 51k 的查重会原样回来。
怎么做:把两项治理设为续期前置条件;配置修复后才放新题。
预期收益:续期场景下 checker -40% 量级(自检+查重两刀)。
P2 规划题池设计复盘双方一致
为什么:78% 废弃、2,363 题连提交都没有——「上手就放弃」型(与领航的轮次拉锯型不同);自检 16+ 次首过率反而更低的平台规律在此同样适用。
怎么做:对未提交废弃题抽样看自检失败集中在哪些 rubric;修题干与准入说明。
预期收益:影响续期成败,间接。

122 进阶规划 in_progress

¥44.7万
全周期总成本
API ¥3.2万 + 人力 ¥41.6万
¥1,320
近30天 API
454/1,327/1,791
题目 完成/废弃/总
完成率 25%
¥1.2万
API 烧在废弃题
占已归因 API 的 37%
¥2.7万
质检结算浪费(废题)
占质检结算 24%

诊断

废弃题去向(final_reason)

专家主动放弃
848 题(64%)
超时回收废弃
458 题(35%)
撞返修上限系统杀
21 题(2%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
adv_plan_skeleton_check15,33520,635¥1.6万¥6,129
adv_plan_timeline_check10,9336,690¥4,051¥1,597
adv_plan_verdict14,1922,121¥1,457¥707
hack_signal_render30¥0¥0

被测模型调用(model_response)

模型调用次数题数平均tok/次
Hy3-preview-advplan9,79989011,767
GPT-5.5-xhigh-advplan8,88088810,026
Qwen3.6-Plus6,76365710,894
Kimi-K2-Thinking29117,069
Qwen3-235B-Thinking8117,838

改进建议

P1 本月收敛加速(不减轮次,减每轮损耗):打回意见结构化+全量一次说清经辩论改写
为什么:70% 救活率说明题都能修好,浪费在「挤牙膏式打回」拖长轮次;方向是让每轮更有效,而不是限制轮次。
怎么做:第 2 轮起打回必须列全 must-fix 清单且锁定已通过部分;质检意见模板化。
预期收益:把 3+ 轮题压向 2 轮,该部分质检费 -30%(约 ¥3-5k/同期),且不损失 70% 的救活率。
P2 规划skeleton check 瘦身(仅在项目回暖时做)双方一致
为什么:20.6k tok/次偏肥,但项目降温,改造 ROI 看回暖与否。
怎么做:挂进平台 checker 巡检榜,回暖自动触发。
预期收益:条件性。

68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示) in_progress

¥160万
全周期总成本
API ¥4.1万 + 人力 ¥156万
¥6,127
近30天 API
9,729/6,149/16,196
题目 完成/废弃/总
完成率 60%
¥3,752
API 烧在废弃题
占已归因 API 的 9%
¥2.0万
质检结算浪费(废题)
占质检结算 4%

诊断

废弃题去向(final_reason)

专家主动放弃
3,246 题(53%)
超时回收废弃
2,508 题(41%)
撞返修上限系统杀
246 题(4%)
运营终止
149 题(2%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
cua_traj_audit26,77310,225¥1.8万¥897
cua_prompt_checker61,0682,602¥8,286¥1,298
cua_translate54,1351,771¥6,593¥638
cua_pe_check9,77910,828¥5,145¥467
cua_coverage_check18,3463,239¥3,255¥451

改进建议

P2 规划超时题并入返修弃单主线(提效项,非省钱项)措辞已弱化
为什么:2,508 题超时废弃拖慢流转,但 API/质检消耗极小;辩论后定位从「降本」改为「流转卫生」。
怎么做:打回后 48h 干预复用平台主线;配额类功能先用「专家并发囤题」数据证明囤积存在再立项。
预期收益:流转速度,非直接金额。
P2 规划提炼三条可移植原则进新项目 checklist(不是照抄配置)经辩论改写
为什么:辩论修正:可移植的是原则——①便宜模型分层;②check 在提交/审核节点触发而非作业中循环;③check 输入只带必要上下文。目标值必须按题型分层(CUA 类 ¥4.3/题做得到,出题类做不到)。
怎么做:三原则写入新项目 checklist;按题型家族设差异化目标值。
预期收益:跨项目复利,防止「基线崇拜」误伤质量闸门。

已停项目复盘(81/96/73/24/63/103/108) stopped

¥243万
全周期总成本
API ¥52.6万 + 人力 ¥190万
¥186
近30天 API
6,440/14,709/21,156
题目 完成/废弃/总
完成率 30%
¥24.2万
API 烧在废弃题
占已归因 API 的 46%
¥13.9万
质检结算浪费(废题)
占质检结算 28%

诊断

废弃题去向(final_reason)

专家主动放弃
9,003 题(61%)
超时回收废弃
4,697 题(32%)
运营终止
738 题(5%)
撞返修上限系统杀
271 题(2%)

Checker 结构(按成本 Top)

check_type调用次数平均tok/次成本其中废题
proposal_user_session_prompt_record255,1554,533¥5.1万¥3.0万
instruction_prompt_rubric76,71621,195¥3.3万¥1.3万
instruction_prompt_cheating27,86459,393¥2.8万¥1.1万
instruction_contradiction_check28,30312,904¥2.8万¥1.6万
proposal_user_session_prompt_link121,9973,148¥2.0万¥1.3万
proposal_user_session_prompt_record72,8225,596¥1.9万¥1.4万

被测模型调用(model_response)

模型调用次数题数平均tok/次
Qwen3.5-397B60,8433,35511,319
Qwen3.6-Plus18,5651,88614,297
Gemini-3.1-pro-v515,5511,46413,603
Qwen3.5-397B14,3651,87311,219
Qwen3.6-Plus9,9811,82718,211
Hy3-preview-tob-new6,0861,19817,310

改进建议

P1 本月新项目上线 checklist(四条,防复发)经辩论改写
为什么:同样的配置错误在 146/151/107 身上正在或刚刚重演,说明教训没有制度化。原第五条「打回 2 轮早停」被辩论否决(≥2 轮题 55.5% 完成),已替换为人工裁决升级。
怎么做:①查重/自检默认增量化(全报告最硬教训,阶梯已实证);②未提交题自检限额默认开(卫生规则);③题池按成熟 cohort 废弃率滚动投放(带成熟度修正,防错杀爬坡项目);④打回 ≥2 轮升级人工裁决(救活优先,禁自动杀题)。新项目不满足不放量。
预期收益:防复发:以 96 为参照,单项目可避免 ¥5-10 万级重复浪费。
P2 规划dws 看板回补 2026-01-20 前窗口与缺行双方一致
为什么:≈¥39.5 万真实消耗不在看板(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万),任何「全周期成本」汇报都会低估约 34%。
怎么做:ETL 回填(tbl_rubric_ai_check_log 数据都在);标注回填区间。
预期收益:数据可信度。