Talents AI 平台项目降本建议书

分析日 2026-07-02 · 数据源:分析库全量 + 看板 dws 双通道对账(checker 复算残差 +0.6%)· 全部结论经数据复核官 + 反方辩手对抗后定稿 · 2026-07-04 更新:151 棱镜页整页升级为四维体检(fable vs sonnet 双模型辩论,4 轮双边共识)

¥1,328万

平台全周期总支出

人力 ¥1,135万 + API ¥193万

¥133万

废题相关支出(≠浪费)

API ¥66.4万 + 质检 ¥66.6万,拆三层见口径

≈¥58万

其中前瞻可治理

扣除必要质量成本与已停项目沉没后

34%

API 钱烧在废题比例

内部基线:68 项目为 9%

20.1%

质检钱付给废题比例

¥66.6万 / ¥332万

¥74.9万

近30天 API

其中 146 一家占 52%

39,646/53,913

题目完成/废弃

全平台 99,257 题

四大浪费引擎(所有项目问题都落在这四类)

引擎一:agent 调用的 token 结构失控

两种形态:①provider 侧 agentic 循环前缀重放——146 的 GPT-5.5 wide-search 每次 22 个内部轮次,输入 p50=11.5 万 tok 且缓存命中仅 3.9%;②会话历史全量重放——98 opus-excel 中位 75 万 tok/次、116 opus-aioffice 47.7 万。两种形态的解法不同(缓存/轮次/effort vs 截断/摘要),开错药方会伤产品。

引擎二:查重/自检 checker 全量塞历史

阶梯 6/26 增量化已实证(约 20 万→600 tok/次,checker 钱 -25~30%,无质量回退)——全报告最硬的一条工程教训。同类肥 checker 已在 103/107(v4 变体 33-51k tok/次)烧掉 ¥1.2-2.5 万/项目,146 的变体还在跑。

引擎三:打回后专家走人(返修弃单)

废弃题吃掉质检结算 ≈¥66.6 万,按 final_reason 拆:超时废弃的题反而背着最多质检钱(¥30.4 万 > 主动放弃 ¥25.2 万)——真身是「被打回→专家不回来→领取过期」,和 6/23 返修放弃诊断是同一头怪。注意:被打回 ≥2 次的题 55.5% 最终完成,「早停杀题」会成建制杀死能活的题,禁用。

引擎四:题池投放与完成动力学脱节

116 每个月度 cohort 废弃率 ≥85%(结构性失败)vs 151 周完成 8→197 爬坡中(冻结会饿死流水线)——同样的「低完成率」需要相反的处方。投放规则必须带 cohort 成熟度修正,禁止用全池完成率一刀切。

平台级动作(跨项目,优先于单项目修补)

P0 立即「查重/自检增量化」沉淀为平台 checker 模板 + token 周巡检榜双方一致

为什么:阶梯 6/26 前后对照实证:查重从每次全量塞历史(≈20 万 tok)改增量后降到 573-696 tok/次,checker 成本 -25~30%,无质量代价——纯工程、跨项目可复现(辩论双方一致认定为全报告最硬的一条)。而 103/107 的 v4 变体(33-51k tok/次)跑完了整个生命周期,无任何巡检拦截。

怎么做:研发把增量化修法抽成公共实现;对全部在跑 check_type 建「单次 token×调用量」周巡检榜(dws 数据现成,加一个视图),超阈值自动告警;新项目默认套用。

预期收益:checker 侧全平台月省 5 位数;更重要的是防止 96/103/107 式的整周期陪葬复发。

P0 立即agent 调用成本三杠杆:先修缓存,再 AB 轮次/effort,最后才是内容治理经辩论改写

为什么:辩论推翻了「检索结果拼接」误诊:146 的 GPT-5.5 是 provider 侧 agentic 搜索循环(22 轮前缀重放),「截断检索结果」在我们手里没有旋钮。真正的杠杆按风险排序:①缓存命中率仅 3.9%(前缀重放场景理应大头命中,纯工程零产品风险);②输出侧 ¥9.6 万/30 天、95% 是 reasoning tokens,effort 降档可 AB;③轮次/搜索次数上限可 AB。会话重放型(97/98/116)才适用截断/摘要。

怎么做:146:先修 prompt cache(结构化前缀/确认开启),再跑 effort high→medium 与轮次上限的评测一致性 AB;97/98/116:会话滚动摘要+文件分片+单次 token 预算硬顶。

预期收益:146 缓存修复输入侧月省潜力数万至 ¥10 万(零风险);AB 类杠杆合计上限约 -40%(需产品拍板);97/98/116 截断类 -30~50%。

⚠ 前提/风险:wide-search 的轨迹疑似交付物(落 OSS 供专家评测),动轮次=动产品规格,必须先过评测有效性 AB。

P1 本月返修弃单主线:首打回抢救 + 48h 未动工干预 + ≥2 轮升级人工裁决(禁自动杀题)经辩论改写

为什么:废题质检钱的最大桶是「打回后专家走人」(超时废弃背 ¥30.4 万质检钱,按曾质检题均摊 ¥69.8/题四类最高;其中实际带结算的约 2,400-3,100 题);而被打回 ≥2 次的题 55.5% 最终完成(122 高达 70%),多质检一轮均价仅 ¥82.4,期望值一边倒支持救题而不是杀题——初稿「2 轮早停终止」被辩论否决,与 6/23「轮数上限杀题=制度化白嫖」的结论也冲突。

怎么做:①首打回一屏说清 must-fix+锁定已通过部分(6/23 P0 复用);②打回后 48h 未动工自动提醒/改派;③≥2 轮未收敛升级人工同步裁决(救活优先,不自动终止);④MAX_REJECTED 系统杀题按已通过部分结算(1,868 题、¥7.2 万质检钱陪葬的补偿机制)。

预期收益:作用于 ¥66.6 万废题质检盘子中「可治理」的部分(在营项目 ≈¥44.7 万),核心收益是把 55% 能活的题真正送到完成。

P1 本月题池投放与完成动力学联动(带 cohort 成熟度修正)经辩论改写

为什么:「全池完成率」对年轻批次天然偏低,151 若在 6 月中被这规则冻结,正在爬坡的流水线(周完成 8→197)会被错杀;而 116 每个成熟 cohort 都死 85%+,是结构性失败。

怎么做:投放决策看「成熟 cohort(投放 ≥4 周)废弃率」而非全池完成率;成熟批次废弃 ≥60% 触发归因评审(题设计/专家匹配/质检标准),归因未清不放量;爬坡项目按质检产能对齐投放节奏。

预期收益:少放一道注定废弃的题=省它的自检+质检+专家无偿劳动;同时避免错杀爬坡项目。

P2 规划未提交题自检次数闸门(配置卫生,非降本项)经辩论改写

为什么:辩论实证(146):提交前自检 4-7 次的题首检通过率 62.6%,16+ 次的只有 47.1%——自检次数是「专家在挣扎」的信号而非质量投资,16+ 次的边际自检大概率纯烧钱;且反方担心的「限自检→打回率上升」在数据里无支撑。但省钱体量要诚实:146 未提交废题 checker 总花费仅 ¥5.7k,全平台 ≈¥12.2 万且多在已停项目。

怎么做:未提交题自检超 N 次(按项目分布 P75 定)后冷却+降档模型;上线带首检通过率/打回率监控;同时作为反刷接口的卫生闸门。

预期收益:卫生规则:防复发(96/103/107 每题 24-30 次的历史)+ 反作弊面收窄,直接省钱有限。

P2 规划数据债三件:dws 回补 / 151 itemId 埋点 / 停态项目 API 白名单双方一致

为什么:看板窗口外 ≈¥39.5 万真实消耗(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万)导致全周期口径低估 34%;151 的 response 归因 7/4 已打通(dwd_model_response_task_log_daily 100% item_id)但 token 字段全 0,金额仍靠消息数×均价估算;停态项目 API 泄漏现状很小(143/131/133 停后日烧≈0),白名单机制是低成本卫生项而非省钱项。

怎么做:ETL 回填 2026-01-20 前窗口与缺行;world_lab_agent_task 补 token 用量埋点(item_id 已有,缺 token 真值);项目停态默认 checker 白名单。

预期收益:数据可信度——151 response 从「不可归因」升级为「估算可归因」,补齐 token 埋点后闭环。

项目目录(按浪费+活跃度排序)

146 千寻计划 search 方向(英文)

头号火源 · 近30天烧掉平台 API 的 52%

浪费 ¥10.9万30天API ¥39.3万总投入 ¥110万

GPT-5.5 agentic 搜索 22 轮前缀重放、缓存命中仅 3.9%;日烧 ¥1.7-2.3 万无收敛;第一刀是修缓存。

151 棱镜计划四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训)

核心破口:打回→废弃 58.8% · 一个 48h 时钟杀掉 1,455 题

浪费 ¥9.6万30天API ¥13.9万总投入 ¥46.2万

四维=两差两危急;D1/D3 两条流失支路被同一个 48h 静默超时收割;T1-T7 双模型共识定稿。

116 文脉计划 Word/PDF 文档输出

结构性失败 · 真议题是停/续

浪费 ¥8.2万30天API ¥3.5万总投入 ¥23.2万

每个月度 cohort 废弃率 ≥85%、api/完成题 ¥501;投放已趋零——该做的是停/续止损评审,不是修修补补。

97/98 Excel 大师 3/4 期【中文】

单次调用 token 全平台之最(会话重放型)

浪费 ¥5.0万30天API ¥3.7万总投入 ¥30.1万

opus-excel 均值 131 万 tok/次(中位 75 万/P90 320 万);98 日烧创新高,先设硬顶再瘦身输入。

111/109/114 领航计划(法律/医疗/自然科学)

checker 健康 · 打回拉锯但半数能救活

浪费 ¥10.4万30天API ¥2.7万总投入 ¥91.6万

废弃题拖 2.5-3.1 轮质检;但打回≥2 次的题 54-61% 最终完成——救题优先,杀题禁用。

128/139/150 Openclaw 小龙虾养殖计划一/二/三期

标准错配实锤 · 家族级校准

浪费 ¥8.7万30天API ¥1.3万总投入 ¥33.1万

同一批专家在 139 首过率 3.3%,在其他项目 31.6%(10 倍差)——不是人差,是标准/题型特异性问题。

131/133 阶梯计划单轮/多轮指令

已治理 · 监控页

浪费 ¥7.6万30天API ¥2.8万总投入 ¥16.2万

查重 6/26 已修(→600 tok);6/28 后日烧≈0;留三件事:gate 瘦身、老题退场、修法沉淀。

107 阿加莎全领域长文项目

活动骤降 · 续期前先修两件事

浪费 ¥5.4万30天API ¥3,217总投入 ¥48.5万

自检烧钱王:2,363 题未提交废弃×26.3 次自检;v4 查重 51k tok/次未修;续期前必须先治理。

122 进阶规划

降温中 · 全平台最不该杀题的项目

浪费 ¥3.9万30天API ¥1,320总投入 ¥44.7万

打回≥2 次的题 70% 最终完成(≥3 次也有 67%)——这里的多轮是「修得慢」不是「修不好」。

68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示)

全平台效率标杆 · 但红利一半来自题型

浪费 ¥2.4万30天API ¥6,127总投入 ¥160万

api/完成题 ¥4.3 全平台最好;可推广的是三条原则,不是整包配置。

已停项目复盘(81/96/73/24/63/103/108)

≈¥39.5 万看板外消耗的主人 · 教训固化页

浪费 ¥38.1万30天API ¥186总投入 ¥243万

沉没成本不追溯;四条教训进新项目 checklist(第五条「早停杀题」已被辩论否决删除)。

口径与方法

API 成本 = 按 ETL 同款计价逐调用复算(dim_model_api_price 官网价、USD×6.8、OpenRouter+5.5%),与看板 dws_project_api_cost_daily 在其覆盖窗口内对账,残差 +0.6%(¥787,159 vs ¥782,106);主力项目逐项目残差 <2%。
「API 烧在废弃题」= tbl_rubric_ai_check_log.project_item_id / tbl_ai_sessions.business_context->>itemId 按题归因后,题目终态 current_status=abandoned 的部分。active 题未来还会废弃,因此是下限。
「质检结算浪费」= dwd_item_quality_cost(金额按 settlement_facts.item_id 归题、biz_type=task_basic、events approved,与成本看板对齐);数据复核官用 settlement 三表独立路线重推差 +0.04% 印证,且确认 100% 浪费题都有真实质检事件、无重复结算。
废题支出 ≈¥133 万必须拆三层(辩论修正):①必要质量成本——首轮判废是质检的本职;未提交废题的 ¥12.2 万 checker 中一部分是闸门价值(上限反事实:若这些题全进人工质检,代价约 3 万题 × ¥133.5——实际拦截比例低于此,部分是弃领/弃作);②已沉没——checker 废题钱的 63%(¥22.4 万,重点 24 项目 checker 口径,分母 ¥35.8 万)与质检废题钱的 33%(¥21.9 万)在已停项目,追不回;③前瞻可治理 ≈¥58 万存量口径(在营项目的超额轮次、超发题池、肥 checker)——管理层沟通请用这一层。
废弃率基线:内部最优的 68 项目废弃率也有 38%,最好的月度 cohort 约 30%——30-40% 废弃是本业务常态,超出部分才是治理对象;行业外部基线不存在。
返修/打回 = tbl_project_items_log action=rejected AND stage IN (review,qa)(含二审,与周会口径一致);废弃去向按 final_reason:LABELER_/TIMEOUT_/MAX_REJECTED_/TERMINATED_ABANDONED。
人力成本 = dws_project_cost_summary(专家+质检+激励+补偿,结算口径);「专家几乎不为废题获得标注结算」经 settlement facts 路线验证(全平台仅约 ¥5k)——废题的专家劳动近乎全部无偿,这是体验问题大于成本问题。
本报告金额均为全周期累计(平台 2025-11 至今),另附近 30 天 API 区分「历史教训」与「正在燃烧」;质检浪费等随活库逐日增长(报告写「≈」值,分析时点 2026-07-02)。
看板窗口外 ≈¥39.5 万构成:各项目 dws 回填起点(全局 2026-01-20)之前 ≈¥25-30 万 + 窗口内 493 个「项目-天」缺行 ≈¥9-11 万;146 的 response 双路线(复算 ¥35.8 万 / dws ¥35.2 万,-1.8%)取复算值。
151 归因口径 7/4 修正:此前「151 response 无法按题归因」系查错表——`dwd_model_response_task_log_daily` 100% 带 item_id 可 join(tbl_ai_sessions 路径才是死路);但该表 token 字段全 0,金额为消息数×模型均价的估算口径(废弃题 ≈¥5.5 万),真值待补 token 埋点。146 有 160 题「已提交未打回却废弃」(¥707 checker)属正常尾部。

对抗验证记录:本报告经两个独立对抗角色审核后收敛定稿。①数据复核官:对 10 组关键数字用替代 SQL 路线独立重推(质检浪费走 settlement 三表 vs dwd 宽表、response 走 dws 看板 vs 逐消息复算、自检次数换事件词表重数等),10/10 MATCH、0 推翻;要求的 4 处修正(98 均值须并列中位数 75 万/P90 320 万、活库漂移加注、146 双路线加注、窗口外金额拆构成)已全部落实。②反方辩手:对 10 条高风险论点连库举证攻击,2 条建议被否决并已删改(「打回 2 轮早停终止」——实测被打回 ≥2 次的题 55.5% 最终完成、122 达 70%,早停会成建制杀死活题;「151 冻结题池」——151 周完成 8→197 爬坡中,冻结会饿死流水线),1 条机制误诊被重写(146 的 11.4 万 tok/次是 provider 侧 agentic 搜索 22 轮前缀重放而非检索拼接,第一杠杆改为修缓存——实测命中率仅 3.9%),多条措辞弱化(TIMEOUT 真身是返修弃单而非占坑、68 健康有题型红利、「浪费 ¥133 万」拆三层)。2 次攻击失败反而加固原结论:小龙虾「标准错配」拿到实锤(同一批专家在 139 首过率 3.3% vs 其他项目 31.6%,10 倍差);「自检限额会推高打回率」被数据否定(自检越多首过率反而单调走低)。终稿全文回传反方复核:核心裁定「无一遗漏、无一被稀释」,除两处措辞修正(闸门价值标注为上限反事实、沉没占比标注 24 项目 checker 口径,均已落实)外确认 CONSENSUS,无未决分歧。反方最终警语:在这个平台上,「看起来在浪费钱的环节」有一半其实是质量闸门和活题在工作;先问「砍掉它会杀死什么」,再问「能省多少」。

2026-07-04 第二场辩论(151 棱镜专项):按「每方最多 3 轮、中途共识即停」协议,fable 与 sonnet 两个不同模型对抗,4 轮达成双边 CONSENSUS(Fable 立场稿 → Sonnet 攻击出 8 条必改 → Fable 全部修正并补新证 → Sonnet 独立复现 4 个承重数字后签字)。战果:Sonnet 打掉了串行根因链、「修 2-3 轮活得多」(幸存者偏差)、一处假事实与 caching 经验平移;Fable 推翻了本报告 7/2 版「151 response 不可归因」的结论(查错表,Sonnet 复核后加固)。151 页已整页升级为辩论定稿,完整记录在 outputs/20260704-棱镜四维体检/。

← 总览

146 千寻计划 search 方向(英文) in_progress

¥110万

全周期总成本

API ¥40.0万 + 人力 ¥69.7万

¥39.3万

近30天 API

5,643/3,725/9,725

题目完成/废弃/总

完成率 58%

¥9.6万

API 烧在废弃题

占已归因 API 的 24%

¥1.3万

质检结算浪费(废题)

占质检结算 56%

诊断

近 30 天 API ¥39.3 万(平台 52%),日烧 ¥17-22k 趋势向上(7/1 = ¥22,778),周调用量 4.7k→19.1k 无自然收敛——当前唯一的六位数月燃烧项目。
机制(辩论修正后):GPT-5.5-high-wide-search 62,572 次 × 输入 p50=11.5 万 tok(p90=12.8 万,极度均匀=固定管线行为)。存库 user prompt 中位仅 680 字符——大 token 不是我们拼的 prompt,而是 provider 侧 agentic 搜索循环(每次约 22 个内部轮次,搜索约 21 次)的前缀重放累计计费。
缓存命中率仅 3.9-4.0%:前缀重放场景理应大头命中 prompt cache——这是全项目最大的零风险漏洞。
输出侧被忽略:30 天输出 ¥9.6 万(占 GPT-5.5 成本 30%),约 95% 是 reasoning tokens(¥204/1M)。
wide_search_prompt_cheating 查重单次 tok 两周内 21k→6.8k 自行下降中(疑似已有人在修),30 天成本 ¥13.7k,占项目 API 仅 3.4%。
健康面:完成率 58% 全平台前列;质检浪费绝对额 ¥1.3 万不大——它的问题是单位成本,不是废弃率。

废弃题去向(final_reason)

专家主动放弃

2,359 题(63%)

超时回收废弃

1,147 题(31%)

运营终止

170 题(5%)

撞返修上限系统杀

49 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
wide_search_prompt_cheating	53,321	12,195	¥1.4万	¥3,058
wide_search_prompt_quality	53,946	4,403	¥1.3万	¥4,339
wide_search_answer_validation	24,435	6,492	¥5,980	¥1,602
wide_search_query_step_quality_check	14,293	6,313	¥4,612	¥861
wide_search_sota_answer_validation	13,587	6,632	¥3,240	¥715
wide_search_industry_domain_china_specific_check	52,629	3,150	¥1,041	¥328

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
qwen-3.7-max-wide-search	100,186	8,164	9,143
GPT-5.5-high-wide-search	62,572	7,451	114,248
Gemini-3.1-pro-online-wide-search	8,397	3,376	18,255

改进建议

P0 立即修 prompt cache(第一优先,零产品风险)经辩论改写

为什么:22 轮前缀重放循环的缓存命中率只有 3.9%——每一轮都在为几乎相同的前缀付全价输入费。这是辩论环节发现的最大安全杠杆,不动任何产品规格。

怎么做:排查会话前缀结构(时间戳/随机量破坏缓存的常见原因)、确认 provider 缓存开启并结构化前缀;上线后用 cached_tokens 占比周监控。

预期收益:输入侧(30 天 ¥22.7 万)月省潜力数万至 ¥10 万,取决于可命中比例。

P0 立即轮次/搜索次数上限 + reasoning effort 降档,双 AB一致·带条件

为什么:输入 token 分布极度均匀=每次都跑满轮次预算;输出 95% 是 reasoning。两个旋钮都可能影响评测结果质量,必须 AB 而非硬切。

怎么做:①max rounds / 搜索次数上限梯度 AB(判定一致率为准);②effort high→medium AB。任一通过即固化。

预期收益:两杠杆合计上限约 -40%(月 ¥10-15 万),以 AB 结果为准。

⚠ 前提/风险:轨迹本身疑似交付物(trajectoryOssKey 落 OSS 供专家评测),动轮次=动产品规格,需产品负责人拍板(辩论共识:此为规格决策,不是运维优化)。

P1 本月查重 checker 增量化(先核实是否已在修)一致·带条件

为什么:单次 tok 两周自行腰斩(21k→6.8k),疑似已有人动手;若无人在修,照抄阶梯 6/26 修法压到约 600 tok。

怎么做:先问研发确认;未修则复用增量化实现,上线后巡检榜验证。

预期收益:按 6/29 run-rate 约 ¥0.6-1.2 万/月,随基数衰减;占项目盘子 3.4%,优先级排缓存与 AB 之后。

P2 规划未提交题自检闸门(卫生规则)经辩论改写

为什么:2,966 题未提交即废弃(平均自检 11.5 次,checker ¥5.7k);辩论实证:自检 4-7 次的题首过率 62.6% vs 16+ 次 47.1%——多自检不买质量,16+ 次的边际调用纯烧钱,且限额不会推高打回率(该假设被数据否定)。

怎么做:未提交题自检超 P75(约 10 次)后冷却+降档;带首过率监控上线。

预期收益:¥5.7k 存量级,定位是配置卫生+反刷闸门,不入降本账。

P2 规划TERMINATED 决策前置(170 题复盘)双方一致

为什么:170 题被运营终止前已产生检查与质检消耗;终止决策越晚,沉没越多。

怎么做:复盘终止原因与时点;把批次终止评审提前到质检消耗发生前。

预期收益:一次性教训固化,防复发。

← 总览

151 棱镜计划四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训) in_progress

¥46.2万

全周期总成本

API ¥14.3万 + 人力 ¥31.9万

¥13.9万

近30天 API

534/3,167/4,150

题目完成/废弃/总

完成率 13%

¥2.6万

API 烧在废弃题

占已归因 API 的 18%

¥7.0万

质检结算浪费(废题)

占质检结算 38%

本页 2026-07-04 整页升级:按「每方最多 3 轮、共识即停」协议跑 fable vs sonnet 双模型辩论,4 轮达成双边 CONSENSUS,取代 7/2 版 151 建议(投放节流/48h 干预两条被吸收进 T1/T2 体系,「response 不可归因」被推翻修正)。数据截至 7/4:3,933 题 / 完成 456 / 废弃 3,127 / live 349;API 累计 ¥126,579,折 ¥278/完成题。完整辩论记录与可复跑 SQL:outputs/20260704-棱镜四维体检/。

诊断

四维评分卡:①提交率 35.0%(理想 ≥55.7%=同批专家在其他项目实测;平台中位 50.7%)【差】 ②首检通过率 13.0%,7 月掉到 7.0%(理想主锚 ≥22.5%=151 自身老手第 6-15 题实测,上限 31.0%=同人 elsewhere 剔 68 后)【差·趋势危急】 ③打回→废弃 58.8%(平台中位 39.6%、同题型 146=31.2%;首轮打回后完成率仅 26% vs 68=81%)【危急·核心破口】 ④checker ¥80/完成题(直接成本仅 ¥21,负担率 3.81× 全场最差;68=1.14×)【危急】。
根因=两个并行杀手(辩论改画:非串行链):因A 质量门槛失配——题难+打回理由黑盒(纯「见批注」);7 月新老专家首过率同步腰斩(rookie 12.1%→4.4% / veteran 28.1%→14.9%),已排除新人稀释与 reviewer 换人,「同批质检口径收紧」未排除(打回理由均长 +31%),双假设并存待书面确认。因B 48h labeling 静默超时时钟(配置 timeout_actions={labeling, abandon, 48h},无任何到期提醒)。
48h 时钟一杆收割两条支路(本轮最大发现,Sonnet 独立复现):D1 未提交超时 1,066 题与 D3 打回后超时 389 题的存活时长签名完全一致(p25/50/75 = 48.3/48.5/48.8h)= 同一时钟,合计 1,455 题当量的静默流失面;maxReworkCount=5 容错够用(制度杀题仅 71),缺的是到期触达,不是窗口长度。
checker 真冗余 = 同 check_type 对同一题反复调用:占全部 61,773 次调用的 83.4%,第 3 次及以后占 70.7%(极值:单题单类型 124 次)——「七件套全家桶齐发」的说法被辩论证伪(多数题不满 7 种、非并发),7 类检查本身不砍。
response 侧:100% 走 OpenRouter→gemini-3.1-pro-preview;输入 9.07B tok vs 输出 0.15B(成本几乎全在输入,PDF 前缀反复投喂);按题归因(估算口径)废弃题烧掉 ≈¥5.5 万 response(≈60%)。
未提交废弃 2,406 题两种死法:63% 领题 <30 分钟秒退(领取端错配)+ 686 题平均自检 14 次「力竭不敢交」;前身 143(已停,6/18 后零烧)同病:单次 86k tok、废弃题拖 2.4 轮质检——教训未被 151 吸收,本次以 T1-T7 制度化。

废弃题去向(final_reason)

专家主动放弃

1,658 题(52%)

超时回收废弃

1,432 题(45%)

撞返修上限系统杀

78 题(2%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
pdf_long_vlm_prompt_and_answer_check	24,145	29,099	¥1.5万	¥9,133
pdf_long_vlm_CoT_check	15,470	31,010	¥9,376	¥5,800
pdf_long_vlm_ai_reply_check	7,577	26,527	¥3,469	¥2,022
pdf_long_prompt_and_answer_check	4,524	28,866	¥2,796	¥1,672
pdf_long_vlm_rubrics_check	4,548	28,192	¥2,585	¥1,195
pdf_long_ai_reply_check	5,507	24,770	¥2,438	¥1,366

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
qwen-3.6-plus-pdflong	4,250	335	86,460
GPT-5.5-high-pdflong	3,693	335	16,916

改进建议

P0 立即T1|48h 到期前 24h 提醒 + 打回理由结构化(禁纯「见批注」)双方一致

为什么:一次建设覆盖 D1+D3 两条支路共 1,455 题当量的静默流失(两批题死亡签名同为 48.3-48.8h,Sonnet 复现);打回后废弃每题沉没 ≈¥130-150,已沉没 ≈¥7.1 万。选「提醒」不选「延长窗口」:容错空间够(maxRework=5、制度杀仅 71 题),缺的是触达。不动质量标准。

怎么做:到期前 24h 站内+推送提醒(首领专家与返修专家共用同一触达);打回理由强制结构化(must-fix 清单),禁纯「见批注」。

预期收益:挽回幅度为假设区间,以 T7 A/B 两周回填真值后再全量。

P0 立即T2|首过率异动书面核查 + 执行口径显性化一致·带条件

为什么:7 月双腰斩已排除新人稀释与 reviewer 换人,但「同批 reviewer 口径收紧」未排除(理由均长 +31%,头部 reviewer approve_rate 有腰斩)——双假设并存;好在两个假设的动作同构。

怎么做:第 1 步=向 review 负责人书面确认 6/22 前后执行口径是否变更(前提未满足不做第 2 步);第 2 步=把执行口径写成文档+样例题(标准收紧→新标准显性化;题池变难→难点写进指引)。

预期收益:每 +5pp 首过率 ≈ 少 100 次打回/月(待前提确认后的估算)。

⚠ 前提/风险:归因表述在书面确认前保持双假设,不得单押「题变难」或「标准收紧」。

P0 立即T7|165 道在飞已打回题定向挽留 A/B(T1 的拍板依据)双方一致

为什么:T1 的所有 ROI 数字、「回来修就能活」的因果、以及「修 2-3 轮完成率更高」辅证的幸存者偏差,全部以此 A/B 拍板——两周出结果,避免拍脑袋全量。

怎么做:165 道在飞已打回题随机分组:实验组上 T1 提醒+结构化理由,对照组现状;两周对比回工率/完成率。

预期收益:验证器本身不省钱,但决定 T1 是否全量与预期收益真值。

P1 本月T3|checker 同 check_type 重复调用治理(-35% 量级)经辩论改写

为什么:真实冗余是同类型反复全量复检(第 3 次及以后占调用 70.7%)——辩论证伪了「七件套齐发」的机制描述后,治理面反而更大(R1 估 -20~30% 属保守下界)。

怎么做:同一 check_type 第 3 次起只复检上次失败项/变更项(失败项必复检);明确不砍 check_type 种类,防按错误机制模型设计导致漏检;完成题终检全量覆盖一次不减。

预期收益:checker 侧(累计 ¥3.5 万,7/4)约 -35% 量级。

P1 本月T4|response 按题归因落地(修正 7/2 版数据债结论)双方一致

为什么:辩论推翻旧结论:dwd_model_response_task_log_daily 在 151 下 36,225 行 100% 带 item_id、100% 可 join(tbl_ai_sessions 路径才是死路)——151 的 response 从「不可归因」升级为「估算可归因」(消息数×模型均价,废弃题 ≈¥5.5 万,消息份额 60.1% 与估算金额份额 59.7% 互洽)。

怎么做:看板接入该表做题级 response 归因(过渡口径);研发补 token 用量埋点拿真值(该表 token 字段全 0)。

预期收益:不直接省钱,是 151 后续所有 API 决策的度量前提。

P2 规划T5|prompt caching / PDF 解析复用评估(待研发确认)一致·带条件

为什么:输入 9.07B tok vs 输出 0.15B,成本几乎全在输入;单消息输入 211-447k tok,同会话 PDF 前缀重复投喂高度可能——方向成立。

怎么做:研发确认 OpenRouter→Gemini 路径的 caching 可行性与计费透传;可行则试点。

预期收益:高潜力但不进预算排期——146 的 OpenAI 缓存经验不可平移(辩论裁定),量级以研发确认为准。

⚠ 前提/风险:151 checker/response 100% 走 OpenRouter+Gemini,缓存机制与 OpenAI 直连不同。

P2 规划T6|领题前难度/工作量预览标签双方一致

为什么:63% 未提交废弃是领题 30 分钟内秒退——「开题即劝退」型错配,发生在领取端,提醒(T1)接不住这批。

怎么做:领题页展示预计工作量/页数/格式要求/样题预览;与 T1 互补(T6 挡领取前错配,T1 接领取后静默)。

预期收益:间接:压 D1 分母,减少每题 4.5 次白烧自检(存量 ¥6.2k 量级)。

← 总览

116 文脉计划 Word/PDF 文档输出 in_progress

¥23.2万

全周期总成本

API ¥6.7万 + 人力 ¥16.5万

¥3.5万

近30天 API

133/1,253/1,461

题目完成/废弃/总

完成率 9%

¥4.1万

API 烧在废弃题

占已归因 API 的 62%

¥4.1万

质检结算浪费(废题)

占质检结算 40%

诊断

每个月度 cohort 的废弃率都 ≥85%(4 月 70/85、5 月 614/689、6 月 564/671)——不是爬坡期问题,每一批都死(与 151 形成鲜明对照)。
API/完成题 ¥501 全平台最差之一;近 30 天仍烧 ¥35.0k;质检浪费 ≈¥41,351(40%)。
7 月仅投放 16 题,题池事实上已冻结——「冻结」是马后炮,真正悬而未决的是项目停/续决策。
claude-opus-4.7-aioffice 2,506 次 × 平均 477k tok:office agent 会话历史全量重放(会话重放型,适用截断/摘要,与 146 的 agentic 型不同)。
116 被打回 ≥2 次的题最终完成率 29%(平台 55.5%)——与 151 并列全平台最低,裁决试点第二候选。

废弃题去向(final_reason)

超时回收废弃

608 题(49%)

专家主动放弃

606 题(48%)

撞返修上限系统杀

38 题(3%)

运营终止

1 题(0%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
proposal_rno_rf_rubrics_check	4,688	35,221	¥3,492	¥2,100
proposal_rno_rubrics_check	8,932	7,268	¥3,446	¥2,324
proposal_rednote_office_review_rubrics	2,447	31,158	¥2,175	¥1,512
proposal_rednote_office_task_check	4,013	3,512	¥796	¥608
instruction_contradiction_check	2	17,011	¥3	¥3
instruction_prompt_clarity	2	11,048	¥2	¥2

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
claude-opus-4.7-aioffice	2,506	774	477,343
GPT-5.4-high-aioffice	1,236	426	87,792

改进建议

P0 立即停/续止损评审(本页真正的决策)经辩论改写

为什么:辩论指出初稿回避了真议题:投放已趋零、每个成熟批次废 85%+、单题 API ¥501——继续烧 ¥3.5 万/月的前提应当是有明确的翻盘假设,否则是惯性燃烧。

怎么做:两周内出停/续评审:①废弃题按打回理由抽样归因(题设计 vs 专家匹配 vs 质检标准,可复用小龙虾的双盲复核法);②若续,须给出「成熟 cohort 废弃率 <60%」的达成路径与期限;③若停,走体面收尾(在制题裁决+专家结算保护),避免 TERMINATED 式突然死亡。

预期收益:止住 ¥3.5 万/月的惯性燃烧,或给出继续烧的正当理由。

P0 立即opus 会话上下文截断/摘要(若续办,立即做)双方一致

为什么:477k tok/次 × opus 单价=单次调用 ¥16+;office 文档逐轮累积全量重放,是会话重放型的教科书案例。

怎么做:会话历史滚动摘要;文档只带当前操作分片;单次 token 预算 15 万并告警(与 98 试点共用方案)。

预期收益:response -50% 量级(月省 ¥1-1.5 万,按当前燃烧)。

P2 规划超时题并入返修弃单主线措辞已弱化

为什么:608 道超时废弃与 606 道主动放弃对半;辩论修正后不再当「占坑」治,并入打回后 48h 干预主线。

怎么做:同 151 方案;若停/续评审判停,此条随之关闭。

预期收益:随主线计。

← 总览

97/98 Excel 大师 3/4 期【中文】 in_progress

¥30.1万

全周期总成本

API ¥6.0万 + 人力 ¥24.1万

¥3.7万

近30天 API

360/1,010/1,453

题目完成/废弃/总

完成率 25%

¥3.1万

API 烧在废弃题

占已归因 API 的 52%

¥1.9万

质检结算浪费(废题)

占质检结算 34%

诊断

98 的 Claude-opus-4.6-excel 平均 131 万 tok/次(280 次;中位数 75 万 / P90 320 万——均值被长尾拉高 1.7 倍,但中位数已是全平台之最)、97 为 63.6 万(513 次)——全量表格+历史重放叠加极端长会话。
98 近 30 天 ¥22.0k 且 7/1 单日 ¥3,451 创新高(爬坡中);97 近 30 天 ¥15.2k。
完成率 97=15%、98=35%;质检浪费 ≈¥11.8k(38%)/ ¥7.1k(29%);废弃题平均质检 2.1/2.2 轮。
97 提交率 0.3 偏低(476 题未提交废弃,平均自检 7.5 次)。

废弃题去向(final_reason)

专家主动放弃

623 题(62%)

超时回收废弃

353 题(35%)

撞返修上限系统杀

25 题(2%)

运营终止

9 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
excel_match_cn_ref_answer_file_check	4,564	42,087	¥6,067	¥2,783
excel_ami_cn_rubric_content_discrimination	1,877	54,914	¥4,147	¥2,154
excel_ami_cn_ref_answer_file_check	3,236	34,052	¥3,833	¥2,364
excel_ami_cn_rubric_coverage_check	1,854	7,093	¥711	¥365
excel_ami_cn_prompt_check	5,852	5,750	¥691	¥451
excel_ami_cn_rubric_split	725	7,817	¥451	¥303

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
GPT-5.5-high-excel	590	293	71,772
Claude-opus-4.6-excel	513	239	635,782
GPT-5.5-high-excel	481	225	64,263
Claude-Sonnet-4.6	480	98	—
GPT-5.4-xhigh	476	97	56,468
GPT-5.4-xhigh	298	45	40,108

改进建议

P0 立即Excel 输入瘦身:diff/相关 sheet/结构摘要替代全量投喂 + 长会话硬顶双方一致

为什么:均值 131 万 tok 一次调用输入侧≈¥45(中位≈¥26,P90 长会话超 ¥100)——长尾会话是硬顶首要目标;Excel 场景天然可用「变更 diff+相关区域」替代整表重放,信息无损。

怎么做:首轮传结构摘要,后续轮只传 diff 与引用区域;单次 token 预算 30 万硬顶+告警(P90 的 1/10);98 爬坡中优先落地,97 跟随。

预期收益:两项目 response 合计月省 ¥1.5-2.5 万(按 7 月燃烧速率)。

P1 本月97 成熟 cohort 归因 + 投放联动经辩论改写

为什么:完成 106/721 且成熟批次表现无改善迹象;按平台修正后的规则用成熟 cohort 废弃率(而非全池完成率)触发归因评审。

怎么做:成熟 cohort 废弃率核算→≥60% 触发归因;未提交题自检闸门(卫生规则)同步开。

预期收益:质检+checker 浪费增速控制。

P2 规划打回后 48h 干预(并入返修弃单主线)经辩论改写

为什么:废弃题平均 2.1-2.2 轮质检,主要流失形态与平台一致(打回后走人)。

怎么做:复用平台主线方案(首打回抢救+48h 干预+≥2 轮人工裁决,禁自动杀题)。

预期收益:随平台主线计。

← 总览

111/109/114 领航计划(法律/医疗/自然科学) in_progress

¥91.6万

全周期总成本

API ¥4.8万 + 人力 ¥86.7万

¥2.7万

近30天 API

931/1,920/3,155

题目完成/废弃/总

完成率 30%

¥1.3万

API 烧在废弃题

占已归因 API 的 26%

¥9.1万

质检结算浪费(废题)

占质检结算 20%

诊断

checker 结构健康(rubrics_v3 家族单次 5-11k tok,成本低),API 不是问题;30 天 API 合计约 ¥2.7 万,项目活跃。
人力盘子大:三项目结算合计 ¥86.7 万;质检浪费 ≈¥43,361(21%)/ ¥33,179(22%)/ ¥14,905(15%),合计 ≈¥9.1 万;废弃题平均被质检 2.8/3.1/2.5 轮,全平台最深的打回拉锯。
但辩论实证否决了「早停杀题」:111 被打回 ≥2 次的 226 题里 122 题(54%)最终完成,109=60%、114=61%——把这些当「可挽回浪费」算是把交付物当浪费;多质检一轮均价仅 ¥82.4,期望值支持继续救。
真正的浪费在两处:打回后专家走人(超时废弃背最多质检钱)+ 收敛太慢(挤牙膏式打回意见)。

废弃题去向(final_reason)

专家主动放弃

1,049 题(55%)

超时回收废弃

820 题(43%)

撞返修上限系统杀

42 题(2%)

运营终止

10 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
rubrics_v3_model_evaluation	19,062	10,771	¥6,692	¥1,975
rubrics_v3_quality_check	19,256	6,296	¥4,975	¥1,407
rubrics_v3_model_evaluation	13,536	8,704	¥4,206	¥1,294
rubrics_v3_model_evaluation	9,405	11,502	¥3,431	¥799
rubrics_v3_answer_alignment	8,111	9,278	¥3,369	¥1,001
rubrics_v3_quality_check	13,525	4,805	¥3,033	¥907

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
qwen-3.6-plus-rubricsV3	993	326	42,863
Claude-4.6-thinking-rubricsV3	964	325	9,091
qwen-3.6-plus-rubricsV3	895	407	59,201
Claude-4.6-thinking-rubricsV3	886	407	9,445
Claude-4.6-thinking-rubricsV3	829	212	19,321
qwen-3.6-plus-rubricsV3	764	212	65,965

改进建议

P0 立即≥2 轮升级人工同步裁决(救活优先,禁自动终止)经辩论改写

为什么:54-61% 的 ≥2 轮题能活,说明大部分拉锯是「能修但修得慢」;人工同步裁决(质检+专家+PE 当日对齐 must-fix)打断拉锯,把活题更快送达完成,而不是把它杀掉。原稿「早停终止+挽回 30-50%」经辩论否决删除。

怎么做:≥2 轮未收敛自动进裁决队列(当日 SLA);裁决产出=完整 must-fix 清单或终止(终止按已通过部分结算);配套跟踪裁决后完成率。

预期收益:收益主体是交付加速与专家留存;直接省钱限于真死题少拖 1-2 轮(量级 ¥1-2 万/同期)。

P1 本月质检收敛激励(红色警示版)措辞已弱化

为什么:多轮质检按次全价计酬确实缺收敛激励;但辩论升级了警示:计酬递减的理性对策是第 1 轮直接放行,腐蚀质量闸门——此风险比拉锯本身更贵。

怎么做:不动单轮计酬;改做正向激励:按「题目最终完成且轮次 ≤2」发收敛奖金,配质检推翻率抽检对冲放水。任何计酬递减/封顶方案在有推翻率监控前禁止上线。

预期收益:间接;核心是别把闸门改坏。

⚠ 前提/风险:需财务+质检团队联合设计,先小范围试点。

P2 规划首打回抢救包(一屏说清+锁定已过部分)双方一致

为什么:60% 的返修流失发生在第 1 次打回(平台级规律);领航是出题类,流失的是最贵的专家。

怎么做:复用 6/23 返修放弃报告 P0-0 方案。

预期收益:间接:降低废弃率分母。

← 总览

128/139/150 Openclaw 小龙虾养殖计划一/二/三期 in_progress

¥33.1万

全周期总成本

API ¥2.1万 + 人力 ¥31.1万

¥1.3万

近30天 API

141/1,490/1,737

题目完成/废弃/总

完成率 8%

¥3,948

API 烧在废弃题

占已归因 API 的 19%

¥8.3万

质检结算浪费(废题)

占质检结算 44%

诊断

完成率:一期 57/685(8.3%)、二期 40/520(7.7%)、三期 44/501(8.8%)——三期无改善;质检浪费占比:二期 ≈59%(¥46,511)全平台最高、一期 35%(¥31,925);废弃题平均质检 2.7/3.3 轮。
辩论实锤(反方攻击失败反而补上证据):在 139 提交过的 143 名专家,在 139 的首次质检通过率 3.3%;同一批人在其他项目 1,284 题首过率 31.6%(68=48.3%、134=58.7%、108=41.7%、146=35.5%)——「专家太差」假设被杀死,139 特异性(标准/题型/rubric)是根因。
连带发现:这批人在 114(2.6%)、116(6.7%)、81(9.3%)、96(10.5%)首过率也极低——低首过率是 WLE/office/instruction 家族的族性,139 只是最极端,校准应打包到家族级。
checker 几乎免费(wle 家族单次 1-2k tok,合计 <¥1k)——纯人力浪费型;二期已是「大幅简化版」仍然如此,简化题目没有解决判定标准问题。
128 被打回 ≥2 次的题 53% 最终完成——止损同样禁用自动杀题。

废弃题去向(final_reason)

专家主动放弃

781 题(52%)

超时回收废弃

672 题(45%)

撞返修上限系统杀

24 题(2%)

运营终止

13 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
wle_rubric_model_evaluation	6,755	8,983	¥2,387	¥1,082
wle_rubric_quality_check	6,908	4,991	¥2,348	¥1,031
wle_file_assoc_check	1,534	8,200	¥777	¥314
wle_ref_process_check	1,801	8,263	¥505	¥284
wle3_all_ai_check	483	46,543	¥480	¥124
wle_prompt_check	2,977	1,900	¥344	¥240

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
Claude-4.6-thinking-rubricsV3	2	1	5,332
qwen-3.6-plus-rubricsV3	2	1	6,321

改进建议

P0 立即家族级质检标准校准(归因已由数据完成,直接进入校准)经辩论改写

为什么:初稿建议「先做归因实验」;辩论用同专家跨项目对照直接完成了归因——根因锁定在 139/WLE 家族的标准与题型,不是专家质量。跳过实验,直接校准。

怎么做:①双盲复核 30 道被打回题(第二质检员+PE 仲裁)定位标准分歧点;②rubric 明确化+样题预审;③校准动作打包适用于 WLE/office 家族(114/116 同病);④校准后跟踪首过率,目标 ≥30%(同人群在其他项目的自然水平)。

预期收益:二三期若首过率 3%→30%,同等产出的质检轮次接近腰斩(该家族质检浪费 ≈¥7.8 万存量)。

P0 立即在制题人工裁决(禁自动终止)经辩论改写

为什么:拖 2.7-3.3 轮才废弃=每道死题多付 2 轮质检费;但 128 的 ≥2 轮题 53% 能活——止损靠人工裁决,不靠规则杀题。

怎么做:已打回 ≥2 且未收敛的在制题进裁决队列;终止按已通过部分结算。

预期收益:按当前浪费速率,每期止血千元至万元级。

P1 本月三期放量冻结直到校准达标一致·带条件

为什么:三期 44/501 与前两期同构(成熟 cohort 证据充分,不适用「爬坡期」豁免);继续放量=继续按约 59% 比例烧质检费。

怎么做:三期投放冻结,先完成上面的家族校准;首过率 >30% 再放。

预期收益:避免三期重演二期的 ≈¥4.7 万浪费。

⚠ 前提/风险:与 151 不同:此处冻结合法,因为三期的成熟 cohort 已证明结构性失败(辩论 D2 的 cohort 规则正向应用)。

← 总览

131/133 阶梯计划单轮/多轮指令 in_progress

¥16.2万

全周期总成本

API ¥5.8万 + 人力 ¥10.4万

¥2.8万

近30天 API

111/1,595/1,713

题目完成/废弃/总

完成率 6%

¥4.3万

API 烧在废弃题

占已归因 API 的 74%

¥3.3万

质检结算浪费(废题)

占质检结算 71%

诊断

历史之最:api/完成题 ¥625/¥401;API 的 75%/73% 烧在废题;质检浪费占比 69%/72%。根因已归因(6/27):题复杂(17-19 条 rubric)×废弃率 92-94%,非刷量非死亡螺旋。
查重增量化 6/26 生效:6/29 当周单次 573/696 tok(修前 5-8 万);两项目 6/8 后无新题,6/28 后日烧≈0。
遗留:①gate_quality 单次仍最重(6/27 曾见单次百万 tok 级);②6/26 后所有调用来自 6 道跨界老题;③修法尚未产品化沉淀。

废弃题去向(final_reason)

专家主动放弃

1,097 题(69%)

超时回收废弃

459 题(29%)

撞返修上限系统杀

22 题(1%)

运营终止

17 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
instruction_prompt_cheating	10,651	57,948	¥9,652	¥6,757
instruction_v3sp_mod_prompt_quality	12,703	8,910	¥7,700	¥6,346
instruction_prompt_rubric	10,978	26,718	¥5,496	¥3,912
instruction_prompt_rubrics_batch	3,497	31,043	¥3,384	¥2,629
instruction_prompt_rubrics_batch	3,265	19,214	¥3,193	¥2,394
instruction_gate_quality	987	169,457	¥2,799	¥1,914

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
Qwen3.6-Plus	10,872	545	12,277
Qwen3.6-Plus	3,620	616	13,357
GPT-5.2	1,247	393	13,094
Gemini-3.1-pro	1,213	402	9,574
claude-opus-4.5	1,178	392	22,300
GPT-5.2	400	235	13,450

改进建议

P2 规划跨界老题退场 + 停态白名单(卫生项,非省钱项)措辞已弱化

为什么:辩论修正:143/131/133 停后日烧≈0,泄漏现状很小——此条是机制卫生,别当降本成果卖。

怎么做:对 6 道跨界老题设截止;项目收尾态 checker 白名单化(并入平台数据债三件)。

预期收益:机制价值,金额趋零。

P1 本月若重启:gate_quality 先瘦身 + rubric 增量判定双方一致

为什么:gate 单次全量塞题面+rubric+历史;重启后会按老单价燃烧。

怎么做:gate 改增量/分段;rubric 逐条判定已是增量机制(勿重复建设,6/27 已证)。

预期收益:重启场景 checker -30% 量级。

P2 规划把本项目治理打包为案例模板双方一致

为什么:查重增量化 + 归因方法论(口径三层/流错配陷阱)是平台资产,146 正是下一个适用者。

怎么做:沉淀至平台 checker 模板与新项目 checklist(对应平台级 P0 第一条)。

预期收益:跨项目复利。

← 总览

107 阿加莎全领域长文项目 in_progress

¥48.5万

全周期总成本

API ¥7.7万 + 人力 ¥40.8万

¥3,217

近30天 API

781/2,757/3,538

题目完成/废弃/总

完成率 22%

¥3.1万

API 烧在废弃题

占已归因 API 的 40%

¥2.3万

质检结算浪费(废题)

占质检结算 37%

诊断

废弃 2,757/3,538(78%);其中 2,363 题从未提交,平均每题自检 26.3 次(¥11.1k checker 烧在这批题上)。
instruction_v4_prompt_cheating 单次 51k tok 未套用增量化修法,6/8 周后调用停止(项目活动骤降,30 天仅 ¥3.2k)。
质检浪费 ≈¥22,522(37%);全周期 API ¥76.7k;146 之外查重欠账最大的在营项目。

废弃题去向(final_reason)

专家主动放弃

1,768 题(64%)

超时回收废弃

972 题(35%)

撞返修上限系统杀

17 题(1%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
instruction_v4_prompt_cheating	46,513	33,488	¥2.5万	¥1.0万
instruction_v4_answer_uniqueness_check	7,290	34,781	¥8,677	¥2,938
instruction_v5_trajectory_check	11,770	23,764	¥6,896	¥3,233
instruction_v5_reference_answer_check	11,422	21,257	¥5,389	¥2,461
instruction_v4_prompt_ai_nature	45,382	14,207	¥2,966	¥1,794
instruction_vltr_prompt_quality	45,771	20,215	¥2,776	¥1,860

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
Qwen3.6-Plus	25,569	2,096	22,596
Hy3-preview-tob	11,431	1,767	22,828
Gemini-3.1-pro	5,017	1,392	20,277
GPT-5.5-xhigh-v5	3,444	928	26,224
GPT-5.2-Multimodal	1,843	517	23,539

改进建议

P1 本月续期门槛:v4 查重增量化 + 自检闸门先行双方一致

为什么:项目当前低活动,但题池与配置还在;若按原配置续期/复用到新批次,26 次/题的自检和 51k 的查重会原样回来。

怎么做:把两项治理设为续期前置条件;配置修复后才放新题。

预期收益:续期场景下 checker -40% 量级(自检+查重两刀)。

P2 规划题池设计复盘双方一致

为什么:78% 废弃、2,363 题连提交都没有——「上手就放弃」型(与领航的轮次拉锯型不同);自检 16+ 次首过率反而更低的平台规律在此同样适用。

怎么做:对未提交废弃题抽样看自检失败集中在哪些 rubric;修题干与准入说明。

预期收益:影响续期成败,间接。

← 总览

122 进阶规划 in_progress

¥44.7万

全周期总成本

API ¥3.2万 + 人力 ¥41.6万

¥1,320

近30天 API

454/1,327/1,791

题目完成/废弃/总

完成率 25%

¥1.2万

API 烧在废弃题

占已归因 API 的 37%

¥2.7万

质检结算浪费(废题)

占质检结算 24%

诊断

近 30 天 API 仅 ¥1.3k(降温中);全周期 API ¥31.8k;质检浪费 ≈¥27,331(24%);废弃题平均质检 2.0 轮。
完成题中 114/454(25%)打回 ≥3 轮才过;但被打回 ≥2 次的题 70% 最终完成、≥3 次也有 67%——全平台最高的救活率,任何早停/杀题规则在本项目都是净损失(辩论 D4 的反例项目)。
adv_plan_skeleton_check 单次 20.6k tok 偏肥(¥15.9k),但随项目降温改造 ROI 有限。

废弃题去向(final_reason)

专家主动放弃

848 题(64%)

超时回收废弃

458 题(35%)

撞返修上限系统杀

21 题(2%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
adv_plan_skeleton_check	15,335	20,635	¥1.6万	¥6,129
adv_plan_timeline_check	10,933	6,690	¥4,051	¥1,597
adv_plan_verdict	14,192	2,121	¥1,457	¥707
hack_signal_render	3	0	¥0	¥0

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
Hy3-preview-advplan	9,799	890	11,767
GPT-5.5-xhigh-advplan	8,880	888	10,026
Qwen3.6-Plus	6,763	657	10,894
Kimi-K2-Thinking2	9	1	17,069
Qwen3-235B-Thinking	8	1	17,838

改进建议

P1 本月收敛加速(不减轮次,减每轮损耗):打回意见结构化+全量一次说清经辩论改写

为什么:70% 救活率说明题都能修好,浪费在「挤牙膏式打回」拖长轮次;方向是让每轮更有效,而不是限制轮次。

怎么做:第 2 轮起打回必须列全 must-fix 清单且锁定已通过部分;质检意见模板化。

预期收益:把 3+ 轮题压向 2 轮,该部分质检费 -30%(约 ¥3-5k/同期),且不损失 70% 的救活率。

P2 规划skeleton check 瘦身(仅在项目回暖时做)双方一致

为什么:20.6k tok/次偏肥,但项目降温,改造 ROI 看回暖与否。

怎么做:挂进平台 checker 巡检榜,回暖自动触发。

预期收益:条件性。

← 总览

68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示) in_progress

¥160万

全周期总成本

API ¥4.1万 + 人力 ¥156万

¥6,127

近30天 API

9,729/6,149/16,196

题目完成/废弃/总

完成率 60%

¥3,752

API 烧在废弃题

占已归因 API 的 9%

¥2.0万

质检结算浪费(废题)

占质检结算 4%

诊断

全平台最大人力盘子(¥155.7 万)但效率最好:api/完成题 ¥4.3,API 废题占比 9%,质检浪费仅 4.1%;完成 9,729/16,196(60%)。
辩论修正:『未提交题自检 0.9 次』是选择性统计——全项目 checker 调用 17 万次 / 1.6 万领取题 ≈ 10.6 次/题,并不低;便宜靠的是 check 家族(cua_traj_audit 等 1.7-10.8k tok、便宜模型)+ 提交/审核节点触发而非作业中无限自检循环 + CUA 产物(操作轨迹)天然小。
F7 的「30 倍自检差异」是跨 check 家族对比,配置与题型混杂——68 的健康一半是题型红利,出题类项目照抄配置会拆掉质量闸门。
TIMEOUT_ABANDONED 2,508 题(废弃的 41%),但这些题 checker 消耗极小(合计 ≈¥240),多次领取占比仅 18%——按辩论修正,是流转/体验问题,不是钱的问题。

废弃题去向(final_reason)

专家主动放弃

3,246 题(53%)

超时回收废弃

2,508 题(41%)

撞返修上限系统杀

246 题(4%)

运营终止

149 题(2%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
cua_traj_audit	26,773	10,225	¥1.8万	¥897
cua_prompt_checker	61,068	2,602	¥8,286	¥1,298
cua_translate	54,135	1,771	¥6,593	¥638
cua_pe_check	9,779	10,828	¥5,145	¥467
cua_coverage_check	18,346	3,239	¥3,255	¥451

改进建议

P2 规划超时题并入返修弃单主线(提效项,非省钱项)措辞已弱化

为什么:2,508 题超时废弃拖慢流转,但 API/质检消耗极小;辩论后定位从「降本」改为「流转卫生」。

怎么做:打回后 48h 干预复用平台主线;配额类功能先用「专家并发囤题」数据证明囤积存在再立项。

预期收益:流转速度,非直接金额。

P2 规划提炼三条可移植原则进新项目 checklist(不是照抄配置)经辩论改写

为什么:辩论修正:可移植的是原则——①便宜模型分层;②check 在提交/审核节点触发而非作业中循环;③check 输入只带必要上下文。目标值必须按题型分层(CUA 类 ¥4.3/题做得到,出题类做不到)。

怎么做:三原则写入新项目 checklist;按题型家族设差异化目标值。

预期收益:跨项目复利,防止「基线崇拜」误伤质量闸门。

← 总览

已停项目复盘(81/96/73/24/63/103/108) stopped

¥243万

全周期总成本

API ¥52.6万 + 人力 ¥190万

¥186

近30天 API

6,440/14,709/21,156

题目完成/废弃/总

完成率 30%

¥24.2万

API 烧在废弃题

占已归因 API 的 46%

¥13.9万

质检结算浪费(废题)

占质检结算 28%

诊断

这批已停项目贡献了看板窗口外 ≈¥39.5 万 checker 消耗的大头,也持有历史浪费之最:81 质检浪费 ≈¥70,678(绝对额历史第一)、96 每未提交题自检 24.1 次、103/108 达 30/29 次。
沉没占比(辩论 D8,重点 24 项目 checker 口径):checker 废题钱的 63%(¥22.4 万/¥35.8 万)、质检废题钱的 33%(¥21.9 万)在已停项目——本页只固化教训,不追溯翻账。
96 指令遵循单轮 2 期:1,837 题未提交废弃 × 24 次自检 ≈ ¥2.4 万纯自检烧钱;查重 59k tok/次跑完整个生命周期;24 期有 719 题 TERMINATED(运营批量终止)。
共性:废弃率 70-80%、查重/自检肥、题池超发——当时无任何巡检告警拦截;首过率族性差(81=9.3%、96=10.5%)与小龙虾同源。

废弃题去向(final_reason)

专家主动放弃

9,003 题(61%)

超时回收废弃

4,697 题(32%)

运营终止

738 题(5%)

撞返修上限系统杀

271 题(2%)

Checker 结构(按成本 Top)

check_type	调用次数	平均tok/次	成本	其中废题
proposal_user_session_prompt_record	255,155	4,533	¥5.1万	¥3.0万
instruction_prompt_rubric	76,716	21,195	¥3.3万	¥1.3万
instruction_prompt_cheating	27,864	59,393	¥2.8万	¥1.1万
instruction_contradiction_check	28,303	12,904	¥2.8万	¥1.6万
proposal_user_session_prompt_link	121,997	3,148	¥2.0万	¥1.3万
proposal_user_session_prompt_record	72,822	5,596	¥1.9万	¥1.4万

被测模型调用(model_response)

模型	调用次数	题数	平均tok/次
Qwen3.5-397B	60,843	3,355	11,319
Qwen3.6-Plus	18,565	1,886	14,297
Gemini-3.1-pro-v5	15,551	1,464	13,603
Qwen3.5-397B	14,365	1,873	11,219
Qwen3.6-Plus	9,981	1,827	18,211
Hy3-preview-tob-new	6,086	1,198	17,310

改进建议

P1 本月新项目上线 checklist(四条,防复发)经辩论改写

为什么:同样的配置错误在 146/151/107 身上正在或刚刚重演,说明教训没有制度化。原第五条「打回 2 轮早停」被辩论否决(≥2 轮题 55.5% 完成),已替换为人工裁决升级。

怎么做:①查重/自检默认增量化(全报告最硬教训,阶梯已实证);②未提交题自检限额默认开(卫生规则);③题池按成熟 cohort 废弃率滚动投放(带成熟度修正,防错杀爬坡项目);④打回 ≥2 轮升级人工裁决(救活优先,禁自动杀题)。新项目不满足不放量。

预期收益:防复发:以 96 为参照,单项目可避免 ¥5-10 万级重复浪费。

P2 规划dws 看板回补 2026-01-20 前窗口与缺行双方一致

为什么:≈¥39.5 万真实消耗不在看板(窗口前 ≈¥25-30 万 + 493 个项目-天缺行 ≈¥9-11 万),任何「全周期成本」汇报都会低估约 34%。

怎么做:ETL 回填(tbl_rubric_ai_check_log 数据都在);标注回填区间。

预期收益:数据可信度。

Talents AI 平台项目降本建议书

四大浪费引擎(所有项目问题都落在这四类)

平台级动作(跨项目,优先于单项目修补)

项目目录(按浪费+活跃度排序)

口径与方法

146 千寻计划 search 方向(英文) in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

151 棱镜计划 四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训) in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

116 文脉计划 Word/PDF 文档输出 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

97/98 Excel 大师 3/4 期【中文】 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

111/109/114 领航计划(法律/医疗/自然科学) in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

128/139/150 Openclaw 小龙虾养殖计划 一/二/三期 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

131/133 阶梯计划 单轮/多轮指令 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

107 阿加莎 全领域长文项目 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

122 进阶规划 in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

68 AI Agent 训练师(CUA 实操)— 参照点(含题型红利警示) in_progress

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

改进建议

已停项目复盘(81/96/73/24/63/103/108) stopped

诊断

废弃题去向(final_reason)

Checker 结构(按成本 Top)

被测模型调用(model_response)

改进建议

151 棱镜计划四维体检(7/4 fable vs sonnet 辩论定稿;含前身 143 教训) in_progress

128/139/150 Openclaw 小龙虾养殖计划一/二/三期 in_progress

131/133 阶梯计划单轮/多轮指令 in_progress

107 阿加莎全领域长文项目 in_progress