亚马逊内部因“Kirorank”排行榜工具引发荒诞闹剧:员工为刷内部积分,通过脚本让AI无限生成重复文本,堆高“token消耗量”以登榜,导致公司算力成本激增,高级副总裁戴夫·特雷韦尔紧急叫停该服务并批评这种“为用AI而用AI”的表演式工作,事件背后暴露了科技公司在AI强考核压力下,考核指标依赖使用量而非实际产出的问题,目前亚马逊正转向评估“有效AI产出”,注重解决真实问题的工作质量。
当一家全球市值接近三万亿美金的技术巨头,发现自己正为一群“刷榜”员工支付天价电费时,那种荒诞感或许只有圈内人能读懂,亚马逊悄无声息地切断了内部一项颇受争议的排名服务“Kirorank”,这款工具的本意是鼓励工程师们多使用AI工具,结果却上演了一出“上有政策,下有对策”的现实版喜剧:员工为了登上榜单前列,不惜动用AI智能体不断进行无效操作,疯狂堆高所谓的“token消耗量”。
据内部人士透露,这一场景的荒诞程度远超外界想象,部分工程师并非出于项目需要而调用AI资源,而是纯粹为了冲击内部积分系统,一位不愿透露姓名的亚马逊开发人员描述道:“有人在后台挂载脚本,让AI无限循环生成重复文本,只是为了让自己的名字出现在周排行榜顶部。”这种行为的直接后果,是公司算力成本犹如火箭般蹿升,让原本鼓励创新的试水之举变成了烧钱竞赛。
亚马逊高级副总裁戴夫·特雷韦尔在本周的一次内部通气会上直言不讳:排行榜的出发点没问题——希望用“游戏化”手段激发大家在工作中借助AI加速产出,但没承想,规则被玩坏,员工开始哗众取宠般刷数据,他在会上一再强调:“大家不要为用AI而用AI,那不是工作,而是表演。”这句话听起来并不算严厉,但配合背后的惨痛成本数据,分量极重。
这场闹剧并非个案,去年硅谷同行Meta也曾曝光类似事件:员工靠不停投喂AI请求提高个人“智能利用率”指标,整个团队一度内卷到一天内灌入数十万次无效交互,浪费巨额服务器资源,如今亚马逊也不得不紧急刹停这辆失控“赛车”,Kirorank目前已被标注为“测试版仪表盘”,亚马逊官方解释称其从未获得正式审批,现已全面下线。
这些现象背后折射出的,其实是科技公司当前普遍焦虑的两个字:压力,随着生成式AI浪潮席卷职场,越来越多公司开始将“是否使用AI”挂钩到员工的绩效评估之中,在亚马逊内部,高层对开发团队的要求近乎严苛:超过80%的部门级开发人员必须每周上手AI工具,否则会在季度考核中被“重点关注”,试想一下,在这种数字高悬的氛围下,还想在职场竞争中不落下风的工程师们,究竟有多少人是真诚拥抱技术革新、又有多少人是仅仅为了达标而作秀?
有人把这轮“AI表演大赛”称作技术公司内部的流量玩法缩影——只不过这里是算力燃烧,员工缺乏真正到位的技能培训,又面临严苛的考核指标,从而催生隐性防御机制:大不了刷流量表忠心,但这种行为损害的不仅是企业资产负债表,更可能扭曲团队文化:真正埋头优化业务的骨干未必有精力参与刷榜,反而是善于钻漏洞的人占据内部徽章体系的上层。
事态激化后,亚马逊着手推翻原有评价体系,内部消息称,下一阶段的考核将不再简单看AI token的用量——这类指标已经彻底形同虚设——而是转向“标准化部署量”或称“有效AI产出比率”,换言之,管理层开始关心程序员将AI真正落到产品中的频率和质量,比如谁通过AI解决了多少真实bug、优化了哪些用户路径、生成过多少可被生产使用的代码片段,戴夫·特雷韦尔的态度很明确:“不要再一门心思计较用掉了多少亿万个token,做得出好东西的人,我们才认。”这算是从指标主义回归到价值驱动的一声疾呼,但在执行层面能否彻底生根,仍有待考验。
业界人士告诉记者,此类故事的发生跟当下AI商业模式本身的不合理也有关联,许多顶级模型公司在收费模式上已经从“月费包月”切换为“精确按消耗计量付费”,亚马逊同时也是大模型创业公司Anthropic的重要合作伙伴和客户,在自家云服务中大量嵌入其Claude系列模型,当所有人都可以无节制、无成本感知地挥霍AI算力时,结果是共享企业账单,这种闭环催生的荒诞内耗,在整个行业未来恐怕还会有多轮。
背景之更深处,是一组硬生生的数字战争,亚马逊2026年的资本支出预估已经逼近2000亿美元,其中绝大部分投向了数据中心和AI基础设施——包括高额自研芯片、顶尖大模型使用授权、超级计算集群部署,公司内部也正在大举裁员以腾出资源空间,几乎每个组织都勒紧腰带过日子,在这样的大环境下,区区一个工作组的个人流量冲榜就能让电表爆转,每个领导的不满情绪都不言而喻,当前公司内部管理层正在协商更科学的人用AI指标,如果来不及推出来,就要先暂停一切基于数量挂钩的评价。
回看整件事情,起初既让人想骂又让人苦笑,它揭示出当前大模型应用推广过程中最大的短板——根本不是技术路线,而是人类考核机制的漏洞与丛林法则心态的突显,一件加速创新的工具,会因为排行榜而变成刷记录大赛的道具;一位高级工程师,会因为肩上背着月度使用指标而抱着一种智能体把语料库自动背诵100遍,真问题渐渐堆积成一个暗语:“AI有没有用大家都懂,但你的KPI懂不懂那才是关键。”