🚨 79.81% vs 24.31%
这不是股票涨跌,不是考试分数,而是同一个AI编程助手,在处理Python和Erlang代码时的成功率差距。
相差3倍。
这意味着什么?
- 用Python写代码:AI助手1-2轮就能生成可用代码,喝杯咖啡的功夫搞定
- 用Erlang写代码:AI折腾5-10轮还在报编译错误,加班到深夜还没头绪
同样的开发者,同样的需求,唯一的区别只是编程语言的"流行度"。
这不是玩笑,而是来自ICLR2026一篇重磅论文的真实数据。香港科技大学、香港大学、香港理工大学和香港城市大学的研究团队,通过13.5万+代码样本的大规模实验,首次系统性揭示了一个令人不安的真相:
AI编程助手正在加剧软件生态的"马太效应"——让强者更强,让弱者更弱。
热门技术在AI加持下如虎添翼,冷门技术的开发者却被迫支付高昂的"AI生产力税"。更可怕的是,这种差距还在自我强化、不断扩大。
当AI成为开发者的标配工具,谁来为技术多样性买单?
💥 主要发现:触目惊心的数字
研究团队通过13.5万+代码样本的大规模实验,得出了以下核心结论:
1️⃣ 生产力鸿沟:Python vs Erlang的天壤之别
- Python(热门语言)的AI代码生成成功率高达 79.81%
- Erlang
- 相差3倍以上! 这意味着使用冷门语言的开发者需要花费数倍时间与AI"斗智斗勇"
2️⃣ 质量差距:不只是慢,根本不会写
- 热门语言的错误多为逻辑错误(代码能跑,但结果不对)
- 冷门语言的错误多为编译错误(AI连基本语法都搞不定)
- 这不是能力问题,是AI根本没学过!
3️⃣ 难度放大器:越难差距越大
- 简单问题:热门语言比冷门语言高出 45-82个百分点
- 问题越复杂,冷门技术越吃亏
4️⃣ 生产力税:冷门框架需要5-10轮迭代
- 主流框架(如React+Express):1-2轮即可生成可用代码
- 时间就是金钱,这就是"AI生产力税"
🔬 研究方法:如何发现这个隐秘偏见?
实验一:算法题大考验
- 数据规模:3,011道LeetCode题目 × 9种语言 × 5个顶尖AI模型
- 测试语言:Python, C++, Java, Go, Rust, Erlang, Racket等
- 评估维度
实验二:真实全栈开发场景
- 测试场景
- 技术栈对比:主流组合(Vue+Spring Boot)vs 冷门组合
- 迭代协议:“Vibe Coding”——仅提供错误信息,测试AI独立解决问题能力
核心发现:
语言流行度是AI表现的最强预测因子——甚至比模型的推理能力更重要!
⚠️ 为什么这很危险?马太效应的自我强化循环
研究揭示了一个令人不安的恶性循环:
然而:冷门技术被边缘化 → 数据更少 → AI表现更差 → 开发者放弃
后果:
- 💰 隐性成本:使用非主流技术的团队承担额外"研发税"
🔮 写在最后:我们正在见证历史的转折点
这篇论文为我们敲响了警钟:AI工具不是中立的,它们携带着训练数据的偏见。 当我们享受AI编程助手带来的效率提升时,也要警惕它可能在悄悄重塑整个软件生态——让强者更强,让弱者更弱。
“凡有的,还要加给他,叫他有余;没有的,连他所有的也要夺过来。” ——这就是AI时代的软件"马太效应"。
十年前,我们讨论的是"该不该学编程";五年前,我们争论的是"选Python还是Java";而今天,这篇ICLR 2026论文告诉我们:AI已经在替我们做选择了。
@inproceedings{ICLR-Gu-Liang-Li-Ma2026, title={The Matthew Effect of {AI} Programming Assistants: A Hidden Bias in Software Evolution}, author={Fei Gu and Zi Liang and Hongzong LI and Jiahao MA}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=QjkJdcbSDe}}