近年来,生成式人工智能(genAI)的崛起引发了广泛关注,其被寄予厚望能够显著提升生产力并彻底改变工作方式。然而,关于genAI的实际采用情况、全球扩散模式及其对生产力的真实影响,仍存在大量不确定性。2026年发表于Science杂志的研究论文Who is using AI to code? Global diffusion and impact of generative AI通过分析超过30万个GitHub代码提交,首次在全球范围内量化了genAI在编程领域的应用。本研究由Simone Daniotti等学者合作完成,通过机器学习分类器识别AI生成的Python代码,揭示了genAI在不同国家、不同经验水平开发者中的扩散差异及其对生产力影响的异质性。本文将深入解读该研究的背景、方法、结果与讨论,以严谨的科学视角呈现核心发现。研究背景:生成式AI的潜力与不确定性
生成式AI(如ChatGPT、Claude等工具)被视为一种通用目的技术,能够解决多样化问题,并直接补充人类思维。实验和准实验证据表明,genAI能够提高个体工人在多种任务中的生产力和输出。然而,关于AI对GDP和就业的宏观影响估计却相对保守,表明我们对AI整体影响的理解仍不清晰。更关键的是,采用率存在显著异质性,这可能引发经济分化。例如,自我报告的genAI使用率在人口统计特征、资历和工作经验中存在明显差异。历史上,蒸汽机、发电机和计算机等通用目的技术的宏观生产力效应往往需要较长时间才能显现,这进一步加剧了当前对genAI影响的不确定性。为克服现有调查和实验方法的局限(如自我报告偏差、短期观测),本研究提出一种新方法:直接通过机器学习测量个体genAI使用强度,而非依赖自我报告。研究聚焦于软件开发这一genAI主要应用领域,该领域具有高价值且对genAI暴露度高的特点。通过分析GitHub上的开源Python项目,研究者追踪了genAI的扩散动态及其对开发者输出的影响。检测AI生成代码的方法创新
研究团队设计了一种机器学习分类器,用于识别GitHub提交中由AI生成的Python函数。该方法的核心在于构建一个高质量的标注数据集,并训练一个高效的分类模型。具体而言,研究首先构建了一个真实数据集(Fig. 1A),收集2018年及之后人类编写的Python函数(确保其早于高效genAI模型的发布)。为生成对应的AI编写函数,研究采用两步法:首先,使用一个大型语言模型(LLM)将人类编写的函数描述为英语文本,指定输入输出类型;其次,将描述输入另一个LLM,生成基于该描述的Python函数。这种使用不同LLM的方法避免了人为创造强相关性,同时确保AI生成函数在功能上与人类编写函数相近。随后,研究利用GraphCodeBert(一个预训练代码语言模型)将每个函数转换为高维向量(基于标记、注释和变量数据流图)。这些向量被输入分类器,以判断函数是由人类还是genAI生成(Fig. 1B和1C)。该分类器在样本外数据上表现优异,ROC AUC得分达0.96,平均真阳性率为0.95(Fig. 1D)。分类器还被验证能够识别数据收集结束后发布的新LLM生成代码,尽管准确度略有下降。研究结果:全球扩散异质性及生产力影响
AI采用率的时空差异
研究应用该分类器分析了美国开发者及其他五个主要国家(中国、法国、德国、印度、俄罗斯)的代码提交。Fig. 2A显示了美国开发者的AI采用轨迹:在Copilot、ChatGPT发布及第二代LLM推出等关键事件后,采用率急剧上升。截至2024年底,美国约29%的Python函数由AI生成。Fig. 2B比较了各国采用情况:美国早期领先并维持优势,德国和法国紧随其后(23-24%),印度快速追赶至20%,而中国和俄罗斯采用率较低。这种差异可能源于LLM供应(如OpenAI和Anthropic在某些国家受限)和需求差异(如审查限制本地使用,尽管许多用户使用VPN)。开发者层面的异质性
在美国开发者中,AI采用率随GitHub活跃年限增加而下降:经验最丰富的开发者在27%的代码中使用genAI,而新加入平台者使用率达37%(Fig. 3B)。然而,基于姓名推断性别的研究显示,男女开发者在使用强度上无显著差异(Fig. 3A)。生产力与创新影响
通过用户和季度固定效应回归模型,研究评估了genAI对开发者输出(以季度提交次数衡量)的影响。Fig. 3C总结了结果:从0到29%的genAI使用(美国2024年底估计采用率)与提交率增加3.6%相关,涉及所有提交、多文件提交(需跨脚本导航依赖)和添加新库的提交(引入新功能)。此外,AI采用还与增加新库组合实验相关,表明genAI帮助开发者拓展到软件开发新领域。然而,这些益处几乎完全集中在资深开发者中。对资深用户,29%采用率意味着提交率增加6.2%;而对早期职业开发者,无显著影响(Fig. 3D)。资深开发者更善于利用genAI进行创新探索,而新手虽使用更多却未获同等收益。讨论与结论:意义与局限
本研究发现,genAI在软件开发中扩散快速但异质性强。美国领先但优势收窄,欧洲国家紧追,印度快速赶上,而中俄滞后。采用率在早期职业开发者中更高,但收益集中在资深群体,这可能扩大技能差距。genAI不仅提升输出量,还促进技术探索,如新库组合使用,表明其推动开发者进入新领域。与先前研究一致,本估计美国采用率约29%,与微软和亚马逊报告相近,支持结果的普适性。然而,生产力效应估计低于随机对照试验(RCTs),可能因测量误差向下偏误。纠正后效应增强,且资深开发者收益显著。研究局限性包括聚焦软件开发(虽具代表性)、仅分析Python开源代码(可能不泛化至其他语言),且未考虑同事间外部性或企业异质性。地理分析限于六国,未来需扩展至不同收入水平国家。此外,代码质量影响(如问题解决、测试覆盖)需未来研究。经济价值方面,保守估计genAI在美国年生成代码价值增加230-380亿美元(基于3.6%生产力增益)。若考虑实验中的更大效应(6.0-15.7%),范围扩至380-1670亿美元。全球节省成本更高,且genAI仍处扩散早期,生产力效应可能随时间增强。结果对政策制定者和研究者提出重要问题:需理解AI采用障碍(个体、企业、国家层面),并关注精英开发者的活动变化,因为genAI可能改变任务组成。总之,genAI正重塑工作性质,其不确定性要求基于证据的决策。本研究通过实时监测大量代码提交,为这一重要经济部门提供了扎实证据,强调采用虽快但收益不均,提示需关注技能发展与职业路径公平。参考文献:Daniotti, S.; Wachs, J.; Feng, X.; Neffke, F., Who is using AI to code? Global diffusion and impact of generative AI. 0 (0), eadz9311.https://www.science.org/doi/10.1126/science.adz9311
- DOIhttps://doi.org/10.1039/D5EE02456K
关注“催化能源先锋”公众号,获取更多科学突破的深度解析!欢迎各位研究学者进群交流!
本文数据来源于 Science 论文及官方补充材料,图片版权归原作者所有。