2026年1月30日
阅读论文:https://arxiv.org/abs/2601.20245
研究表明,人工智能能帮助人们更快地完成部分工作。在一项基于Claude.ai数据的观察性研究中,我们发现AI可将部分任务的完成效率提升80%。但这种生产力的提升是否需要付出代价?其他研究显示,人们使用人工智能辅助时,对工作的投入度会降低,付出的努力也会减少——换言之,他们会将思考过程交由人工智能完成。
目前尚不清楚这种认知外包是否会阻碍人们在工作中提升技能,或是在编程领域,阻碍人们理解自己所搭建的系统。我们最新开展的一项以软件开发人员为受试者的随机对照试验,就旨在探究工作中使用人工智能可能存在的这一弊端。
这一问题具有广泛的启示意义,关乎如何设计能促进学习的人工智能产品、企业应如何制定人工智能相关政策,以及提升更广泛的社会韧性等诸多方面。我们将研究重点放在了编程领域,该领域中人工智能工具已迅速成为标配。在此背景下,人工智能带来了一种潜在的矛盾:随着编程的自动化程度不断提高、工作效率持续提升,人类仍需掌握相应技能,以发现错误、指导输出,并最终对高风险场景中部署的人工智能进行监督。人工智能是否能成为兼顾技能培养与效率提升的捷径?还是说,人工智能辅助带来的生产力提升会损害技能的培养?
在这项随机对照试验中,我们考察了两个问题:一是软件开发人员在有无人工智能辅助的情况下,掌握一项新技能(本研究中为一款Python库)的速度差异;二是使用人工智能是否会降低他们对自己刚编写代码的理解程度。
研究发现,使用人工智能辅助会导致受试者对技能的掌握程度出现统计学意义上的显著下降。在一项针对几分钟前刚运用过的概念的测试中,使用人工智能的受试者得分比手动编程的受试者低17%,相当于成绩差了近两个等级。人工智能虽能略微加快任务完成速度,但这一差异未达到统计学显著水平。
值得注意的是,使用人工智能辅助并非必然导致低分,受试者使用人工智能的方式,会影响其信息留存的效果。那些对技能掌握程度更高的受试者,不仅会利用人工智能生成代码,还会在这一过程中通过各种方式构建理解——比如提出后续问题、请求解释,或是在独立编程时探讨概念性问题。
研究设计
我们招募了52名软件开发工程师(以初级工程师为主),所有受试者均已连续一年以上每周至少使用一次Python,且对人工智能编程辅助工具具备一定了解,同时对本研究任务所使用的Python库Trio并不熟悉。
研究分为三个部分:热身环节、主体任务(使用Trio编写两个不同的功能模块,这需要理解异步编程相关概念,该技能通常需在职业实践中习得)以及测试环节。我们告知受试者任务结束后将进行测试,同时鼓励他们尽快完成任务。
本次编程任务的设计模拟了人们通过自主教程学习新工具的场景。每位受试者都会收到问题描述、初始代码,以及完成任务所需的Trio相关概念简要说明。研究使用的在线编程平台侧边栏搭载有人工智能辅助工具,该工具可获取受试者的代码,且能应要求随时生成正确代码。
评估设计
在评估设计中,我们借鉴计算机科学教育领域的研究成果,确定了四种常用于评估编程技能掌握程度的问题类型:
1. 调试能力:识别并诊断代码错误的能力。
该技能对于发现人工智能生成代码的错误并理解其失败原因至关重要。
2. 代码阅读能力:阅读并理解代码功能的能力。
借助这一技能,人类能在代码部署前对人工智能编写的代码进行理解和验证。
3. 代码编写能力:编写代码或选择正确编程思路的能力。随着人工智能编程工具的进一步整合,诸如记住函数语法这类基础的代码编写能力,其重要性将低于高级系统设计能力。
4. 概念理解能力:理解工具和库背后核心原理的能力。在评估人工智能生成的代码是否采用了符合库设计初衷的恰当软件设计模式时,概念理解能力尤为关键。
本次评估将重点放在调试、代码阅读和概念类问题上,因为我们认为,这些能力对于监督日益增多的人工智能生成代码而言最为重要。
研究结果
平均而言,使用人工智能的受试者完成任务的时间快了约两分钟,但这一差异不具备统计学显著性。不过,两组受试者的测试成绩存在显著差异:使用人工智能的小组测试平均分仅为50%,而手动编程小组为67%,二者相差近两个成绩等级(科恩系数d=0.738,p=0.01)。两组成绩差距最大的部分是调试类问题,这表明如果人工智能阻碍了编程能力的发展,那么理解代码错误所在及原因的能力,可能会成为一个尤为值得关注的问题。
质性分析:人工智能交互模式
我们尤为关注受试者完成研究任务的具体方式。在质性分析中,我们对手动标注了屏幕录制内容,统计了受试者撰写查询指令的时间、提出问题的类型、出现的错误类型,以及主动编写代码的时间。
一项令人意外的研究结果是,受试者花费了大量时间与人工智能辅助工具交互。部分受试者撰写多达15条查询指令,耗时最长可达11分钟,占总任务时长的30%。这也解释了为何使用人工智能的受试者平均完成速度更快,却未体现出统计学意义上的生产力提升。我们认为,在处理重复性或熟悉的任务时,人工智能更有可能显著提升生产力。
不出所料,未使用人工智能的小组出现的错误更多,包括语法错误和Trio相关概念错误,而后者与评估测试的考点直接相关。我们的假设是,出现更多Trio相关错误的受试者(即对照组),可能通过独立解决这些错误提升了自身的调试能力。
随后,我们根据受试者与人工智能的交互方式对其进行分组,发现了不同的交互模式,这些模式对应着任务完成时间和学习效果的差异。
低分组交互模式
低分组的交互模式总体表现为对人工智能的高度依赖,无论是代码生成还是调试环节均是如此。该小组的平均测试得分不足40%,受试者的独立思考能力较弱,更多地将认知工作外包给人工智能。我们将其进一步分为三类:
1. 人工智能全权委托型(4人):这类受试者完全依赖人工智能编写代码、完成任务,他们的任务完成速度最快,过程中几乎未出现错误。
2. 渐进式人工智能依赖型(4人):这类受试者最初仅提出1-2个问题,最终却将所有代码编写工作交由人工智能辅助工具完成,因未掌握第二个任务的任何相关概念,他们的测试成绩极差。
3. 迭代式人工智能调试型(4人):这类受试者依赖人工智能进行代码调试或验证,他们提出的问题更多,但仅依靠工具解决问题,而非借助工具厘清自身思路,最终不仅测试成绩不佳,完成两项任务的速度也较慢。
高分组交互模式
我们将平均测试得分达到65%及以上的行为归为高分组交互模式,这类受试者会同时利用人工智能进行代码生成和概念性问题查询。
1. 生成后理解型(2人):这类受试者先通过人工智能生成代码,再手动将代码复制粘贴到工作区,代码生成后,他们会向人工智能辅助工具提出后续问题,以加深理解。使用人工智能时,他们的完成速度并非特别快,但在测试中体现出了更高的理解水平。有趣的是,除了会利用人工智能验证自身理解外,他们的操作方式与人工智能全权委托型几乎一致。
2. 代码-解释混合型(3人):这类受试者会提出混合型查询指令,在要求人工智能生成代码的同时,要求其对生成的代码进行解释。阅读和理解这些解释会耗费更多时间,但能帮助他们提升理解能力。
3. 概念探究型(7人):这类受试者仅提出概念性问题,并依靠自身提升的理解能力完成任务。尽管该小组出现的错误较多,但受试者均能独立解决。在所有高分组模式中,该模式的平均完成速度最快,在所有模式中仅次于人工智能全权委托型。
本研究的质性分析并未证实交互模式与学习效果之间存在因果关系,但指出了与不同学习效果相关的行为特征。
研究结论
我们的研究结果表明,在工作场所中大量引入人工智能,尤其是在软件工程领域,需要付出相应代价。研究发现,并非所有对人工智能的依赖都是同质的:人们在追求效率的同时,与人工智能的交互方式会影响学习效果。在时间限制和企业压力的双重作用下,初级开发人员或其他行业的从业者可能会为了尽快完成任务而依赖人工智能,进而牺牲技能培养——尤其是在出现问题时进行调试的能力。
尽管本研究结果仍处于初步阶段,但为企业向人工智能编写代码占比更高的模式转型提供了重要参考。如果初级工程师因过早使用人工智能而导致技能发展受阻,那么人工智能带来的生产力提升,可能会以牺牲验证人工智能生成代码所需的技能为代价。管理者应审慎思考如何大规模部署人工智能工具,并建立相应体系或进行针对性设计,确保工程师在工作中持续学习,从而能够对自己搭建的系统进行有效的监督。
对于软件工程或其他行业的新手从业者而言,本研究为借助人工智能工具进行有针对性的技能培养的价值,提供了一点佐证。主动的认知投入,甚至是陷入困境的摸索过程,对于掌握技能可能至关重要。这一结论也适用于个人与人工智能的协作方式及工具选择。主流的大语言模型服务也均提供了学习模式(如Claude Code学习与解释模式、ChatGPT学习模式),旨在培养用户的理解能力。了解人们使用人工智能时的学习方式,也有助于指导人工智能的设计方向:人工智能辅助工具应能同时帮助人类更高效地工作,并培养新的技能。
此前关于人工智能对编程生产力的影响,相关研究结论莫衷一是。我们此前的研究发现,人工智能能将部分工作任务的完成时间缩短80%,这一结果似乎与本研究结论存在矛盾。但这两项研究的研究问题和方法均不同:此前的观察性研究针对的是受试者已掌握相关技能的任务,而本研究考察的是人们学习新技能时的情况。人工智能既可能提升已熟练掌握技能的工作效率,也可能阻碍新技能的习得,不过这一关系仍需更多研究加以验证。
本研究只是探究人机协作对从业者影响的第一步。研究样本量相对较小,且评估仅在编程任务完成后即刻测量受试者的理解程度,即时测试成绩是否能预测长期的技能发展,仍是本研究未能解答的重要问题。目前仍有诸多问题有待未来研究探索,例如:人工智能对编程以外任务的影响、随着工程师操作熟练度的提升,这种影响是否会随时间逐渐减弱、学习过程中人工智能辅助与人类辅助是否存在差异等。
归根结底,要在人工智能普及的背景下兼顾技能培养,我们需要更全面地看待人工智能对从业者的影响。在人工智能赋能的工作环境中,生产力的提升固然重要,但这些提升所依赖的专业能力的长期发展,同样不可或缺。
详情请阅读完整论文。
How AI Impacts Skill Formation
https://arxiv.org/abs/2601.20245
致谢
本项目由沈汉文(Judy Hanwen Shen)和亚历克斯·塔姆金(Alex Tamkin)主导。本博文的编辑工作由杰克·伊顿(Jake Eaton)、斯图尔特·里奇(Stuart Ritchie)和萨拉·波拉克(Sarah Pollack)协助完成。
感谢伊桑·佩雷斯(Ethan Perez)、米兰达·张(Miranda Zhang)和亨利·斯莱特(Henry Sleight)借助Anthropic安全研究员计划推动本项目落地。同时感谢马修·约克(Matthew Jörke)、朱丽叶·伍德罗(Juliette Woodrow)、吴萨拉(Sarah Wu)、伊丽莎白·蔡尔兹(Elizabeth Childs)、罗什尼·萨胡(Roshni Sahoo)、内特·拉什(Nate Rush)、朱利安·迈克尔(Julian Michael)和王露丝(Rose Wang)为实验设计提供的反馈意见。
参考文献:Shen, J. H., & Tamkin, A. (2026). How AI Impacts Skill Formation. arXiv preprint arXiv:2601.20245.
脚注
值得注意的是,本研究的实验设置与Claude Code等智能编程产品不同;我们认为,这类产品对技能培养的影响可能比本研究结果更为显著。
相关内容
- 现实世界中人工智能使用的能力弱化模式
https://www.anthropic.com/research/disempowerment-patterns
- 辅助者轴心:大语言模型的角色定位与稳定
https://www.anthropic.com/research/assistant-axis
- 安索普经济指数:理解人工智能应用的全新基石 阅读更多
https://www.anthropic.com/research/economic-index-primitives
#人工智能 #编程技能 #人机协作 #技术研究