生成式人工智能正在改变劳动力市场,也正在重新塑造高校专业与未来职业之间的关系。
过去我们常问:“哪些职业更容易受到 AI 冲击?”
但如果把问题放到高等教育场景中,一个更值得关注的问题是:
哪些专业的毕业生,未来更可能进入受 LLM 影响较大的职业?
本期分享的代码,围绕“LLM 专业暴露率”展开,提供一套可运行的 Python 测算流程,用于从职业任务出发,逐步计算职业层和专业层的大语言模型暴露率。
一、案例背景
本项目参考论文《大语言模型冲击与高等教育远期暴露率:测度方法、就业效应与满意度分析》的测度思路,将 LLM 对职业任务的影响进一步映射到高校本科专业层面。
传统 AI 冲击研究往往以职业为分析对象,例如讨论数据分析师、文案策划、财务分析师等职业是否容易受到人工智能影响。
但高校专业并不直接等于职业。一个专业的毕业生可能进入多个职业,而每个职业又由若干具体任务组成。
因此,本项目采用一条更细致的测度链条:
职业任务数据
→ LLM 任务暴露评分
→ 职业层 LLM 暴露率
→ 专业层 LLM 暴露率
通过这一流程,可以更清楚地观察不同专业在生成式人工智能冲击下面临的潜在就业风险。
二、测度思路
代码整体分为三个层次。
第一步,对职业任务进行 LLM 暴露评分。
例如,对于“撰写分析报告”“整理用户反馈”“编写技术文档”等任务,LLM 可能具有较强辅助能力;而对于“现场护理操作”“设备现场检查”等任务,LLM 的直接替代能力相对较弱。
第二步,根据任务重要性计算职业层暴露率。
职业暴露率 = 任务权重 × 任务暴露评分
其中,任务权重由任务重要性归一化得到。
第三步,根据专业毕业生进入不同职业的概率,计算专业层暴露率。
专业暴露率 = 专业进入各职业的概率 × 职业暴露率
也就是说,一个专业是否容易受到 LLM 冲击,不只取决于专业名称本身,而取决于该专业学生未来可能进入哪些职业,以及这些职业中有多少任务可以被 LLM 辅助或替代。
三、代码功能
本项目提供了完整 Python 流程,主要包括以下功能:
- 1. 读取职业任务数据、专业目录数据和专业-职业概率矩阵;
- 3. 支持真实调用 GPT,对职业任务进行结构化评分;
- 5. 自动根据专业-职业概率矩阵计算专业层暴露率;
- 6. 输出任务评分表、职业暴露率表和专业暴露率表。
项目文件结构如下:
llm_major_exposure_code/
├── data/
│ ├── occupational_tasks.csv
│ ├── majors.csv
│ └── major_occupation_probs.csv
├── scripts/
│ ├── prompts.py
│ ├── llm_scorer.py
│ ├── aggregate_exposure.py
│ ├── build_major_occupation_probs.py
│ └── run_pipeline.py
└── outputs/
四、核心数据
项目中主要包含三类输入数据。
1. 职业任务数据
用于记录每个职业下的具体工作任务。
2. 专业信息数据
用于记录本科专业的培养目标、核心课程和就业方向。
3. 专业-职业概率矩阵
用于表示某一专业毕业生进入不同职业的概率。
五、运行方式
如果只是测试代码流程,可以先运行离线演示版:
python scripts/run_pipeline.py --mode demo
如果需要真实调用 GPT 进行任务评分,需要先设置 API key:
$env:OPENAI_API_KEY="你的 API key"
然后运行:
python scripts/run_pipeline.py --mode api --model gpt-4o-mini
如果需要让 GPT 根据专业信息自动生成“专业-职业”概率矩阵,可以运行:
python scripts/build_major_occupation_probs.py --mode api --model gpt-4o-mini --top-k 5
六、结果展示
运行完成后,代码会在 outputs 文件夹中生成结果表。
主要输出包括:
样例数据中,专业层暴露率结果如下:
从结果可以看出,经济学、统计学和汉语言文学的专业暴露率相对较高,主要因为这些专业对应的职业中包含较多数据分析、财务分析、文本写作和内容策划类任务。
护理学的暴露率较低,则是因为其核心职业任务更多依赖线下护理操作、现场判断和人际照护,LLM 的直接替代空间相对有限。
七、职业层结果
职业层暴露率结果如下:
可以看到,财务分析师、数据分析师和文案策划等职业的 LLM 暴露率较高。这类职业的共同特征是:任务中包含大量文本生成、信息整理、数据分析、报告撰写和结构化表达工作。
相反,护士和机械工程技术人员中有较多现场操作、设备检查、护理执行等任务,因此 LLM 暴露率相对较低。
八、适用场景
这套代码不仅可以用于复现论文中的测度思路,也可以作为以下研究主题的工具基础:
如果替换为更完整的职业任务数据和真实毕业去向数据,就可以进一步构建覆盖更多专业、更大规模职业体系的 LLM 专业暴露率数据库。
九、总结
本项目的价值在于,它把“AI 是否影响某个职业”这个问题,进一步推进到“AI 如何通过职业任务影响高校专业”。
通过 Python 代码,可以将原本较抽象的人工智能冲击问题转化为一套可计算、可复现、可扩展的指标体系。
对于关注高等教育、劳动经济学、管理学和数字经济研究的同学来说,这套流程可以作为理解 AI 冲击专业结构和就业前景变化的一个实用工具。