当前位置：首页>python>名师讲堂|使用 Python 测算上市公司关键核心技术突破指标面板数据(熵权法)

名师讲堂|使用 Python 测算上市公司关键核心技术突破指标面板数据(熵权法)

2026-07-03 09:58:07

由于借助 AI 工具学习编程已经变得非常容易了，因此之后的课程就不再默认进行视频讲解了，如果特别需要视频讲解也可以联系李老师预约讲解～讲义材料学习过程中遇到的问题也可以及时与李老师联系。

购买 RStata 名师讲堂会员即可参加该课程啦（之前的和未来的都可以参加）！

价格：2800/年或者 4800/长期

购买会员可以从这里下单：https://rstata.duanshu.com/#/card/list/

名师讲堂会员权益：

参加每个月 3～4 次的名师讲堂课程；
参加平台上的其他 R 语言和 Stata 的课程；
以会员折扣价购买我们分享的数据资料（10 元/份）；
课程内外的提问解答服务（课程外的尽量帮忙解决）。

* 如果发票可添加小编微信 r_stata2 （RStata 李老师）开具。如需数据资料，购买后可添加小编微信免费领取数据折扣卡。

更多关于 RStata 会员的更多信息可添加微信号 r_stata2 咨询：

课程主页（点击文末的阅读原文即可跳转）：https://rstata.duanshu.com/#/brief/course/11a0e54fff2447f4a0d1542a30f4e8eb

指标来源与背景

关键核心技术突破（CKTB，Critical and Key Technology Breakthrough）指标体系来源于王海花等（2026）发表于《科学学研究》的论文：《专精特新企业技术专业化与关键核心技术突破》。

该研究以我国前五批上市的专精特新小巨人企业中新一代信息技术产业为研究对象，深入探索技术专业化对关键核心技术突破的作用效应，在实证研究中使用专利数据构建了 CKTB 综合评分指标。

理论依据

关键核心技术具有以下三个核心特征：

特征维度	含义
基础性	技术的科学根基深厚、知识积累丰富，体现研究与开发的深度
体系性	技术在产业体系中的地位，体现与上下游关联的广度与合作
竞争性	技术在国际市场中的差异化竞争力，体现技术覆盖与保护范围

测度指标

基于三大特征维度，论文构建了如下 7 个专利层面指标：

library(knitr)

ind_df <- data.frame(

特征维度 = c("基础性", "基础性", "基础性",

"体系性", "体系性",

"竞争性", "竞争性"),

测度指标 = c("科学关联度", "技术累积度", "权利要求",

"社会价值", "合作范围",

"同族专利", "技术覆盖范围"),

专利指标 = c("npl（非专利文献引用量）",

"bwd_cite（引用专利数量）",

"claims（权利要求数量）",

"fwd_cite（3年内被引用次数）",

"assignees（专利权人数量）",

"family（同族成员数量）",

"ipc_cover（跨IPC部分类号数量）")

)

kable(ind_df, align = "lll")

指标说明：

非专利文献引用量（npl）：专利引用的科技文献（如学术论文）数量，反映专利的科学知识根基深度
引用专利数量（bwd_cite）：专利引用的在先专利数量（向后引用），体现技术积累程度
权利要求数量（claims）：专利权利要求条款数，条款越多代表技术覆盖越精细
3年内被引次数（fwd_cite）：专利申请后3年内被其他专利引用的次数，体现技术社会价值
专利权人数量（assignees）：联合申请人数量，反映合作创新程度
同族成员数量（family）：在其他国家/地区提交的同族专利数，体现国际竞争布局
IPC覆盖（ipc_cover）：企业当年专利跨越的 IPC 部（section）数量，反映技术领域多样性

熵权法原理

**熵权法（Entropy Weight Method）**是一种客观赋权方法，不依赖专家主观判断，而是根据各指标的信息量来自动决定权重。其核心思想是：

如果某个指标在所有样本中的取值差异很大，说明它包含的信息量多，应给予更高权重；反之，若某指标的取值在所有样本中基本相同（无差异），则该指标对区分样本无帮助，权重接近 0。

计算步骤

熵权法函数实现（Python）

import numpy as np

import pandas as pd

defentropy_weight(X):

"""

熵权法计算函数

参数 X: n × m 的 DataFrame 或 ndarray，n=样本数量，m=指标数量

返回: dict，包含 scores（综合得分）、weights（权重）、E（信息熵）

"""

X = np.array(X, dtype=np.float64)

n, m = X.shape

# Step 1: 极差标准化

X_min = X.min(axis=0)

X_max = X.max(axis=0)

denom = X_max - X_min

denom[denom == 0] = 1e-10# 极差为 0 时防止除零

X_norm = (X - X_min) / denom

X_norm = X_norm + 1e-10# 避免 log(0)

# Step 2: 计算信息熵

col_sum = X_norm.sum(axis=0)

P = X_norm / col_sum

k = 1.0 / np.log(n) # 调节系数

E = -k * (P * np.log(P + 1e-10)).sum(axis=0)

E = np.minimum(E, 1.0) # 熵值上限为 1

return {"scores": scores, "weights": W, "E": E}

使用 reticulate 创建与管理 Python 虚拟环境

在 R 中通过 reticulate 包来调用 Python，最好的实践是为项目创建一个专属的 Python 虚拟环境，将所需依赖隔离到独立空间，避免与系统 Python（如 Anaconda）发生版本冲突。

重要说明（避免"已初始化"报错）：reticulate 在 R 会话中只能绑定一次 Python——一旦某个 {python} 代码块运行，Python 解释器就被锁定，之后再调用 use_virtualenv() 会报错：
ERROR: The requested version of Python cannot be used, as another version has already been initialized.
因此，虚拟环境的激活必须在所有 {python} 代码块之前完成。本文档的解决方案是在 setup chunk 中通过 Sys.setenv(RETICULATE_PYTHON = ...) 提前锁定 Python 路径，这是 reticulate 选取 Python 的最高优先级入口。

安装 reticulate（仅首次）

# 设置 CRAN 镜像（knit 时 R 处于非交互模式，不会自动选择镜像）

options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

if (!requireNamespace("reticulate", quietly = TRUE)) {

install.packages("reticulate")

message("reticulate 安装完成！")

} else {

message("reticulate 已安装，版本：", packageVersion("reticulate"))

}

虚拟环境初始化原理（已在 setup chunk 中完成）

本文档的 setup chunk（隐藏运行）包含如下逻辑：

library(reticulate)

.venv_name <-".venv"

.venv_python <- virtualenv_python(.venv_name)

# 虚拟环境不存在时自动创建

if(!file.exists(.venv_python)){

virtualenv_create(.venv_name)

.venv_python <- virtualenv_python(.venv_name)

}

# 通过环境变量抢先锁定 Python（优先级最高，早于任何 {python} chunk）

Sys.setenv(RETICULATE_PYTHON = .venv_python)

use_virtualenv(.venv_name, required =TRUE)

数据准备

本讲义使用的数据文件：

文件	说明
`2010~2012年上市公司与专利数据匹配结果_含引用与被引用信息.csv`	主数据：专利-企业匹配，含各类引用信息（约 1 GB）
`1985~2024年各专利当年～十一年内的被自引、被他引数量统计.csv`	被引统计：专利被他引的分年统计（约 979 MB）
`拓展专利信息.csv`	拓展信息：权利要求数量、同族专利（约 1.5 GB）