当前位置：首页>python>学知识图谱,你得会Python!史上最通俗易懂系列(七)

学知识图谱,你得会Python!史上最通俗易懂系列(七)

2026-03-28 00:50:31

“Life is short, you need Python. —— Bruce Eckel。”

前面一篇文章，我们已经学习了如何把文件中的内容读进Python，也尝试着把一个文本文件中的三元组，一行一行地拆开，再保存成列表、元组，或者对象。

这其实已经很接近真实的数据处理过程了。

不过，在实际学习和研究知识图谱的时候，我们会慢慢发现，数据并不总是像这样规规矩矩地保存在 .txt 文件里。很多时候，它可能会是下面这些样子：

保存成 json 文件；
保存成表格形式的数据；
有很多列，需要筛选和统计；
需要把实体、关系、文本说明放在一起处理。

这个时候，如果我们还是完全依靠最基础的列表、字典、循环，当然也不是不行，只是写起来会稍微费一点力气。

所以，这一篇，我们来认识两个很常用的工具：

json

pandas

先提前说一句，请不要被这两个名字吓到。尤其是 pandas，虽然名字看起来像“熊猫”，但它其实是Python里一个处理表格数据非常常用的工具包。后面你做知识图谱的数据整理、统计、清洗，常常都绕不开它。

我们还是慢慢来。

—

JSON：它其实就是“长得像字典的数据”

我们先来看一段内容：

{    "name": "曹雪芹",    "type": "人物",    "book": "红楼梦"}

你第一眼看过去，会不会觉得它有点眼熟？

没错，它长得很像我们之前学过的字典：

entity = {    "name": "曹雪芹",    "type": "人物",    "book": "红楼梦"}

确实非常像。

所以，对于初学者来说，我们可以先这样理解：

JSON 看起来很像字典，是一种专门用来保存和交换数据的格式。

在知识图谱里面，JSON很常见。因为一个实体，往往不只有一个名字，它还可能有很多属性。比如：

名字
类型
出生年份
国籍
代表作品

如果把这些信息放在一起，JSON就会比较自然。

比如：

{    "name": "鲁迅",    "type": "人物",    "birth_year": 1881,    "works": ["狂人日记", "阿Q正传"]}

这就已经很像一个实体的属性描述了。

—

Python里怎么处理JSON？

在Python中，要处理JSON，我们通常要先导入一个工具包：

import json

这里的 import，你可以先理解成：

把Python里已经准备好的一个工具请过来用。

这个工具的名字就叫 json。

我们先看第一种情况：如果现在手里已经有一个Python字典，想把它变成JSON格式的字符串，可以这样写：

import jsonentity = {    "name": "鲁迅",    "type": "人物",    "works": ["狂人日记", "阿Q正传"]}json_text = json.dumps(entity, ensure_ascii=False)print(json_text)

这里最值得注意的是 json.dumps()。

这个名字第一次看会有点奇怪，不过不用太在意它为什么叫这个名字。我们先记住它的作用就行：

json.dumps() 可以把Python中的字典、列表这些数据，转换成JSON格式的字符串。

为什么这里说是“字符串”呢？

因为打印出来以后，你看到的是：

{"name": "鲁迅", "type": "人物", "works": ["狂人日记", "阿Q正传"]}

它看起来像字典，但本质上已经是一段文本了。

这里还有个参数：

ensure_ascii=False

这个参数的作用是：让中文正常显示。否则中文有时候会变成一串不太直观的编码。所以只要涉及中文，通常都建议写上。

反过来，如果我们已经有一段JSON格式的字符串，想把它变回Python字典，可以这样写：

import jsonjson_text = '{"name": "鲁迅", "type": "人物"}'entity = json.loads(json_text)print(entity)print(entity["name"])

这里的 json.loads()，作用和刚才相反：

它会把JSON格式的字符串，变回Python里的字典或列表。

所以这一步之后，entity 就又变成了一个字典，我们就可以像以前一样，用 entity["name"] 去取值。

—

从JSON文件里读取数据

前一篇我们学过读文本文件，这里我们继续往前走一步：读取JSON文件。

假设现在有一个文件，名字叫 entity.json，内容是这样的：

{    "name": "北京大学",    "type": "学校",    "location": "北京"}

那么在Python里，可以这样读取：

import jsonwith open("entity.json", "r", encoding="utf-8") as file:    data = json.load(file)print(data)print(data["name"])

这里要注意，刚才我们用过的是json.loads()，而这里变成了json.load()。

它们很像，但场景稍微有点不一样：

json.loads()：处理的是“字符串”
json.load()：处理的是“文件”

现在没有必要记住，只要先有个印象就可以。以后用多了，自然会熟悉。

如果还想把数据再写回JSON文件，可以这样：

import jsonentity = {    "name": "北京大学",    "type": "学校",    "location": "北京"}with open("output.json", "w", encoding="utf-8") as file:    json.dump(entity, file, ensure_ascii=False, indent=4)

这里的json.dump() 和前面的json.dumps() 也很像：

dumps 是转成字符串
dump 是直接写进文件

参数 indent=4 的意思是：让输出结果更整齐一些，更方便阅读。你可以把它理解成“自动帮我们排版”。

—

为什么JSON在知识图谱里很常见？

这一点其实不难理解。

因为知识图谱里，一个实体通常不只是一个名字，它会有很多属性。比如我们想表示一个人物实体，就可以写成：

{    "name": "曹雪芹",    "type": "人物",    "dynasty": "清代",    "works": ["红楼梦"]}

如果想表示一个学校实体，也可以写成：

{    "name": "清华大学",    "type": "学校",    "location": "北京",    "founded": 1911}

你会发现，JSON特别适合表示这种“一个对象，带着很多属性”的数据。

所以，在做知识图谱的数据准备时，常常会看到这样的场景：

原始文本中抽取出实体
把实体及其属性保存成JSON
再进一步处理、筛选、入库

换句话说，JSON在这里有点像“实体信息的小仓库”。

—

pandas：处理表格数据的好帮手

如果说JSON更适合表示“一个对象有很多属性”，那么 pandas 更擅长处理“很多行很多列的数据”。

比如这样一张表：

head	relation	tail
曹雪芹	作者	红楼梦
鲁迅	作者	狂人日记
北京大学	位于	北京

这其实就是一个非常典型的知识图谱三元组表。

如果用最基础的Python，我们当然也能处理。比如一行一行读文件，再拆成列表，再循环统计。

不过，如果这样的数据越来越多，列越来越多，比如还带上：

实体类型
来源文本
置信度
标注人员

那么用 pandas 处理起来，就会方便很多。

如果你用的是Anaconda，通常已经自带了 pandas。如果没有，也可以安装。

不过这一篇里，我们先不展开安装细节，只先看怎么使用。

导入方式很常见：

import pandas as pd

这里的 as pd 是什么意思呢？

可以理解为：给 pandas 起一个更短的别名，叫 pd。

因为后面经常要写它，写成 pd 会方便一些。

—

用pandas创建一个简单的表格

我们直接用Python里的字典，来创建一个表格试试看：

import pandas as pddata = {    "head": ["曹雪芹", "鲁迅", "北京大学"],    "relation": ["作者", "作者", "位于"],    "tail": ["红楼梦", "狂人日记", "北京"]}df = pd.DataFrame(data)print(df)

这里的 DataFrame，可以先理解成：

pandas 中最核心的一种数据结构，就是“表格”。

所以 df 就是一张表。

运行之后，大概会看到：

   head relation   tail0   曹雪芹      作者    红楼梦1    鲁迅      作者   狂人日记2  北京大学      位于      北京

是不是很像Excel表格？

确实可以这样理解。对于初学者来说，DataFrame 就可以先看成“Python里的表格”。

—

从文件里读取表格

前面我们手动创建了一张表。更常见的情况当然还是从文件中读取。

比如有一个文件 triples.csv，内容如下：

head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京

那么可以这样读取：

import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print(df)

这里的 read_csv()，顾名思义，就是读取CSV文件。

CSV可以理解成“用逗号分隔的表格文件”。它很常见，也很适合保存结构化数据。

以后你看到一些知识图谱数据集，很多都会是CSV格式，或者至少能整理成CSV格式。

—

先看看表格里有什么

把表格读进来之后，我们通常不会立刻做复杂操作，而是先看一看数据。

比如：

print(df.head())

这里的 head()，不是“实体头节点”的那个head，而是一个方法名，意思是：

显示前几行数据。

默认显示前5行。

这个方法非常常用，因为数据一大，我们不可能每次都把整张表全部打印出来。所以通常先用 head() 看一眼，确认读得对不对。

如果想看表格有多少行、多少列，可以这样：

print(df.shape)

结果可能是：

(3, 3)

这表示：

3行
3列

—

选择某一列数据

在知识图谱里，我们常常想单独看某一列，比如只看关系这一列。

可以这样写：

print(df["relation"])

这会把 relation 这一列取出来。

如果想看所有不同的关系类型，可以这样：

print(df["relation"].unique())

unique() 的意思是：去重之后有哪些不同的值。

输出可能是：

['作者''位于']

这个操作就很像知识图谱预处理中常见的一步：先看看关系集合有哪些。

—

筛选满足条件的数据

再高级和复杂一点，我们还能筛选满足条件的数据

这也是 pandas 最方便的地方之一。

比如，我们只想看“关系等于作者”的那些三元组，可以这样写：

author_df = df[df["relation"] == "作者"]print(author_df)

这句第一次看会有点绕，不过可以慢慢理解。

里面最核心的是：

df["relation"] == "作者"

这句话会逐行判断：每一行的 relation 是不是“作者”。

然后外面的：

df[ ... ]

就是把判断结果为真的那些行取出来。

最后就得到一个新的表格 author_df。

如果从知识图谱角度理解，这一步就是：

从全部三元组中，筛选出某一种关系对应的子集。

—

统计每种关系出现多少次

前一篇我们用字典统计过关系数量。现在用 pandas 可以更直接一些：

print(df["relation"].value_counts())

这里的 value_counts() 可以理解为：

统计这一列中，每个值分别出现了多少次。

输出可能是：

作者    2位于    1Name: relation, dtype: int64

这和我们前面用字典做的事情是一样的，只不过现在写起来更简洁了一些。

所以你会慢慢体会到，pandas 的价值不在于“它能做别人做不到的事”，而在于：很多常见的数据处理任务，它能帮我们更方便地完成。

—

增加一列：给实体加上类型

有时候，我们想在原来的表格基础上，再补充一些信息。

比如，对于下面这些三元组：

head	relation	tail
曹雪芹	作者	红楼梦
鲁迅	作者	狂人日记
北京大学	位于	北京

我们也许想给 head 这一列对应的实体，加上一个大致的类型：

曹雪芹 → 人物
鲁迅 → 人物
北京大学 → 学校

一种比较简单的做法是先准备一个字典：

entity_type_dict = {    "曹雪芹": "人物",    "鲁迅": "人物",    "北京大学": "学校"}

然后这样写：

df["head_type"] = df["head"].map(entity_type_dict)print(df)

这里的 map()，你可以先理解成：

按照这个字典，去给这一列中的每个值找对应的结果。

于是，表格中就会多出一列 head_type。

这一类操作，在知识图谱数据整理中很常见，因为我们往往需要把实体名、实体类型、关系等信息放在一起看。

—

把处理后的结果保存下来

既然表格已经整理好了，当然也可以再写回文件。

比如：

df.to_csv("new_triples.csv", index=False, encoding="utf-8")

这里的 to_csv() 就是保存成CSV文件。

index=False 的意思是：不要把最前面的行号也保存进去。

因为默认情况下，pandas的表格前面会有一列行号，比如0、1、2……这一列在很多时候只是程序内部用的，不一定是我们真正想保存的数据。

—

一个和知识图谱更贴近的小案例

下面我们试着做一个稍微完整一点的小例子。

假设有一个 triples.csv 文件，内容如下：

head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京清华大学,位于,北京

现在我们想完成三件事情：

1. 读取这份三元组表

2. 统计每种关系的数量

3. 把“位于”关系单独保存成一个新文件

代码可以这样写：

import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print("全部数据：")print(df)print("关系统计：")print(df["relation"].value_counts())location_df = df[df["relation"] == "位于"]location_df.to_csv("location_triples.csv", index=False, encoding="utf-8")

这段代码其实不长，但它已经比较像一个真实的数据处理流程了。

如果换成知识图谱的语境，我们可以理解为：

先把原始三元组数据读进来
再看看关系分布
最后抽取出某一类关系，保存成子数据集

这在后续训练模型、分析数据、构建子图时都很常见。

—

小结

这一篇比前面稍微进了一步，因为我们接触了两个很常用的工具：json 和 pandas。

如果简单概括一下：

JSON 更适合做什么？

它更适合表示：

一个实体
一个对象
一条带很多属性的数据

也就是说，它适合“一个东西里面有很多信息”的场景。

pandas 更适合做什么？

它更适合表示：

很多行、很多列的数据
表格型数据
需要筛选、统计、分组、保存的数据

也就是说，它适合“把很多条数据排成表格来处理”的场景。

如果把这两个工具和知识图谱联系起来，可以先这样理解：

JSON 更像“实体属性表述”
pandas 更像“三元组表格处理”

当然，这样说并不绝对，只是为了帮助初学者先建立一个大概印象。

—

作业

假设有这样一个 entities.json 文件：

[    {"name": "曹雪芹", "type": "人物"},    {"name": "鲁迅", "type": "人物"},    {"name": "北京大学", "type": "学校"}]

还有这样一个 triples.csv 文件：

head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京

试着完成下面两个小任务：

1. 读取 entities.json，打印每个实体的名字和类型

2. 读取 triples.csv，统计 relation 列中每种关系出现的次数

参考写法

第一个任务：

import jsonwith open("entities.json", "r", encoding="utf-8") as file:    entities = json.load(file)for entity in entities:    print(entity["name"])    print(entity["type"])

第二个任务：

import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print(df["relation"].value_counts())

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

学知识图谱,你得会Python!史上最通俗易懂系列(七)

最新文章

热门文章

随机文章

学知识图谱,你得会Python!史上最通俗易懂系列(七)

Python自动化脚本让效率翻范番

Python-zip函数

最新文章

热门文章

随机文章