“Life is short, you need Python. —— Bruce Eckel。”
前面一篇文章,我们已经学习了如何把文件中的内容读进Python,也尝试着把一个文本文件中的三元组,一行一行地拆开,再保存成列表、元组,或者对象。
这其实已经很接近真实的数据处理过程了。
不过,在实际学习和研究知识图谱的时候,我们会慢慢发现,数据并不总是像这样规规矩矩地保存在 .txt 文件里。很多时候,它可能会是下面这些样子:
保存成 json 文件;
保存成表格形式的数据;
有很多列,需要筛选和统计;
需要把实体、关系、文本说明放在一起处理。
这个时候,如果我们还是完全依靠最基础的列表、字典、循环,当然也不是不行,只是写起来会稍微费一点力气。
所以,这一篇,我们来认识两个很常用的工具:
json
pandas
先提前说一句,请不要被这两个名字吓到。尤其是 pandas,虽然名字看起来像“熊猫”,但它其实是Python里一个处理表格数据非常常用的工具包。后面你做知识图谱的数据整理、统计、清洗,常常都绕不开它。
我们还是慢慢来。
我们先来看一段内容:
{ "name": "曹雪芹", "type": "人物", "book": "红楼梦"}
你第一眼看过去,会不会觉得它有点眼熟?
没错,它长得很像我们之前学过的字典:
entity = { "name": "曹雪芹", "type": "人物", "book": "红楼梦"}
确实非常像。
所以,对于初学者来说,我们可以先这样理解:
JSON 看起来很像字典,是一种专门用来保存和交换数据的格式。
在知识图谱里面,JSON很常见。因为一个实体,往往不只有一个名字,它还可能有很多属性。比如:
如果把这些信息放在一起,JSON就会比较自然。
比如:
{ "name": "鲁迅", "type": "人物", "birth_year": 1881, "works": ["狂人日记", "阿Q正传"]}
这就已经很像一个实体的属性描述了。
在Python中,要处理JSON,我们通常要先导入一个工具包:
这里的 import,你可以先理解成:
把Python里已经准备好的一个工具请过来用。
这个工具的名字就叫 json。
我们先看第一种情况:如果现在手里已经有一个Python字典,想把它变成JSON格式的字符串,可以这样写:
import jsonentity = { "name": "鲁迅", "type": "人物", "works": ["狂人日记", "阿Q正传"]}json_text = json.dumps(entity, ensure_ascii=False)print(json_text)
这里最值得注意的是 json.dumps()。
这个名字第一次看会有点奇怪,不过不用太在意它为什么叫这个名字。我们先记住它的作用就行:
json.dumps() 可以把Python中的字典、列表这些数据,转换成JSON格式的字符串。
为什么这里说是“字符串”呢?
因为打印出来以后,你看到的是:
{"name": "鲁迅", "type": "人物", "works": ["狂人日记", "阿Q正传"]}
它看起来像字典,但本质上已经是一段文本了。
这里还有个参数:
这个参数的作用是:让中文正常显示。否则中文有时候会变成一串不太直观的编码。所以只要涉及中文,通常都建议写上。
反过来,如果我们已经有一段JSON格式的字符串,想把它变回Python字典,可以这样写:
import jsonjson_text = '{"name": "鲁迅", "type": "人物"}'entity = json.loads(json_text)print(entity)print(entity["name"])
这里的 json.loads(),作用和刚才相反:
它会把JSON格式的字符串,变回Python里的字典或列表。
所以这一步之后,entity 就又变成了一个字典,我们就可以像以前一样,用 entity["name"] 去取值。
前一篇我们学过读文本文件,这里我们继续往前走一步:读取JSON文件。
假设现在有一个文件,名字叫 entity.json,内容是这样的:
{ "name": "北京大学", "type": "学校", "location": "北京"}
那么在Python里,可以这样读取:
import jsonwith open("entity.json", "r", encoding="utf-8") as file: data = json.load(file)print(data)print(data["name"])
这里要注意,刚才我们用过的是json.loads(),而这里变成了json.load()。
它们很像,但场景稍微有点不一样:
json.loads():处理的是“字符串”
json.load():处理的是“文件”
现在没有必要记住,只要先有个印象就可以。以后用多了,自然会熟悉。
如果还想把数据再写回JSON文件,可以这样:
import jsonentity = { "name": "北京大学", "type": "学校", "location": "北京"}with open("output.json", "w", encoding="utf-8") as file: json.dump(entity, file, ensure_ascii=False, indent=4)
这里的json.dump() 和前面的json.dumps() 也很像:
参数 indent=4 的意思是:让输出结果更整齐一些,更方便阅读。你可以把它理解成“自动帮我们排版”。
这一点其实不难理解。
因为知识图谱里,一个实体通常不只是一个名字,它会有很多属性。比如我们想表示一个人物实体,就可以写成:
{ "name": "曹雪芹", "type": "人物", "dynasty": "清代", "works": ["红楼梦"]}
如果想表示一个学校实体,也可以写成:
{ "name": "清华大学", "type": "学校", "location": "北京", "founded": 1911}
你会发现,JSON特别适合表示这种“一个对象,带着很多属性”的数据。
所以,在做知识图谱的数据准备时,常常会看到这样的场景:
原始文本中抽取出实体
把实体及其属性保存成JSON
再进一步处理、筛选、入库
换句话说,JSON在这里有点像“实体信息的小仓库”。
如果说JSON更适合表示“一个对象有很多属性”,那么 pandas 更擅长处理“很多行很多列的数据”。
比如这样一张表:
head | relation | tail |
曹雪芹 | 作者 | 红楼梦 |
鲁迅 | 作者 | 狂人日记 |
北京大学 | 位于 | 北京 |
这其实就是一个非常典型的知识图谱三元组表。
如果用最基础的Python,我们当然也能处理。比如一行一行读文件,再拆成列表,再循环统计。
不过,如果这样的数据越来越多,列越来越多,比如还带上:
那么用 pandas 处理起来,就会方便很多。
如果你用的是Anaconda,通常已经自带了 pandas。如果没有,也可以安装。
不过这一篇里,我们先不展开安装细节,只先看怎么使用。
导入方式很常见:
这里的 as pd 是什么意思呢?
可以理解为:给 pandas 起一个更短的别名,叫 pd。
因为后面经常要写它,写成 pd 会方便一些。
我们直接用Python里的字典,来创建一个表格试试看:
import pandas as pddata = { "head": ["曹雪芹", "鲁迅", "北京大学"], "relation": ["作者", "作者", "位于"], "tail": ["红楼梦", "狂人日记", "北京"]}df = pd.DataFrame(data)print(df)
这里的 DataFrame,可以先理解成:
pandas 中最核心的一种数据结构,就是“表格”。
所以 df 就是一张表。
运行之后,大概会看到:
head relation tail0 曹雪芹 作者 红楼梦1 鲁迅 作者 狂人日记2 北京大学 位于 北京
是不是很像Excel表格?
确实可以这样理解。对于初学者来说,DataFrame 就可以先看成“Python里的表格”。
前面我们手动创建了一张表。更常见的情况当然还是从文件中读取。
比如有一个文件 triples.csv,内容如下:
head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京
那么可以这样读取:
import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print(df)
这里的 read_csv(),顾名思义,就是读取CSV文件。
CSV可以理解成“用逗号分隔的表格文件”。它很常见,也很适合保存结构化数据。
以后你看到一些知识图谱数据集,很多都会是CSV格式,或者至少能整理成CSV格式。
把表格读进来之后,我们通常不会立刻做复杂操作,而是先看一看数据。
比如:
这里的 head(),不是“实体头节点”的那个head,而是一个方法名,意思是:
显示前几行数据。
默认显示前5行。
这个方法非常常用,因为数据一大,我们不可能每次都把整张表全部打印出来。所以通常先用 head() 看一眼,确认读得对不对。
如果想看表格有多少行、多少列,可以这样:
结果可能是:
这表示:
在知识图谱里,我们常常想单独看某一列,比如只看关系这一列。
可以这样写:
这会把 relation 这一列取出来。
如果想看所有不同的关系类型,可以这样:
print(df["relation"].unique())
unique() 的意思是:去重之后有哪些不同的值。
输出可能是:
这个操作就很像知识图谱预处理中常见的一步:先看看关系集合有哪些。
再高级和复杂一点,我们还能筛选满足条件的数据
这也是 pandas 最方便的地方之一。
比如,我们只想看“关系等于作者”的那些三元组,可以这样写:
author_df = df[df["relation"] == "作者"]print(author_df)
这句第一次看会有点绕,不过可以慢慢理解。
里面最核心的是:
这句话会逐行判断:每一行的 relation 是不是“作者”。
然后外面的:
就是把判断结果为真的那些行取出来。
最后就得到一个新的表格 author_df。
如果从知识图谱角度理解,这一步就是:
从全部三元组中,筛选出某一种关系对应的子集。
前一篇我们用字典统计过关系数量。现在用 pandas 可以更直接一些:
print(df["relation"].value_counts())
这里的 value_counts() 可以理解为:
统计这一列中,每个值分别出现了多少次。
输出可能是:
作者 2位于 1Name: relation, dtype: int64
这和我们前面用字典做的事情是一样的,只不过现在写起来更简洁了一些。
所以你会慢慢体会到,pandas 的价值不在于“它能做别人做不到的事”,而在于:很多常见的数据处理任务,它能帮我们更方便地完成。
有时候,我们想在原来的表格基础上,再补充一些信息。
比如,对于下面这些三元组:
head | relation | tail |
曹雪芹 | 作者 | 红楼梦 |
鲁迅 | 作者 | 狂人日记 |
北京大学 | 位于 | 北京 |
我们也许想给 head 这一列对应的实体,加上一个大致的类型:
一种比较简单的做法是先准备一个字典:
entity_type_dict = { "曹雪芹": "人物", "鲁迅": "人物", "北京大学": "学校"}
然后这样写:
df["head_type"] = df["head"].map(entity_type_dict)print(df)
这里的 map(),你可以先理解成:
按照这个字典,去给这一列中的每个值找对应的结果。
于是,表格中就会多出一列 head_type。
这一类操作,在知识图谱数据整理中很常见,因为我们往往需要把实体名、实体类型、关系等信息放在一起看。
既然表格已经整理好了,当然也可以再写回文件。
比如:
df.to_csv("new_triples.csv", index=False, encoding="utf-8")
这里的 to_csv() 就是保存成CSV文件。
index=False 的意思是:不要把最前面的行号也保存进去。
因为默认情况下,pandas的表格前面会有一列行号,比如0、1、2……这一列在很多时候只是程序内部用的,不一定是我们真正想保存的数据。
下面我们试着做一个稍微完整一点的小例子。
假设有一个 triples.csv 文件,内容如下:
head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京清华大学,位于,北京
现在我们想完成三件事情:
1. 读取这份三元组表
2. 统计每种关系的数量
3. 把“位于”关系单独保存成一个新文件
代码可以这样写:
import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print("全部数据:")print(df)print("关系统计:")print(df["relation"].value_counts())location_df = df[df["relation"] == "位于"]location_df.to_csv("location_triples.csv", index=False, encoding="utf-8")
这段代码其实不长,但它已经比较像一个真实的数据处理流程了。
如果换成知识图谱的语境,我们可以理解为:
先把原始三元组数据读进来
再看看关系分布
最后抽取出某一类关系,保存成子数据集
这在后续训练模型、分析数据、构建子图时都很常见。
这一篇比前面稍微进了一步,因为我们接触了两个很常用的工具:json 和 pandas。
如果简单概括一下:
JSON 更适合做什么?
它更适合表示:
也就是说,它适合“一个东西里面有很多信息”的场景。
pandas 更适合做什么?
它更适合表示:
很多行、很多列的数据
表格型数据
需要筛选、统计、分组、保存的数据
也就是说,它适合“把很多条数据排成表格来处理”的场景。
如果把这两个工具和知识图谱联系起来,可以先这样理解:
JSON 更像“实体属性表述”
pandas 更像“三元组表格处理”
当然,这样说并不绝对,只是为了帮助初学者先建立一个大概印象。
假设有这样一个 entities.json 文件:
[ {"name": "曹雪芹", "type": "人物"}, {"name": "鲁迅", "type": "人物"}, {"name": "北京大学", "type": "学校"}]
还有这样一个 triples.csv 文件:
head,relation,tail曹雪芹,作者,红楼梦鲁迅,作者,狂人日记北京大学,位于,北京
试着完成下面两个小任务:
1. 读取 entities.json,打印每个实体的名字和类型
2. 读取 triples.csv,统计 relation 列中每种关系出现的次数
参考写法
第一个任务:
import jsonwith open("entities.json", "r", encoding="utf-8") as file: entities = json.load(file)for entity in entities: print(entity["name"]) print(entity["type"])
第二个任务:
import pandas as pddf = pd.read_csv("triples.csv", encoding="utf-8")print(df["relation"].value_counts())