当前位置：首页>python>一天一个Python知识点——Day 162:spaCy基础

一天一个Python知识点——Day 162:spaCy基础

2026-03-10 04:53:20

一、开篇：从教学到工业的跨越

昨天你用NLTK完成了分词、词性标注、命名实体识别，甚至训练了一个朴素贝叶斯分类器。NLTK像一位耐心的老师，把每一步都展示给你看。

但当你走向真实世界的应用——处理海量文本、需要实时响应、追求精准结果时，你需要一辆“法拉利”而不是“自行车”。

这就是spaCy的舞台。

spaCy 是一个专为生产环境设计的自然语言处理库，由Matthew Honnibal和Ines Montani开发，以其速度、准确性和工业级API著称。

spaCy vs NLTK：

NLTK：教学、研究、探索，包罗万象
spaCy：工程、部署、效率，开箱即用

二、安装与环境配置

2.1 安装spaCy

pip install spacy

2.2 下载语言模型

spaCy为不同语言提供了预训练模型：

# 英文小模型（推荐入门）python -m spacy download en_core_web_sm# 英文中模型python -m spacy download en_core_web_md# 英文大模型（包含词向量）python -m spacy download en_core_web_lg# 中文模型python -m spacy download zh_core_web_sm

2.3 验证安装

import spacynlp = spacy.load("en_core_web_sm")doc = nlp("Hello, spaCy!")print([token.text for token in doc])# 输出：['Hello', ',', 'spaCy', '!']

三、spaCy的核心数据结构

spaCy处理文本后返回一个Doc对象，它是整个NLP流水线的结果容器。

对象	描述	包含
Doc	处理后的文档	Token、Span、句子
Token	单个词（或标点）	文本、词性、依存关系
Span	连续的Token切片	命名实体、自定义片段
Vocab	词汇表	所有词的哈希映射
Language	处理流水线	tokenizer、tagger、parser、ner

基础操作：

import spacynlp = spacy.load("en_core_web_sm")text = "Apple is looking at buying U.K. startup for $1 billion"doc = nlp(text)# 遍历Tokenfor token in doc:    print(f"{token.text:10}{token.pos_:8}{token.dep_:10}{token.head.text}")# 遍历句子for sent in doc.sents:    print(sent.text)# 获取命名实体for ent in doc.ents:    print(f"{ent.text:15}{ent.label_:10}{ent.start_char}-{ent.end_char}")

四、spaCy的核心功能

4.1 分词（Tokenization）

spaCy的分词器基于规则，速度快且准确。

doc = nlp("Let's go to N.Y.C. for pizza.")tokens = [token.text for token in doc]print(tokens)# 输出：['Let', "'s", 'go', 'to', 'N.Y.C.', 'for', 'pizza', '.']

4.2 词性标注（POS Tagging）

spaCy提供两种粒度的词性标签：

token.pos_：粗粒度词性（通用）
token.tag_：细粒度词性（Treebank标签）

doc = nlp("I love natural language processing")for token in doc:    print(f"{token.text:10}{token.pos_:8}{token.tag_:6}")

输出：

I          PRON     PRPlove       VERB     VBPnatural    ADJ      JJlanguage   NOUN     NNprocessing NOUN     NN

4.3 依存句法分析（Dependency Parsing）

依存分析揭示词语之间的语法关系。

doc = nlp("The quick brown fox jumps over the lazy dog.")for token in doc:    print(f"{token.text:10}{token.dep_:12}{token.head.text:10}")

部分输出：

fox        nsubj         jumpsjumps      ROOT          jumpsover       prep          jumpsdog        pobj          over

用displacy可视化：

from spacy import displacydisplacy.render(doc, style="dep", jupyter=True)  # 在Notebook中# 或保存为SVGsvg = displacy.render(doc, style="dep")with open("dependency.svg", "w") as f:    f.write(svg)

4.4 命名实体识别（NER）

spaCy的NER模型能识别人、组织、地点、时间、金钱等实体。

doc = nlp("Apple Inc. was founded by Steve Jobs in Cupertino.")for ent in doc.ents:    print(f"{ent.text:15}{ent.label_:10}{spacy.explain(ent.label_)}")

输出：

Apple Inc.      ORG        Companies, agencies, institutionsSteve Jobs      PERSON     People, including fictionalCupertino       GPE        Countries, cities, states

4.5 词向量与语义相似度

使用包含词向量的模型（如en_core_web_md或en_core_web_lg）可以计算词语、句子间的相似度。

import spacynlp = spacy.load("en_core_web_md")# 词向量word1 = nlp("king")word2 = nlp("queen")print(f"相似度：{word1.similarity(word2):.3f}")# 句子向量sent1 = nlp("I like cats")sent2 = nlp("I love dogs")print(f"句子相似度：{sent1.similarity(sent2):.3f}")

注意：相似度基于余弦距离，取值范围[-1,1]。

4.6 规则匹配（Matcher）

spaCy提供了基于规则的匹配引擎，比正则表达式更强大，能利用词性、依存关系等。

简单模式匹配：

from spacy.matcher import Matchernlp = spacy.load("en_core_web_sm")matcher = Matcher(nlp.vocab)# 定义模式：匹配"make"后跟一个名词pattern = [{"LEMMA": "make"}, {"POS": "NOUN"}]matcher.add("MAKE_NOUN", [pattern])doc = nlp("She made a cake. They make pizza.")matches = matcher(doc)for match_id, start, end in matches:    span = doc[start:end]    print(span.text)# 输出：made a cake, make pizza

短语匹配器：

from spacy.matcher import PhraseMatchermatcher = PhraseMatcher(nlp.vocab)patterns = [nlp("New York"), nlp("San Francisco")]matcher.add("CITIES", patterns)doc = nlp("I love New York and San Francisco")matches = matcher(doc)for match_id, start, end in matches:    print(doc[start:end].text)

4.7 自定义管道组件

你可以向spaCy的流水线添加自定义组件。

def my_component(doc):    print("自定义组件被调用")    # 对doc进行自定义处理    return docnlp.add_pipe(my_component, last=True)doc = nlp("Hello world")  # 会打印"自定义组件被调用"

五、实战项目：从新闻中提取人物-组织关系

利用spaCy的依存句法和NER，提取新闻中“某个人物”与“某个组织”之间的动作关系。

5.1 核心逻辑

找到所有人物（PERSON）和组织（ORG）实体
对于每个句子，分析依存树，找出人物和组织之间的动词关系

5.2 实现代码

import spacyfrom collections import defaultdictnlp = spacy.load("en_core_web_sm")def extract_relations(text):    doc = nlp(text)    relations = []    for sent in doc.sents:        persons = [ent for ent in sent.ents if ent.label_ == "PERSON"]        orgs = [ent for ent in sent.ents if ent.label_ == "ORG"]        if not persons or not orgs:            continue        # 寻找连接人物和组织的动词        verbs = [token for token in sent if token.pos_ == "VERB"]        for person in persons:            for org in orgs:                for verb in verbs:                    # 检查人物和组织是否与动词有依存关系                    # 简化：人物可能是nsubj，组织可能是dobj或pobj                    if verb.dep_ in ["ROOT", "conj"]:                        subj = [w for w in verb.children if w.dep_ in ["nsubj", "agent"] and w in person]                        obj = [w for w in verb.children if w.dep_ in ["dobj", "pobj"] and w in org]                        if subj and obj:                            relations.append((person.text, verb.lemma_, org.text))                        # 也有可能反过来                        subj = [w for w in verb.children if w.dep_ in ["nsubj", "agent"] and w in org]                        obj = [w for w in verb.children if w.dep_ in ["dobj", "pobj"] and w in person]                        if subj and obj:                            relations.append((org.text, verb.lemma_, person.text))    return relations# 测试news = """Apple Inc. announced that Tim Cook will open a new store in London.Elon Musk's Tesla plans to build a factory in Berlin."""relations = extract_relations(news)for subj, verb, obj in relations:    print(f"{subj}{verb}{obj}")

输出：

Tim Cook open Apple Inc.Elon Musk build Tesla

5.3 改进方向

使用更精确的依存规则
处理被动语态
合并代词指代

六、spaCy与NLTK的对比

特性	spaCy	NLTK
设计目标	工业级生产	教学与研究
速度	极快（Cython优化）	较慢（纯Python）
内存占用	低	中等
预训练模型	内置多语言模型	需单独下载
易用性	统一API，开箱即用	分散的模块，需自行组合
依存句法分析	✅ 内置	❌ 需第三方集成
词向量	✅ 支持	❌ 需外部工具
可视化	displaCy（强大）	有限
学习曲线	平缓	较陡（功能多）

选型建议：

学习NLP概念：NLTK
构建生产系统：spaCy
快速原型：spaCy
研究实验：两者结合（spaCy预处理 + NLTK分析）

七、spaCy的生态扩展

7.1 模型中心（spaCy Universe）

spaCy拥有庞大的生态，包含数百个第三方插件：

spaCy-transformers：集成Hugging Face Transformer
spaCy-lookup：基于词典的实体匹配
spaCy-wordnet：集成WordNet
explosion 开发的Prodigy（标注工具）

7.2 训练自定义模型

spaCy允许你训练自己的命名实体识别、文本分类模型，只需提供标注数据。

# 训练NER的示例import spacyfrom spacy.training import Examplenlp = spacy.blank("en")  # 创建空白模型ner = nlp.add_pipe("ner")# 添加标签ner.add_label("PRODUCT")# 准备训练数据TRAIN_DATA = [    ("Apple released the iPhone", {"entities": [(0, 5, "ORG"), (15, 21, "PRODUCT")]}),    ("Samsung Galaxy is popular", {"entities": [(0, 14, "PRODUCT")]})]# 开始训练optimizer = nlp.begin_training()for epoch in range(10):    for text, annotations in TRAIN_DATA:        doc = nlp.make_doc(text)        example = Example.from_dict(doc, annotations)        nlp.update([example], sgd=optimizer)

总结：从教学到生产的完美一跃

spaCy将NLP从“实验室”带到了“生产线”。它用优雅的API、惊人的速度、工业级的准确性，让你能够专注于解决问题而不是处理基础设施。

今天你学会了：

spaCy的核心对象Doc、Token、Span
分词、词性标注、依存分析、NER
词向量与相似度计算
基于规则的匹配引擎
自定义管道和模型训练
从新闻中抽取人物-组织关系

spaCy不是终点，而是你构建真实NLP应用的起点。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

一天一个Python知识点——Day 162:spaCy基础

一、开篇：从教学到工业的跨越

二、安装与环境配置

2.1 安装spaCy

2.2 下载语言模型

2.3 验证安装

三、spaCy的核心数据结构

四、spaCy的核心功能

4.1 分词（Tokenization）

4.2 词性标注（POS Tagging）

4.3 依存句法分析（Dependency Parsing）

4.4 命名实体识别（NER）

4.5 词向量与语义相似度

4.6 规则匹配（Matcher）

4.7 自定义管道组件

五、实战项目：从新闻中提取人物-组织关系

5.1 核心逻辑

5.2 实现代码

5.3 改进方向

六、spaCy与NLTK的对比

七、spaCy的生态扩展

7.1 模型中心（spaCy Universe）

7.2 训练自定义模型

总结：从教学到生产的完美一跃

最新文章

热门文章

随机文章

一天一个Python知识点——Day 162:spaCy基础

一、开篇：从教学到工业的跨越

二、安装与环境配置

2.1 安装spaCy

2.2 下载语言模型

2.3 验证安装

三、spaCy的核心数据结构

四、spaCy的核心功能

4.1 分词（Tokenization）

4.2 词性标注（POS Tagging）

4.3 依存句法分析（Dependency Parsing）

4.4 命名实体识别（NER）

4.5 词向量与语义相似度

4.6 规则匹配（Matcher）

4.7 自定义管道组件

五、实战项目：从新闻中提取人物-组织关系

5.1 核心逻辑

5.2 实现代码

5.3 改进方向

六、spaCy与NLTK的对比

七、spaCy的生态扩展

7.1 模型中心（spaCy Universe）

7.2 训练自定义模型

总结：从教学到生产的完美一跃