
各位好~前三期我们从梳理了建库的全流程。这一期我们就来完整走一遍建库流程,帮助各位更好地理解全过程。基本思路为:用 Python 爬取英文新闻文章、清洗和编码数据、导入 AntConc 做检索。文章最后,我们照例会放上本次演示用到的代码、资料和网盘链接,需要的自取(有效期为30天,如有需要请及时保存)。
相关文章链接:
本期我们延续第二期的语料库设计思路,实际动手搭建其中一个子库:以 The Guardian 为数据源的气候变化英文新闻语料库。具体来说:
•
数据来源:The Guardian 官网(提供免费、开放的 API)
•
文章数量:50 篇
•
主题:climate change
•
最终产出:一套可以直接导入 AntConc 的纯文本文件 + 元数据汇总表
为什么选 The Guardian?因为它提供了 Open Platform API,无需爬取 HTML,也无需处理反爬虫。只要免费注册一个 API key,就能获取干净的文章正文,对初学者非常友好。
如果你还没有 Python 环境,推荐安装 Anaconda,它自带了常用的数据处理库,至于anaconda怎么安装,参考我很早之前文章:。安装完成后,打开终端(Mac/Linux)或 Anaconda Prompt(Windows),确认 Python 已安装:
python --version
代码只用到一个第三方库:requests(调用 Guardian API)。其他用到的 os、re、csv、time、sys 都是 Python 标准库,不需要安装。
如果你装的是完整版 Anaconda,requests 已经自带,可以跳过这一步。如果使用 Miniconda 或系统自带 Python,在终端执行:
pip install requests
1.
访问 https://open-platform.theguardian.com/access/
2.
注册一个开发者账号(免费)
3.
你会收到一个 API key【请妥善保管这个 key,任何平台的 key 都不要随意泄露,这是你专属的钥匙】,类似 xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

访问 https://www.laurenceanthony.net/software/antconc/,下载适合你操作系统的版本(免费)。
以下是完整的 Python 代码。新建一个文件叫 build_corpus.py,把下面的代码复制进去。
💡 说明:前两期提到过“元数据用标签嵌入文件”。但实际操作中,这种做法在不同版本的 AntConc 上表现不一致:AntConc 4.x 不再直接支持自定义标签隐藏,而 3.x 的标签隐藏机制也只适用于特定格式(成对的 <tag>content</tag>,或粘在词上的 word_NN)。对我们这种独立成行的元数据行而言,并不完全适用。
因此,这里我们采用更通用、跨版本、跨工具都兼容的方案:.txt 文件只存纯正文,所有元数据集中写入 metadata.csv。这样既解决了AntConc的版本差异问题,也符合 BNC、COCA 等大型语料库“文本与元数据分离”的做法。后续无论切换到 Sketch Engine、WordSmith,还是用Python做分析,都能直接使用。
什么是 POS 标签格式?POS = Part-of-Speech,即“词性”。POS 标签(POS tag)是用简短的代码标注某个词所属词性的方式。
例如,把 "The cat sits on the mat." 做 POS 标注,结果会写成:
The_DT cat_NN sits_VBZ on_IN the_DT mat_NN ._.
每个词后面用下划线连接一个标签:
•
DT = determiner(限定词,如 the、a)
•
NN = noun singular(单数名词)
•
VBZ = verb 3rd person singular present(第三人称单数现在时动词)
•
IN = preposition(介词)
import requests
import os
import re
import csv
import time
import sys
if hasattr(sys.stdout, "reconfigure"):
sys.stdout.reconfigure(encoding="utf-8")
# 配置区域
API_KEY = "your-api-key-here" # ← 替换为你自己的 key;想快速测试可直接用 "test"
SEARCH_QUERY = "climate change"
NUM_ARTICLES = 50
FROM_DATE = "2025-01-01"
TO_DATE = "2025-12-31"
OUTPUT_DIR = "climate_corpus"
# 如果换其他主题(比如搜索 "artificial intelligence"),记得把 SECTION 改成 None
SECTION = "environment"
# Step 1: 调用 API 获取文章
def fetch_articles(api_key, query, num, from_date, to_date, section=None, min_body_length=100):
"""从 Guardian API 获取 num 篇正文长度达标的文章"""
articles = []
page = 1
# page-size 必须在整轮分页中保持常量,否则 Guardian 的 page 偏移会错位
page_size = 50
while len(articles) < num:
url = "https://content.guardianapis.com/search"
params = {
"api-key": api_key,
"q": query,
"from-date": from_date,
"to-date": to_date,
"page": page,
"page-size": page_size,
"show-fields": "bodyText,wordcount,byline", # 获取正文
"order-by": "newest",
}
if section:
params["section"] = section
print(f"正在获取第 {page} 页...")
try:
response = requests.get(url, params=params, timeout=30)
response.raise_for_status()
except requests.exceptions.HTTPError as e:
print(f" ✗ HTTP 错误: {e}")
print(f" 请检查 API key 是否正确,或是否达到速率限制")
sys.exit(1)
except requests.exceptions.RequestException as e:
print(f" ✗ 网络错误: {e}")
sys.exit(1)
data = response.json()
resp = data.get("response", {})
results = resp.get("results", [])
if not results:
print(" 没有更多结果了")
break
# 边取边过滤:清洗后的正文挂回 article,main 里不用再清洗一次
for result in results:
body = clean_text(result.get("fields", {}).get("bodyText", ""))
if len(body) < min_body_length:
continue
result["_cleaned_body"] = body
articles.append(result)
if len(articles) >= num:
break
total_pages = resp.get("pages", page)
if page >= total_pages:
print(f" 已到达最后一页(共 {total_pages} 页),实际达标 {len(articles)} 篇")
break
page += 1
time.sleep(0.5)
return articles[:num]
# Step 2: 清洗文本
def clean_text(text):
"""清洗文章正文"""
if not text:
return ""
# 去除 HTML 标签残留
text = re.sub(r"<[^>]+>", "", text)
# 去除多余空格和空行
text = re.sub(r"\n{3,}", "\n\n", text)
text = re.sub(r" {2,}", " ", text)
return text.strip()
# Step 3: 生成文件名
def make_filename(index, article):
"""
文件名格式:gdn_文本类型_年份_序号.txt
例:gdn_article_2024_001.txt
"""
pub_date = article.get("webPublicationDate", "")[:10]
year = pub_date[:4] if pub_date else "unknown"
article_type = article.get("type", "article")
return f"gdn_{article_type}_{year}_{index + 1:03d}.txt"
# Step 4: 保存正文到 .txt
def save_article(filepath, body_text):
"""把纯正文写入 .txt 文件(元数据集中存到 metadata.csv)"""
with open(filepath, "w", encoding="utf-8") as f:
f.write(body_text)
# Step 5: 生成元数据汇总表
def save_metadata_csv(output_dir, saved_articles, filenames):
"""生成 CSV 格式的元数据汇总表"""
csv_path = os.path.join(output_dir, "metadata.csv")
with open(csv_path, "w", newline="", encoding="utf-8") as f:
writer = csv.writer(f)
writer.writerow([
"filename", "source", "section", "type",
"author", "date", "wordcount", "title", "url"
])
for filename, article in zip(filenames, saved_articles):
fields = article.get("fields", {})
writer.writerow([
filename,
"The Guardian",
article.get("sectionName", ""),
article.get("type", ""),
fields.get("byline", ""),
article.get("webPublicationDate", "")[:10],
fields.get("wordcount", ""),
article.get("webTitle", ""),
article.get("webUrl", ""),
])
print(f"\n元数据汇总表已保存至: {csv_path}")
# 主流程
def main():
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Step 1: 获取文章
print(f"\n=== 开始从 Guardian API 获取 {NUM_ARTICLES} 篇文章 ===")
articles = fetch_articles(API_KEY, SEARCH_QUERY, NUM_ARTICLES,
FROM_DATE, TO_DATE, SECTION)
print(f"实际获取: {len(articles)} 篇")
# Step 2-4: 命名、保存(清洗和长度过滤已在fetch_articles里完成)
filenames = []
saved_articles = []
for article in articles:
body = article["_cleaned_body"]
filename = make_filename(len(saved_articles), article)
filepath = os.path.join(OUTPUT_DIR, filename)
save_article(filepath, body)
filenames.append(filename)
saved_articles.append(article)
wc = article.get("fields", {}).get("wordcount", "?")
print(f" ✓ 已保存: {filename} ({wc} 词)")
# Step 5: 生成元数据汇总表
save_metadata_csv(OUTPUT_DIR, saved_articles, filenames)
print(f"\n=== 完成! ===")
print(f"共保存 {len(saved_articles)} 篇文章至 {OUTPUT_DIR}/")
print(f"元数据表: {OUTPUT_DIR}/metadata.csv")
print(f"\n下一步: 在 AntConc 中打开 {OUTPUT_DIR}/ 文件夹开始检索!")
if __name__ == "__main__":
main()
在终端中执行:
python build_corpus.py
如果一切顺利,你会看到类似这样的输出:
=== 开始从 Guardian API 获取 50 篇文章 ===
正在获取第 1 页...
实际获取: 50 篇
✓ 已保存: gdn_article_2025_001.txt (1245 词)
✓ 已保存: gdn_article_2025_002.txt (890 词)
...
=== 完成! ===
共保存 50 篇文章至 climate_corpus/
元数据表: climate_corpus/metadata.csv运行完成后,你的 climate_corpus/ 文件夹应该长这样:
climate_corpus/
├── gdn_article_2024_001.txt
├── gdn_article_2024_002.txt
├── gdn_article_2024_003.txt
├── ...
├── gdn_article_2023_048.txt
└── metadata.csv随便打开一个 .txt 文件,里面是纯净的正文,没有任何标签:
This year marks the 10th anniversary of the Paris agreement.
It is also a decade since another key moment in climate justice,
when a state ......所有元信息(媒体、作者、日期、URL 等)集中存在 metadata.csv 里,用 Excel 打开就能一目了然地检视整个语料库的组成。

如果你不熟悉 Python,这里简单说明一下代码的核心逻辑。整个脚本分为五步,对应建库的五个环节:
Step 1:调用 API 获取文章:fetch_articles() 函数向 Guardian 的搜索接口发送请求,按关键词、日期范围和版块筛选文章。关键参数 show-fields=bodyText 会让 API 返回文章正文,因此无需先爬取 HTML 再清洗。
Step 2:清洗文本:clean_text() 函数用正则表达式去除可能残留的 HTML 标签,并清理多余的空行和空格。虽然 API 返回的 bodyText 已经较干净,但再清洗一次更稳妥。
Step 3:生成文件名:make_filename() 函数按“媒体缩写_文本类型_年份_序号”的格式命名,与第二期讲的编码规则一致。
Step 4:写入文件:save_article() 函数把纯正文写入 .txt 文件。这里没有把元数据嵌入正文,是因为新版 AntConc 不再支持自动隐藏自定义标签。元数据统一汇总到 CSV,文本与元信息各归各位。
Step 5:元数据汇总表:save_metadata_csv() 函数生成 CSV 文件,记录每篇文章的元信息,便于整体检视语料库的组成。关键细节是:主流程使用 saved_articles 列表同步追踪实际保存的文章,这样即使中途跳过了过短文章,CSV 中的文件名与元数据也能保持一一对应。
以下步骤基于Windows系统的 AntConc 4.3.1展开演示操作。如果你用的是旧版 3.5.x,菜单位置略有不同,但功能相通。(如果你想了解更多 AntConc 菜单内容,请参阅:【语料库】语料库分析工具Antconc基础教程(一)【语料库】语料库分析工具Antconc基础教程(二))
最简单的方式是用 Quick Corpus(快速语料库)功能,不用设置以后可复用的语料库档案,直接读取文件夹:
1.
打开 AntConc
2.
点击 File → Open File(s) as Quick Corpus…
3.
进入 climate_corpus/ 文件夹,选中所有 .txt 文件(Ctrl+A / Cmd+A),点击打开
4.
左侧 Target Corpus 面板会显示已加载的文件列表
如果希望建立正式的语料库以便下次直接调用,也可以用 File → Open Corpus Manager → Create Corpus,在 Corpus Manager 中载入同一个文件夹。步骤稍多,但以后再用这个语料库只需从列表选中即可。
由于我们在代码里特意把元数据写到了单独的 CSV 里,.txt 里只有纯正文,不需要在 AntConc 里做任何"隐藏标签"的额外配置。这也规避了 AntConc 4.x 不再直接支持自定义尖括号标签的问题。
如果后续想根据年份、作者、主题筛选子语料库,可以用以下两种策略:
•
做法一:在 Exce 打开 metadata.csv,筛选出符合条件的 filename 列,然后把这些文件复制到新文件夹再导入 AntConc。
•
做法二:修改 Python 代码,在 save_article() 中按子类别把文件写到不同子目录(比如 climate_corpus/2025/ ),在 AntConc 中就可以按子目录分别加载。
现在来验证一下你的语料库是否可用。AntConc 4 的工具标签在右侧顶部:KWIC、Plot、File View、Cluster、N-Gram、Collocate、Word、Keyword等等。
检索一:简单词频
切换到 Word 页,点击 Start。你会看到语料库中所有词的频率排序。

检索二:关键词在上下文中的使用
切换到 KWIC 页(老版叫 Concordance),在搜索框输入 fossil fuels,点击 Start。你会看到这个词组在所有文章中的使用情境。

检索三:词汇搭配
切换到 Collocate 页,输入 climate,设置窗口范围为 L5/R5(左右 5 个词),点击 Start。你会看到与 climate 最常共现的词。

检索四:N-gram 分析
切换到 N-Gram 页,设置 N-Gram size 为 3,最小频率 5,点击 Start。你可以看到语料库中最常见的三词组合。

可以直接把代码里的 API_KEY 改成 "test"。这是 Guardian 官方提供的公共测试 key,能返回完整数据(包括 bodyText),但有频率限制。官方注册 key 的审批一般很快,正式采集请用自己注册的免费 key。
如果目标媒体没有开放 API(多数媒体都没有开放 API),就需要用网页爬取的方式,使用 requests + BeautifulSoup 从 HTML 中提取正文。这会更复杂一些,也需要注意网站的 robots.txt 和使用条款。另一个选择是使用 Sketch Engine 的 WebBootCaT 功能,它可以自动爬取网页并构建语料库,适合不想写代码的同学。或者直接使用现成的工具,例如一些常见的媒体数据库:比如LexisNexis / Nexis Uni、Factiva、ProQuest Central / ProQuest Newsstream 等等~
确保所有文件都以 UTF-8 编码保存。我们的代码中已经指定了 encoding="utf-8"。在 AntConc 中,确保编码设置也是 UTF-8(Global Settings → Character Encoding)。
修改代码中的 NUM_ARTICLES 参数即可。Guardian API 免费版的日请求限额是 5,000 次,足够采集几千篇文章。如果需要更大规模,可以分多次运行,每次调整日期范围。
Guardian 的 Open Platform 允许将数据用于非商业研究目的,但不允许批量重新发布文章原文。如果你的语料库用于个人研究、学位论文或课堂教学,一般问题不大。但如果你想公开分发语料库,只能分发 URL 列表或检索接口,不能分发原文。
今天我们完整走完了一个从零到一的建库流程。当然,在实际研究中,你可能需要采集更多媒体、更大规模的数据,并设计更复杂的分类体系,但核心流程和基本原则是一致的。希望这个系列能对你有所帮助。下期我们更新点别的。
如果本文对你有所帮助,欢迎点赞、转发、收藏、关注~如果本文对你的研究有所启发,也欢迎适当给予一些支持,这对本公众号的可持续发展很重要~
通过网盘分享的文件:2026-04-23 链接: https://pan.baidu.com/s/13EC5ubpeaCxJw2GFrrJ1Ww?pwd=26vi 提取码: 26vi --来自百度网盘超级会员v7的分享