当前位置：首页>python>【语料库】从零开始用 Python + AntConc 建一个小型英文新闻语料库(实操篇)

【语料库】从零开始用 Python + AntConc 建一个小型英文新闻语料库(实操篇)

2026-07-03 21:25:21

各位好~前三期我们从梳理了建库的全流程。这一期我们就来完整走一遍建库流程，帮助各位更好地理解全过程。基本思路为：用 Python 爬取英文新闻文章、清洗和编码数据、导入 AntConc 做检索。文章最后，我们照例会放上本次演示用到的代码、资料和网盘链接，需要的自取（有效期为30天，如有需要请及时保存）。

我们要建什么？

本期我们延续第二期的语料库设计思路，实际动手搭建其中一个子库：以 The Guardian 为数据源的气候变化英文新闻语料库。具体来说：

•

数据来源：The Guardian 官网（提供免费、开放的 API）

•

文章数量：50 篇

•

主题：climate change

•

最终产出：一套可以直接导入 AntConc 的纯文本文件 + 元数据汇总表

为什么选 The Guardian？因为它提供了 Open Platform API，无需爬取 HTML，也无需处理反爬虫。只要免费注册一个 API key，就能获取干净的文章正文，对初学者非常友好。

一、环境准备

1.1 安装 Python

如果你还没有 Python 环境，推荐安装 Anaconda，它自带了常用的数据处理库，至于anaconda怎么安装，参考我很早之前文章：。安装完成后，打开终端（Mac/Linux）或 Anaconda Prompt（Windows），确认 Python 已安装：

python --version

1.2 安装依赖库

代码只用到一个第三方库：requests（调用 Guardian API）。其他用到的 os、re、csv、time、sys 都是 Python 标准库，不需要安装。

如果你装的是完整版 Anaconda，requests 已经自带，可以跳过这一步。如果使用 Miniconda 或系统自带 Python，在终端执行：

pip install requests

1.3 获取 Guardian API Key

访问 https://open-platform.theguardian.com/access/

注册一个开发者账号（免费）

你会收到一个 API key【请妥善保管这个 key，任何平台的 key 都不要随意泄露，这是你专属的钥匙】，类似 xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

1.4 下载 AntConc

访问 https://www.laurenceanthony.net/software/antconc/，下载适合你操作系统的版本（免费）。

二、用 Python 采集数据

以下是完整的 Python 代码。新建一个文件叫 build_corpus.py，把下面的代码复制进去。

💡 说明：前两期提到过“元数据用标签嵌入文件”。但实际操作中，这种做法在不同版本的 AntConc 上表现不一致：AntConc 4.x 不再直接支持自定义标签隐藏，而 3.x 的标签隐藏机制也只适用于特定格式（成对的 <tag>content</tag>，或粘在词上的 word_NN）。对我们这种独立成行的元数据行而言，并不完全适用。

因此，这里我们采用更通用、跨版本、跨工具都兼容的方案：.txt 文件只存纯正文，所有元数据集中写入 metadata.csv。这样既解决了AntConc的版本差异问题，也符合 BNC、COCA 等大型语料库“文本与元数据分离”的做法。后续无论切换到 Sketch Engine、WordSmith，还是用Python做分析，都能直接使用。

💡

什么是 POS 标签格式？POS = Part-of-Speech，即“词性”。POS 标签（POS tag）是用简短的代码标注某个词所属词性的方式。

例如，把 "The cat sits on the mat." 做 POS 标注，结果会写成：

The_DT cat_NN sits_VBZ on_IN the_DT mat_NN ._.

每个词后面用下划线连接一个标签：

•

DT = determiner（限定词，如 the、a）

•

NN = noun singular（单数名词）

•

VBZ = verb 3rd person singular present（第三人称单数现在时动词）

•

IN = preposition（介词）

2.1 完整代码

import requests
import os
import re
import csv
import time
import sys

if hasattr(sys.stdout, "reconfigure"):
    sys.stdout.reconfigure(encoding="utf-8")

# 配置区域
API_KEY = "your-api-key-here"  # ← 替换为你自己的 key；想快速测试可直接用 "test"
SEARCH_QUERY = "climate change"
NUM_ARTICLES = 50
FROM_DATE = "2025-01-01"
TO_DATE = "2025-12-31"
OUTPUT_DIR = "climate_corpus"

# 如果换其他主题（比如搜索 "artificial intelligence"），记得把 SECTION 改成 None
SECTION = "environment"


# Step 1: 调用 API 获取文章
def fetch_articles(api_key, query, num, from_date, to_date, section=None, min_body_length=100):
    """从 Guardian API 获取 num 篇正文长度达标的文章"""
    articles = []
    page = 1
    # page-size 必须在整轮分页中保持常量，否则 Guardian 的 page 偏移会错位
    page_size = 50

    while len(articles) < num:
        url = "https://content.guardianapis.com/search"
        params = {
            "api-key": api_key,
            "q": query,
            "from-date": from_date,
            "to-date": to_date,
            "page": page,
            "page-size": page_size,
            "show-fields": "bodyText,wordcount,byline",  # 获取正文
            "order-by": "newest",
        }
        if section:
            params["section"] = section

        print(f"正在获取第 {page} 页...")
        try:
            response = requests.get(url, params=params, timeout=30)
            response.raise_for_status()
        except requests.exceptions.HTTPError as e:
            print(f"  ✗ HTTP 错误: {e}")
            print(f"    请检查 API key 是否正确，或是否达到速率限制")
            sys.exit(1)
        except requests.exceptions.RequestException as e:
            print(f"  ✗ 网络错误: {e}")
            sys.exit(1)

        data = response.json()
        resp = data.get("response", {})
        results = resp.get("results", [])
        if not results:
            print("  没有更多结果了")
            break

        # 边取边过滤：清洗后的正文挂回 article，main 里不用再清洗一次
        for result in results:
            body = clean_text(result.get("fields", {}).get("bodyText", ""))
            if len(body) < min_body_length:
                continue
            result["_cleaned_body"] = body
            articles.append(result)
            if len(articles) >= num:
                break

        total_pages = resp.get("pages", page)
        if page >= total_pages:
            print(f"  已到达最后一页（共 {total_pages} 页），实际达标 {len(articles)} 篇")
            break

        page += 1
        time.sleep(0.5)  

    return articles[:num]


# Step 2: 清洗文本
def clean_text(text):
    """清洗文章正文"""
    if not text:
        return ""
    # 去除 HTML 标签残留
    text = re.sub(r"<[^>]+>", "", text)
    # 去除多余空格和空行
    text = re.sub(r"\n{3,}", "\n\n", text)
    text = re.sub(r" {2,}", " ", text)
    return text.strip()


# Step 3: 生成文件名
def make_filename(index, article):
    """
    文件名格式：gdn_文本类型_年份_序号.txt
    例：gdn_article_2024_001.txt
    """
    pub_date = article.get("webPublicationDate", "")[:10]
    year = pub_date[:4] if pub_date else "unknown"
    article_type = article.get("type", "article")
    return f"gdn_{article_type}_{year}_{index + 1:03d}.txt"


# Step 4: 保存正文到 .txt
def save_article(filepath, body_text):
    """把纯正文写入 .txt 文件（元数据集中存到 metadata.csv）"""
    with open(filepath, "w", encoding="utf-8") as f:
        f.write(body_text)


# Step 5: 生成元数据汇总表
def save_metadata_csv(output_dir, saved_articles, filenames):
    """生成 CSV 格式的元数据汇总表"""
    csv_path = os.path.join(output_dir, "metadata.csv")
    with open(csv_path, "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerow([
            "filename", "source", "section", "type",
            "author", "date", "wordcount", "title", "url"
        ])
        for filename, article in zip(filenames, saved_articles):
            fields = article.get("fields", {})
            writer.writerow([
                filename,
                "The Guardian",
                article.get("sectionName", ""),
                article.get("type", ""),
                fields.get("byline", ""),
                article.get("webPublicationDate", "")[:10],
                fields.get("wordcount", ""),
                article.get("webTitle", ""),
                article.get("webUrl", ""),
            ])
    print(f"\n元数据汇总表已保存至: {csv_path}")


# 主流程 
def main():
    os.makedirs(OUTPUT_DIR, exist_ok=True)

    # Step 1: 获取文章
    print(f"\n=== 开始从 Guardian API 获取 {NUM_ARTICLES} 篇文章 ===")
    articles = fetch_articles(API_KEY, SEARCH_QUERY, NUM_ARTICLES,
                              FROM_DATE, TO_DATE, SECTION)
    print(f"实际获取: {len(articles)} 篇")

    # Step 2-4: 命名、保存（清洗和长度过滤已在fetch_articles里完成）
    filenames = []
    saved_articles = []
    for article in articles:
        body = article["_cleaned_body"]
        filename = make_filename(len(saved_articles), article)
        filepath = os.path.join(OUTPUT_DIR, filename)
        save_article(filepath, body)
        filenames.append(filename)
        saved_articles.append(article)
        wc = article.get("fields", {}).get("wordcount", "?")
        print(f"  ✓ 已保存: {filename} ({wc} 词)")

    # Step 5: 生成元数据汇总表
    save_metadata_csv(OUTPUT_DIR, saved_articles, filenames)

    print(f"\n=== 完成! ===")
    print(f"共保存 {len(saved_articles)} 篇文章至 {OUTPUT_DIR}/")
    print(f"元数据表: {OUTPUT_DIR}/metadata.csv")
    print(f"\n下一步: 在 AntConc 中打开 {OUTPUT_DIR}/ 文件夹开始检索！")


if __name__ == "__main__":
    main()

2.2 运行代码

在终端中执行：

python build_corpus.py

如果一切顺利，你会看到类似这样的输出：

=== 开始从 Guardian API 获取 50 篇文章 ===
正在获取第 1 页...
实际获取: 50 篇
  ✓ 已保存: gdn_article_2025_001.txt (1245 词)
  ✓ 已保存: gdn_article_2025_002.txt (890 词)
  ...

=== 完成! ===
共保存 50 篇文章至 climate_corpus/
元数据表: climate_corpus/metadata.csv

2.3 检查产出

运行完成后，你的 climate_corpus/ 文件夹应该长这样：

climate_corpus/
├── gdn_article_2024_001.txt
├── gdn_article_2024_002.txt
├── gdn_article_2024_003.txt
├── ...
├── gdn_article_2023_048.txt
└── metadata.csv

随便打开一个 .txt 文件，里面是纯净的正文，没有任何标签：

This year marks the 10th anniversary of the Paris agreement.
It is also a decade since another key moment in climate justice, 
when a state ......

所有元信息（媒体、作者、日期、URL 等）集中存在 metadata.csv 里，用 Excel 打开就能一目了然地检视整个语料库的组成。

三、代码逻辑解读

如果你不熟悉 Python，这里简单说明一下代码的核心逻辑。整个脚本分为五步，对应建库的五个环节：

Step 1：调用 API 获取文章：fetch_articles() 函数向 Guardian 的搜索接口发送请求，按关键词、日期范围和版块筛选文章。关键参数 show-fields=bodyText 会让 API 返回文章正文，因此无需先爬取 HTML 再清洗。

Step 2：清洗文本：clean_text() 函数用正则表达式去除可能残留的 HTML 标签，并清理多余的空行和空格。虽然 API 返回的 bodyText 已经较干净，但再清洗一次更稳妥。

Step 3：生成文件名：make_filename() 函数按“媒体缩写_文本类型_年份_序号”的格式命名，与第二期讲的编码规则一致。

Step 4：写入文件：save_article() 函数把纯正文写入 .txt 文件。这里没有把元数据嵌入正文，是因为新版 AntConc 不再支持自动隐藏自定义标签。元数据统一汇总到 CSV，文本与元信息各归各位。

Step 5：元数据汇总表：save_metadata_csv() 函数生成 CSV 文件，记录每篇文章的元信息，便于整体检视语料库的组成。关键细节是：主流程使用 saved_articles 列表同步追踪实际保存的文章，这样即使中途跳过了过短文章，CSV 中的文件名与元数据也能保持一一对应。

四、导入 AntConc 并做第一次检索

以下步骤基于Windows系统的 AntConc 4.3.1展开演示操作。如果你用的是旧版 3.5.x，菜单位置略有不同，但功能相通。（如果你想了解更多 AntConc 菜单内容，请参阅：【语料库】语料库分析工具Antconc基础教程（一）【语料库】语料库分析工具Antconc基础教程（二））

4.1 打开语料库文件

最简单的方式是用 Quick Corpus（快速语料库）功能，不用设置以后可复用的语料库档案，直接读取文件夹：

打开 AntConc

点击 File → Open File(s) as Quick Corpus…

进入 climate_corpus/ 文件夹，选中所有 .txt 文件（Ctrl+A / Cmd+A），点击打开

左侧 Target Corpus 面板会显示已加载的文件列表

如果希望建立正式的语料库以便下次直接调用，也可以用 File → Open Corpus Manager → Create Corpus，在 Corpus Manager 中载入同一个文件夹。步骤稍多，但以后再用这个语料库只需从列表选中即可。

4.2 关于元数据标签的说明

由于我们在代码里特意把元数据写到了单独的 CSV 里，.txt 里只有纯正文，不需要在 AntConc 里做任何"隐藏标签"的额外配置。这也规避了 AntConc 4.x 不再直接支持自定义尖括号标签的问题。

如果后续想根据年份、作者、主题筛选子语料库，可以用以下两种策略：

•

做法一：在 Exce 打开 metadata.csv，筛选出符合条件的 filename 列，然后把这些文件复制到新文件夹再导入 AntConc。

•

做法二：修改 Python 代码，在 save_article() 中按子类别把文件写到不同子目录（比如 climate_corpus/2025/ ），在 AntConc 中就可以按子目录分别加载。

4.3 试着做几个检索

现在来验证一下你的语料库是否可用。AntConc 4 的工具标签在右侧顶部：KWIC、Plot、File View、Cluster、N-Gram、Collocate、Word、Keyword等等。

检索一：简单词频

切换到 Word 页，点击 Start。你会看到语料库中所有词的频率排序。

检索二：关键词在上下文中的使用

切换到 KWIC 页（老版叫 Concordance），在搜索框输入 fossil fuels，点击 Start。你会看到这个词组在所有文章中的使用情境。

检索三：词汇搭配

切换到 Collocate 页，输入 climate，设置窗口范围为 L5/R5（左右 5 个词），点击 Start。你会看到与 climate 最常共现的词。

检索四：N-gram 分析

切换到 N-Gram 页，设置 N-Gram size 为 3，最小频率 5，点击 Start。你可以看到语料库中最常见的三词组合。

五、常见问题与注意事项

Q1: 想先测试代码能不能跑通，但还没有自己的 API key 怎么办？

可以直接把代码里的 API_KEY 改成 "test"。这是 Guardian 官方提供的公共测试 key，能返回完整数据（包括 bodyText），但有频率限制。官方注册 key 的审批一般很快，正式采集请用自己注册的免费 key。

Q2: 想采集其他媒体怎么办？

如果目标媒体没有开放 API（多数媒体都没有开放 API），就需要用网页爬取的方式，使用 requests + BeautifulSoup 从 HTML 中提取正文。这会更复杂一些，也需要注意网站的 robots.txt 和使用条款。另一个选择是使用 Sketch Engine 的 WebBootCaT 功能，它可以自动爬取网页并构建语料库，适合不想写代码的同学。或者直接使用现成的工具，例如一些常见的媒体数据库：比如LexisNexis / Nexis Uni、Factiva、ProQuest Central / ProQuest Newsstream 等等~

Q3: 编码问题（乱码）怎么解决？

确保所有文件都以 UTF-8 编码保存。我们的代码中已经指定了 encoding="utf-8"。在 AntConc 中，确保编码设置也是 UTF-8（Global Settings → Character Encoding）。

Q4: 想扩大语料库规模怎么办？

修改代码中的 NUM_ARTICLES 参数即可。Guardian API 免费版的日请求限额是 5,000 次，足够采集几千篇文章。如果需要更大规模，可以分多次运行，每次调整日期范围。

Q5: 版权问题如何？

Guardian 的 Open Platform 允许将数据用于非商业研究目的，但不允许批量重新发布文章原文。如果你的语料库用于个人研究、学位论文或课堂教学，一般问题不大。但如果你想公开分发语料库，只能分发 URL 列表或检索接口，不能分发原文。

结语结语

今天我们完整走完了一个从零到一的建库流程。当然，在实际研究中，你可能需要采集更多媒体、更大规模的数据，并设计更复杂的分类体系，但核心流程和基本原则是一致的。希望这个系列能对你有所帮助。下期我们更新点别的。

如果本文对你有所帮助，欢迎点赞、转发、收藏、关注~如果本文对你的研究有所启发，也欢迎适当给予一些支持，这对本公众号的可持续发展很重要~

🤖

通过网盘分享的文件：2026-04-23 链接: https://pan.baidu.com/s/13EC5ubpeaCxJw2GFrrJ1Ww?pwd=26vi 提取码: 26vi --来自百度网盘超级会员v7的分享

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【语料库】从零开始用 Python + AntConc 建一个小型英文新闻语料库(实操篇)

我们要建什么？

一、环境准备

1.1 安装 Python

1.2 安装依赖库

1.3 获取 Guardian API Key

1.4 下载 AntConc

二、用 Python 采集数据

2.1 完整代码

2.2 运行代码

2.3 检查产出

三、代码逻辑解读

四、导入 AntConc 并做第一次检索

4.1 打开语料库文件

4.2 关于元数据标签的说明

4.3 试着做几个检索

五、常见问题与注意事项

Q1: 想先测试代码能不能跑通，但还没有自己的 API key 怎么办？

Q2: 想采集其他媒体怎么办？

Q3: 编码问题（乱码）怎么解决？

Q4: 想扩大语料库规模怎么办？

Q5: 版权问题如何？

结语结语

最新文章

热门文章

随机文章

【语料库】从零开始用 Python + AntConc 建一个小型英文新闻语料库(实操篇)

我们要建什么？

一、环境准备

1.1 安装 Python

1.2 安装依赖库

1.3 获取 Guardian API Key

1.4 下载 AntConc

二、用 Python 采集数据

2.1 完整代码

2.2 运行代码

2.3 检查产出

三、代码逻辑解读

四、导入 AntConc 并做第一次检索

4.1 打开语料库文件

4.2 关于元数据标签的说明

4.3 试着做几个检索

五、常见问题与注意事项

Q1: 想先测试代码能不能跑通，但还没有自己的 API key 怎么办？

Q2: 想采集其他媒体怎么办？

Q3: 编码问题（乱码）怎么解决？

Q4: 想扩大语料库规模怎么办？

Q5: 版权问题如何？

结语结语

学Python4️⃣3️⃣ list ( 方括号 [ ] )

Python 3.6.6 软件下载及安装教程(附全部版本安装包)

最新文章

热门文章

随机文章