当前位置：首页>python>一天一个Python知识点——Day 166:预训练时代的王者(BERT)

一天一个Python知识点——Day 166:预训练时代的王者(BERT)

2026-03-26 21:10:19

一、开篇：当Transformer学会了“预习”

昨天你学习了Transformer——这个让NLP世界天翻地覆的架构。但Transformer本身只是一个骨架，它需要被训练才能发挥作用。

2018年，Google发布了一篇论文 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，提出了BERT模型。它就像给Transformer请了一位“全能家教”，让它在海量文本上“预习”一遍，然后再去解决具体任务。

BERT的影响力：

在11项NLP任务上刷新纪录，轰动学术界和工业界
开启了NLP的 “预训练-微调” 时代
衍生出RoBERTa、ALBERT、DistilBERT等数百个变体
至今仍是许多任务的首选基线

BERT = Bidirectional Encoder Representations from Transformers
核心：双向 + Transformer编码器 + 预训练

二、BERT的核心思想：预训练 + 微调

2.1 传统方法的困境

在BERT之前，做NLP任务通常是这样的：

收集标注数据（比如情感分类需要几千条带标签的评论）
用这些数据训练一个模型
换个任务（比如命名实体识别），又得重新收集标注数据、重新训练

问题：标注数据昂贵，而且模型无法迁移知识。

2.2 BERT的解决方案：两阶段训练

第一阶段：预训练（Pre-training）
在大规模无标注文本（如维基百科、书籍）上训练BERT，让它学会理解语言。这个阶段是无监督的，数据几乎是无限的。

第二阶段：微调（Fine-tuning）
用少量标注数据，在预训练好的BERT基础上继续训练，让它适应具体任务（如情感分类、问答）。这个阶段很快，只需要很少的数据。

类比：

预训练：一个学生读了万卷书，掌握了语言的基本知识
微调：给他几道例题，他就能举一反三，解决类似问题

三、BERT的架构：深度双向Transformer编码器

BERT使用的是Transformer的编码器部分，而且是双向的。

3.1 双向的含义

在GPT等早期模型中，语言模型是单向的（只能从左到右看）。而BERT通过掩码语言模型实现了双向——每个词都能看到完整的上下文。

传统LM：  我 → 爱 → [MASK] → 然 → 语 → 言                              ↑                          只能看左边BERT：   我  爱  [MASK]  自  然  语  言            ↙   ↓   ↙   ↘   ↑   ↖            双向同时看到左右

3.2 模型规格

BERT有两个常用版本：

模型	层数（L）	隐藏层维度（H）	注意力头数（A）	参数量
BERT-base	12	768	12	110M
BERT-large	24	1024	16	340M

四、BERT的输入表示

BERT的输入不是单纯的词向量，而是一个精心设计的组合：

输入 = Token Embeddings + Segment Embeddings + Position Embeddings

4.1 Token Embeddings（词嵌入）

使用WordPiece分词，将词拆成子词。例如：

“playing” → [“play”, “##ing”]
特殊标记：[CLS]（分类标记）、[SEP]（分隔标记）

4.2 Segment Embeddings（句子嵌入）

用于区分两个句子（如问答中的问题和答案）。第一个句子所有token加 A 的嵌入，第二个句子加 B 的嵌入。

4.3 Position Embeddings（位置嵌入）

与Transformer不同，BERT使用可学习的位置嵌入，而非正弦/余弦。

输入表示示例：

句子： [CLS] I love NLP [SEP] It is fun [SEP]Token:  [CLS]  I  love  NLP  [SEP]  It  is  fun  [SEP]Seg A:   0    0    0    0     0     1   1    1     1Pos:     0    1    2    3     4     5   6    7     8

五、BERT的预训练任务

BERT在预训练阶段同时学习两个任务：

5.1 任务一：掩码语言模型（Masked LM，MLM）

动机：让模型真正理解上下文。

做法：

随机遮盖输入中15%的词
模型需要预测这些被遮盖的词

遮盖策略（对选中的15%）：

80%：替换为 [MASK] 标记
10%：替换为随机词（引入噪声，避免模型过度依赖 [MASK]）
10%：保持不变（让模型关注原始词）

为什么不全用 [MASK]？ 因为微调时没有 [MASK]，这样会让预训练和微调不匹配。

5.2 任务二：下一句预测（Next Sentence Prediction，NSP）

动机：让模型理解句子间的关系（对问答、推理等任务很重要）。

做法：

输入两个句子A和B
50%概率B是A的下一句（标签：IsNext）
50%概率B是随机句子（标签：NotNext）

输出：用 [CLS] 的表示做二分类。

注意：后续研究（如RoBERTa）发现NSP不是必需的，去掉后效果反而更好。

六、BERT的微调：适配下游任务

预训练好的BERT像一块万能积木，只需在顶层加一个简单的输出层，就可以适配各种任务。

6.1 句子对分类（如文本蕴含）

输入：[CLS] 句子A [SEP] 句子B [SEP]
输出：用 [CLS] 的表示接一个分类层。

6.2 单句分类（如情感分析）

输入：[CLS] 句子 [SEP]
输出：同样用 [CLS] 分类。

6.3 序列标注（如命名实体识别）

输入：句子
输出：每个位置的隐藏状态接分类层，预测每个词的标签。

6.4 问答系统（如SQuAD）

输入：问题 [SEP] 篇章
输出：预测答案在篇章中的起始位置和结束位置（两个分类层）。

七、实战：用HuggingFace微调BERT进行情感分析

我们将使用 transformers 库，在IMDB电影评论数据集上微调BERT。

7.1 安装与环境

pip install transformers datasets torch

7.2 加载数据和模型

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArgumentsfrom datasets import load_datasetimport torch# 1. 加载数据集（IMDB）dataset = load_dataset("imdb")print(dataset)# 2. 加载分词器tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")# 3. 数据预处理def tokenize_function(examples):    return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=256)tokenized_datasets = dataset.map(tokenize_function, batched=True)# 4. 划分训练集和验证集train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(2000))  # 用小样本演示eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(500))# 5. 加载预训练模型model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

7.3 训练参数设置

training_args = TrainingArguments(    output_dir="./results",          # 保存路径    evaluation_strategy="epoch",     # 每个epoch后评估    save_strategy="epoch",    learning_rate=2e-5,    per_device_train_batch_size=8,    per_device_eval_batch_size=8,    num_train_epochs=3,    weight_decay=0.01,    load_best_model_at_end=True,    metric_for_best_model="accuracy",)trainer = Trainer(    model=model,    args=training_args,    train_dataset=train_dataset,    eval_dataset=eval_dataset,    tokenizer=tokenizer,    compute_metrics=lambda p: {"accuracy": (p.predictions.argmax(-1) == p.label_ids).mean()},)

7.4 训练与评估

trainer.train()trainer.evaluate()

7.5 预测示例

def predict_sentiment(text):    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)    outputs = model(**inputs)    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)    pred = torch.argmax(probs, dim=-1).item()    return "positive" if pred == 1 else "negative", probs[0].tolist()text = "This movie was absolutely fantastic! I loved every minute."sentiment, prob = predict_sentiment(text)print(f"文本：{text}")print(f"情感：{sentiment}, 概率：{prob}")

总结：预训练时代的基石

BERT的出现，标志着NLP进入了“预训练-微调”时代。它用双向Transformer和大规模预训练，让模型真正学会了语言知识。今天，几乎所有NLP任务都可以在BERT的基础上快速达到高水平。

你学会了：

BERT的架构和输入表示
两个预训练任务：MLM和NSP
微调适配各种下游任务
用HuggingFace快速上手
BERT的变体和局限

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

4.2 Segment Embeddings（句子嵌入）

4.3 Position Embeddings（位置嵌入）

五、BERT的预训练任务

5.1 任务一：掩码语言模型（Masked LM，MLM）

5.2 任务二：下一句预测（Next Sentence Prediction，NSP）

六、BERT的微调：适配下游任务

6.1 句子对分类（如文本蕴含）

6.2 单句分类（如情感分析）

6.3 序列标注（如命名实体识别）

6.4 问答系统（如SQuAD）

七、实战：用HuggingFace微调BERT进行情感分析

7.1 安装与环境

7.2 加载数据和模型

7.3 训练参数设置

7.4 训练与评估

7.5 预测示例

总结：预训练时代的基石

一天一个Python知识点——Day 166:预训练时代的王者(BERT)

一、开篇：当Transformer学会了“预习”

二、BERT的核心思想：预训练 + 微调

2.1 传统方法的困境

2.2 BERT的解决方案：两阶段训练

三、BERT的架构：深度双向Transformer编码器

3.1 双向的含义

3.2 模型规格

四、BERT的输入表示

4.1 Token Embeddings（词嵌入）

最新文章

热门文章

随机文章

一天一个Python知识点——Day 166:预训练时代的王者(BERT)

一、开篇：当Transformer学会了“预习”

二、BERT的核心思想：预训练 + 微调

2.1 传统方法的困境

2.2 BERT的解决方案：两阶段训练

三、BERT的架构：深度双向Transformer编码器

3.1 双向的含义

3.2 模型规格

四、BERT的输入表示

4.1 Token Embeddings（词嵌入）

4.2 Segment Embeddings（句子嵌入）

4.3 Position Embeddings（位置嵌入）

五、BERT的预训练任务

5.1 任务一：掩码语言模型（Masked LM，MLM）

5.2 任务二：下一句预测（Next Sentence Prediction，NSP）

六、BERT的微调：适配下游任务

6.1 句子对分类（如文本蕴含）

6.2 单句分类（如情感分析）

6.3 序列标注（如命名实体识别）

6.4 问答系统（如SQuAD）

七、实战：用HuggingFace微调BERT进行情感分析

7.1 安装与环境

7.2 加载数据和模型

7.3 训练参数设置

7.4 训练与评估

7.5 预测示例

总结：预训练时代的基石

Python卡通风格套图(3):多模型对比验证与卡通风格混淆矩阵图

2026年,最新python语法路线图!

最新文章

热门文章

随机文章