昨天你学习了Transformer——这个让NLP世界天翻地覆的架构。但Transformer本身只是一个骨架,它需要被训练才能发挥作用。
2018年,Google发布了一篇论文 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,提出了BERT模型。它就像给Transformer请了一位“全能家教”,让它在海量文本上“预习”一遍,然后再去解决具体任务。
BERT的影响力:
在11项NLP任务上刷新纪录,轰动学术界和工业界
开启了NLP的 “预训练-微调” 时代
衍生出RoBERTa、ALBERT、DistilBERT等数百个变体
至今仍是许多任务的首选基线
BERT = Bidirectional Encoder Representations from Transformers
核心:双向 + Transformer编码器 + 预训练
在BERT之前,做NLP任务通常是这样的:
收集标注数据(比如情感分类需要几千条带标签的评论)
用这些数据训练一个模型
换个任务(比如命名实体识别),又得重新收集标注数据、重新训练
问题:标注数据昂贵,而且模型无法迁移知识。
第一阶段:预训练(Pre-training)
在大规模无标注文本(如维基百科、书籍)上训练BERT,让它学会理解语言。这个阶段是无监督的,数据几乎是无限的。
第二阶段:微调(Fine-tuning)
用少量标注数据,在预训练好的BERT基础上继续训练,让它适应具体任务(如情感分类、问答)。这个阶段很快,只需要很少的数据。
类比:
预训练:一个学生读了万卷书,掌握了语言的基本知识
微调:给他几道例题,他就能举一反三,解决类似问题
BERT使用的是Transformer的编码器部分,而且是双向的。
在GPT等早期模型中,语言模型是单向的(只能从左到右看)。而BERT通过掩码语言模型实现了双向——每个词都能看到完整的上下文。
传统LM: 我 → 爱 → [MASK] → 然 → 语 → 言↑只能看左边BERT: 我 爱 [MASK] 自 然 语 言↙ ↓ ↙ ↘ ↑ ↖双向同时看到左右
BERT有两个常用版本:
BERT的输入不是单纯的词向量,而是一个精心设计的组合:
输入 = Token Embeddings + Segment Embeddings + Position Embeddings使用WordPiece分词,将词拆成子词。例如:
“playing” → [“play”, “##ing”]
特殊标记:[CLS](分类标记)、[SEP](分隔标记)
用于区分两个句子(如问答中的问题和答案)。第一个句子所有token加 A 的嵌入,第二个句子加 B 的嵌入。
与Transformer不同,BERT使用可学习的位置嵌入,而非正弦/余弦。
输入表示示例:
句子: [CLS] I love NLP [SEP] It is fun [SEP]Token: [CLS] I love NLP [SEP] It is fun [SEP]Seg A: 0 0 0 0 0 1 1 1 1Pos: 0 1 2 3 4 5 6 7 8
BERT在预训练阶段同时学习两个任务:
动机:让模型真正理解上下文。
做法:
随机遮盖输入中15%的词
模型需要预测这些被遮盖的词
遮盖策略(对选中的15%):
80%:替换为 [MASK] 标记
10%:替换为随机词(引入噪声,避免模型过度依赖 [MASK])
10%:保持不变(让模型关注原始词)
为什么不全用 [MASK]? 因为微调时没有 [MASK],这样会让预训练和微调不匹配。
动机:让模型理解句子间的关系(对问答、推理等任务很重要)。
做法:
输入两个句子A和B
50%概率B是A的下一句(标签:IsNext)
50%概率B是随机句子(标签:NotNext)
输出:用 [CLS] 的表示做二分类。
注意:后续研究(如RoBERTa)发现NSP不是必需的,去掉后效果反而更好。
预训练好的BERT像一块万能积木,只需在顶层加一个简单的输出层,就可以适配各种任务。
输入:[CLS] 句子A [SEP] 句子B [SEP]
输出:用 [CLS] 的表示接一个分类层。
输入:[CLS] 句子 [SEP]
输出:同样用 [CLS] 分类。
输入:句子
输出:每个位置的隐藏状态接分类层,预测每个词的标签。
输入:问题 [SEP] 篇章
输出:预测答案在篇章中的起始位置和结束位置(两个分类层)。
我们将使用 transformers 库,在IMDB电影评论数据集上微调BERT。
pip install transformers datasets torchfrom transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArgumentsfrom datasets import load_datasetimport torch# 1. 加载数据集(IMDB)dataset = load_dataset("imdb")print(dataset)# 2. 加载分词器tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")# 3. 数据预处理def tokenize_function(examples):return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=256)tokenized_datasets = dataset.map(tokenize_function, batched=True)# 4. 划分训练集和验证集train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(2000)) # 用小样本演示eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(500))# 5. 加载预训练模型model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)
training_args = TrainingArguments(output_dir="./results", # 保存路径evaluation_strategy="epoch", # 每个epoch后评估save_strategy="epoch",learning_rate=2e-5,per_device_train_batch_size=8,per_device_eval_batch_size=8,num_train_epochs=3,weight_decay=0.01,load_best_model_at_end=True,metric_for_best_model="accuracy",)trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset,eval_dataset=eval_dataset,tokenizer=tokenizer,compute_metrics=lambda p: {"accuracy": (p.predictions.argmax(-1) == p.label_ids).mean()},)
trainer.train()trainer.evaluate()
def predict_sentiment(text):inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)outputs = model(**inputs)probs = torch.nn.functional.softmax(outputs.logits, dim=-1)pred = torch.argmax(probs, dim=-1).item()return "positive" if pred == 1 else "negative", probs[0].tolist()text = "This movie was absolutely fantastic! I loved every minute."sentiment, prob = predict_sentiment(text)print(f"文本:{text}")print(f"情感:{sentiment}, 概率:{prob}")
BERT的出现,标志着NLP进入了“预训练-微调”时代。它用双向Transformer和大规模预训练,让模型真正学会了语言知识。今天,几乎所有NLP任务都可以在BERT的基础上快速达到高水平。
你学会了:
BERT的架构和输入表示
两个预训练任务:MLM和NSP
微调适配各种下游任务
用HuggingFace快速上手
BERT的变体和局限