预训练语言模型:BERT到ALBERT全解析
预训练语言模型概述
预训练语言模型(Pre-trained Language Models, PLMs)通过大规模无监督学习捕捉语言的通用表征,为下游任务提供强大的基础。Encoder-only架构专注于双向上下文编码,典型代表包括BERT、RoBERTa和ALBERT。这类模型通过掩码语言建模(Masked Language Modeling, MLM)等任务预训练,擅长理解任务而非生成任务。
BERT:双向编码的里程碑
核心架构
BERT基于Transformer的Encoder堆叠,采用双向注意力机制。其输入层融合词嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),支持处理句子对任务。
预训练任务
- MLM任务:随机遮蔽15%的输入词,预测被遮蔽词,允许模型捕获上下文双向依赖。
- NSP任务(Next Sentence Prediction):判断两句子是否连续,提升段落级理解能力。
数学形式
MLM的损失函数为交叉熵:
[
\mathcal{L}{\text{MLM}} = -\sum{i \in \text{masked}} \log P(w_i | \text{context})
]
局限
静态遮蔽策略导致预训练效率低,NSP任务对部分下游任务贡献有限。
RoBERTa:BERT的优化版本
改进点
- 动态遮蔽:训练时重复遮蔽同一文本的不同位置,提升数据利用率。
- 移除NSP任务:实验证明单独训练MLM效果更佳。
- 更大批次与数据:使用160GB文本(远超BERT的16GB),批次增大至8k,训练步数延长。
训练细节
采用字节对编码(Byte-Pair Encoding, BPE)处理文本,支持更大词表(50k)。学习率预热阶段调整为30k步,优化器使用AdamW。
性能对比
在GLUE基准上,RoBERTa-large比BERT-large平均提升2-3个点,尤其在阅读理解任务(如SQuAD)中优势显著。
ALBERT:轻量化与参数共享
设计目标
解决BERT参数量大导致的训练成本问题,通过以下创新降低资源消耗:
关键技术
- 因子化嵌入参数:将词表嵌入矩阵分解为小维度矩阵(如V×E和E×H,E?H),减少参数量。
- 跨层参数共享:所有Transformer层共享权重,显著压缩模型体积。
- 句序预测(SOP):替代NSP任务,要求模型判断句子顺序是否调换,增强连贯性建模。
数学实现
嵌入分解公式:
[
\mathbf{E} = \mathbf{U} \mathbf{V}, \quad \mathbf{U} \in \mathbb{R}^{V \times E}, \mathbf{V} \in \mathbb{R}^{E \times H}
]
效果对比
ALBERT-xxlarge(参数量为BERT-large的70%)在RACE准确率上达到88.7%,高于BERT-large的86.5%。
三模型对比与应用场景
| 特性 | BERT | RoBERTa | ALBERT |
|---------------|----------------|----------------|----------------|
| 遮蔽策略 | 静态遮蔽 | 动态遮蔽 | 同RoBERTa |
| 参数量 | 340M(large) | 355M(large) | 235M(xxlarge)|
| 适用场景 | 通用NLP任务 | 数据丰富场景 | 资源受限环境 |
实践建议
- 选择BERT作为基线模型快速验证任务可行性。
- 数据充足时优先使用RoBERTa以获得最佳性能。
- 移动端或实时系统考虑ALBERT的轻量化特性。
总结
Encoder-only模型通过预训练学习通用语言表征,BERT奠定基础,RoBERTa优化训练策略,ALBERT解决效率问题。实际应用中需权衡计算资源、数据规模与任务需求。
BbS.okane112.info/PoSt/1121_800019.HtM
BbS.okane113.info/PoSt/1121_274621.HtM
BbS.okane114.info/PoSt/1121_667302.HtM
BbS.okane115.info/PoSt/1121_869546.HtM
BbS.okane116.info/PoSt/1121_863101.HtM
BbS.okane117.info/PoSt/1121_542109.HtM
BbS.okane118.info/PoSt/1121_161575.HtM
BbS.okane119.info/PoSt/1121_333350.HtM
BbS.okane120.info/PoSt/1121_455409.HtM
BbS.okane121.info/PoSt/1121_792460.HtM
BbS.okane112.info/PoSt/1121_345157.HtM
BbS.okane113.info/PoSt/1121_665179.HtM
BbS.okane114.info/PoSt/1121_889229.HtM
BbS.okane115.info/PoSt/1121_279478.HtM
BbS.okane116.info/PoSt/1121_832675.HtM
BbS.okane117.info/PoSt/1121_928881.HtM
BbS.okane118.info/PoSt/1121_540311.HtM
BbS.okane119.info/PoSt/1121_761511.HtM
BbS.okane120.info/PoSt/1121_334240.HtM
BbS.okane121.info/PoSt/1121_025699.HtM
BbS.okane112.info/PoSt/1121_370586.HtM
BbS.okane113.info/PoSt/1121_739798.HtM
BbS.okane114.info/PoSt/1121_218547.HtM
BbS.okane115.info/PoSt/1121_341482.HtM
BbS.okane116.info/PoSt/1121_045238.HtM
BbS.okane117.info/PoSt/1121_638974.HtM
BbS.okane118.info/PoSt/1121_334340.HtM
BbS.okane119.info/PoSt/1121_035440.HtM
BbS.okane120.info/PoSt/1121_154889.HtM
BbS.okane121.info/PoSt/1121_590550.HtM
BbS.okane112.info/PoSt/1121_748809.HtM
BbS.okane113.info/PoSt/1121_149923.HtM
BbS.okane114.info/PoSt/1121_027806.HtM
BbS.okane115.info/PoSt/1121_640909.HtM
BbS.okane116.info/PoSt/1121_232312.HtM
BbS.okane117.info/PoSt/1121_749502.HtM
BbS.okane118.info/PoSt/1121_424915.HtM
BbS.okane119.info/PoSt/1121_657657.HtM
BbS.okane120.info/PoSt/1121_142624.HtM
BbS.okane121.info/PoSt/1121_898316.HtM
BbS.okane122.info/PoSt/1121_856834.HtM
BbS.okane123.info/PoSt/1121_115545.HtM
BbS.okane124.info/PoSt/1121_102131.HtM
BbS.okane125.info/PoSt/1121_974051.HtM
BbS.okane126.info/PoSt/1121_021682.HtM
BbS.okane127.info/PoSt/1121_222765.HtM
BbS.okane128.info/PoSt/1121_200319.HtM
BbS.okane129.info/PoSt/1121_063559.HtM
BbS.okane130.info/PoSt/1121_661486.HtM
BbS.okane131.info/PoSt/1121_608472.HtM
BbS.okane122.info/PoSt/1121_540959.HtM
BbS.okane123.info/PoSt/1121_992539.HtM
BbS.okane124.info/PoSt/1121_014867.HtM
BbS.okane125.info/PoSt/1121_259945.HtM
BbS.okane126.info/PoSt/1121_497160.HtM
BbS.okane127.info/PoSt/1121_955204.HtM
BbS.okane128.info/PoSt/1121_944874.HtM
BbS.okane129.info/PoSt/1121_892036.HtM
BbS.okane130.info/PoSt/1121_245699.HtM
BbS.okane131.info/PoSt/1121_052823.HtM
BbS.okane122.info/PoSt/1121_510787.HtM
BbS.okane123.info/PoSt/1121_757500.HtM
BbS.okane124.info/PoSt/1121_452081.HtM
BbS.okane125.info/PoSt/1121_413982.HtM
BbS.okane126.info/PoSt/1121_816800.HtM
BbS.okane127.info/PoSt/1121_823485.HtM
BbS.okane128.info/PoSt/1121_981315.HtM
BbS.okane129.info/PoSt/1121_953083.HtM
BbS.okane130.info/PoSt/1121_825348.HtM
BbS.okane131.info/PoSt/1121_256054.HtM
BbS.okane122.info/PoSt/1121_222006.HtM
BbS.okane123.info/PoSt/1121_194803.HtM
BbS.okane124.info/PoSt/1121_716356.HtM
BbS.okane125.info/PoSt/1121_466453.HtM
BbS.okane126.info/PoSt/1121_383940.HtM
BbS.okane127.info/PoSt/1121_563899.HtM
BbS.okane128.info/PoSt/1121_960954.HtM
BbS.okane129.info/PoSt/1121_836902.HtM
BbS.okane130.info/PoSt/1121_467795.HtM
BbS.okane131.info/PoSt/1121_557316.HtM

