预训练语言模型概述 预训练语言模型(Pre-trained Language Models, PLMs)通过在大规模文本数据上进行无监督学习,捕捉语言的通用表征。Encoder-only架构以双向上下文建模为核心,典型代表包括BERT、RoBERTa和ALBERT。这类模型通过掩码语言建模(Masked Language Modeling, MLM)等任务学习文本深层特征,适用于下游任务的微调。 BERT:双向编码器的开创者 核心架构 BERT基于Transformer的Encoder堆叠,采用双向注意力机制。其输入包含Token Embeddings、Segment Embeddings和P...