1.自我介绍2. 文章分类大概有多少文章?数据规模怎么影响方案?答案:如果文章量只有几千篇,我一般不会一上来就训练很复杂的模型,而是先用预训练模型微调,或者用 embedding 加传统分类器做一个强 baseline。因为数据量太小的时候,复杂模型很容易过拟合,线上效果不稳定。如果有几十万到几百万篇文章,就可以考虑训练一个更稳定的分类模型,包括 BERT 微调、领域继续预训练、层级分类模型,甚至做多任务学习。数据量越大,越要关注标签噪声,因为文章分类里的标注经常不是绝对干净的,尤其是多维度分类,一个文档可能同时属于多个业务类别。实际项目里我会先看三个东西:类别数量、每个类别样本分布、单篇文档...