1. k-means聚类点初始化阶段有什么优化策略?2. 如何评估聚类的好坏?3. 介绍transformer架构?4. Attention计算时间复杂度?5. 超长序列下降低Attention时间复杂度的方法?6. Transformer用的什么Norm?7. 分类模型的指标有哪些?8. 分类模型的损失函数?交叉熵损失相比于均方差损失的优势?9. 模型训练过程中哪些行为可能导致梯度爆炸?10. 手撕 树的最长链长度 面的实在有点痛苦,主包做的大模型方向,确实对过去的分类模型不是很了解,问的东西也没什么答出来的,大模型相关的八股也没问,简历上的东西也不问,应该是业务原因吧,可能用大模型不多所以...