字节tiktok大模型算法实习一面
发点面经攒攒人品~
1. 数据是怎么合成的,相对于现在主流数据合成有何优化;合成数据的标签是怎么打的,有什么优化的地方
2. 数据混合有哪些方法,多样性有哪些角度,怎么保证多样性的同时去除重复数据,讲一下了解的聚类去重,多样性怎么提升
3. 怎么清理高质量sft数据,有哪些纬度
4. 预训练数据下采样,怎么保证多样性
5. 小语种数据怎么合成,方法不限但要控制成本
6. 为什么lora相对全参占用显存更少
code:高精度开n次根号
1. 数据是怎么合成的,相对于现在主流数据合成有何优化;合成数据的标签是怎么打的,有什么优化的地方
2. 数据混合有哪些方法,多样性有哪些角度,怎么保证多样性的同时去除重复数据,讲一下了解的聚类去重,多样性怎么提升
3. 怎么清理高质量sft数据,有哪些纬度
4. 预训练数据下采样,怎么保证多样性
5. 小语种数据怎么合成,方法不限但要控制成本
6. 为什么lora相对全参占用显存更少
code:高精度开n次根号
全部评论
相关推荐
查看10道真题和解析