字节tiktok大模型算法实习一面

发点面经攒攒人品~
1. 数据是怎么合成的,相对于现在主流数据合成有何优化;合成数据的标签是怎么打的,有什么优化的地方
2. 数据混合有哪些方法,多样性有哪些角度,怎么保证多样性的同时去除重复数据,讲一下了解的聚类去重,多样性怎么提升
3. 怎么清理高质量sft数据,有哪些纬度
4. 预训练数据下采样,怎么保证多样性
5. 小语种数据怎么合成,方法不限但要控制成本
6. 为什么lora相对全参占用显存更少
code:高精度开n次根号
全部评论
可以试试我主页华为AI应用工程师,刚刚开始HC很多
点赞 回复 分享
发布于 03-24 10:25 天津

相关推荐

评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务