发面经攒人品
组里做特定领域的文生图模型,会涉及到语言模型的微调和出图底模训练,八股拷问不多,重点记录一下值得思考的问题。
1.DALLE和SD技术路线的不同? 自回归/diffusion
2.SD的lora微调原理和位置?除了注意力投影还有Unet的卷积层。lora还有loCon/loha/lokr。
3.SDXL的双文本特征怎么处理?SD3不同文本端具有的不同token量怎么处理?CLIP-77/T5-512
4.除了交叉注意力的方式还有哪些文本信息注入? DiT涉及到的in-context/cross attention/adaLN
5.为什么生成模型选用Unet?一是保留了相同分辨率上的信息,二是跳跃连接允许存在bottleneck的情况下保留信息(VAE生成会因为压缩造成部分消息丢失)
6.长文本输入怎么处理?通过切分成77(CLIP)长度分别抽取特征后拼接再投影。那0号和77号相同的位置编码怎么解决?讲了BERT给不同句子设置了区分的embedding,涉及到对于语言模型的微调。如果是在训练UNet时(冻结语言模型)该怎么处理? 以插值的方式去构造新的位置编码,但效果不好。还有一些其他的方法,需要进一步了解。
还有一些不了解的点:
1.解耦(adapter)和非解耦(?)方式对模型微调的影响?
2.有没有了解过controlnet的condition的预处理的pipeline?
工作重点:长文本处理,文本图像的高度一致性,生成图像的精确性和美观度
1.DALLE和SD技术路线的不同? 自回归/diffusion
2.SD的lora微调原理和位置?除了注意力投影还有Unet的卷积层。lora还有loCon/loha/lokr。
3.SDXL的双文本特征怎么处理?SD3不同文本端具有的不同token量怎么处理?CLIP-77/T5-512
4.除了交叉注意力的方式还有哪些文本信息注入? DiT涉及到的in-context/cross attention/adaLN
5.为什么生成模型选用Unet?一是保留了相同分辨率上的信息,二是跳跃连接允许存在bottleneck的情况下保留信息(VAE生成会因为压缩造成部分消息丢失)
6.长文本输入怎么处理?通过切分成77(CLIP)长度分别抽取特征后拼接再投影。那0号和77号相同的位置编码怎么解决?讲了BERT给不同句子设置了区分的embedding,涉及到对于语言模型的微调。如果是在训练UNet时(冻结语言模型)该怎么处理? 以插值的方式去构造新的位置编码,但效果不好。还有一些其他的方法,需要进一步了解。
还有一些不了解的点:
1.解耦(adapter)和非解耦(?)方式对模型微调的影响?
2.有没有了解过controlnet的condition的预处理的pipeline?
工作重点:长文本处理,文本图像的高度一致性,生成图像的精确性和美观度
全部评论
“那0号和77号相同的位置编码怎么解决?” 这里是指什么呢
相关推荐
查看15道真题和解析 点赞 评论 收藏
分享
03-19 17:53
武汉大学 算法工程师
暴杀流调参工作者:春招又试了一些岗位,现在投递很有意思,不仅要精心准备简历,投递官网还得把自己写的东西一条一条复制上去,阿里更是各个bu都有自己的官网,重复操作无数次,投完简历卡完学历了,又该写性格测评、能力测评,写完了又要写专业笔试,最近还有些公司搞了AI辅助编程笔试,有些还有AI面试,对着机器人话也听不明白录屏硬说,终于到了人工面试又要一二三四面,小组成员面主管面部门主管面hr面,次次都没出错机会,稍有不慎就是挂。
卡学历卡项目卡论文卡实习什么都卡,没有不卡的😂 点赞 评论 收藏
分享
