找实习——望石智慧
一个用diffusion做生物分子的公司,就在新中关。感觉医疗领域更多的是图像分割和生成。
时隔8个月,面试的时候还是战战兢兢,不过心态好多了。
一面是技术面,二面是主管。
先说结论,一面没过。
14:00,很准时。
面试官看着很累,满脸的疲惫,还有黑眼圈。
先自我介绍了一下,发现我都是做的简单的图像分类。
又问了一些resnet和transformer的内容,发现我也不太熟悉。
问了VIT。
问图像太大的话应该怎么办?(这其实就是vit的缺点,一个解决方案是进行局部自注意力,而不是全局自注意力)
除了resnet和VIT还有啥模型可以分类?不知道。
我说之前毕设用过VAE,于是问了KL散度,问了用VAE做了啥。我说用隐空间聚类,就没问了。
还问了loss函数,说有哪些loss函数。
问了回归问题,做过图像分割没有,用啥loss函数?没有,不知道。。。。。
发现我不熟。就问我熟悉啥。。。。。。。
啥都不熟。。。。
最后面试官说让我好好复习基础,看看理论,然后说做点复杂的项目TT(我也想啊,这不是在找实习吗。本科是有点废了。。。)。
就当投石问路了。看下transformer和loss函数和其他的内容,再看看这几年的视觉方面的研究。还是得专攻,别搞杂了。
PS:
Vit:ViT(Vision Transformer)解析 - 德怀特的文章 - 知乎 https://zhuanlan.zhihu.com/p/445122996
Vit将图像分成一个个patch,通过将3通道进行拼接,并和位置编码(也是一个矩阵)相加,再通过transformer进行处理。
https://jalammar.github.io/illustrated-transformer/
其他cv方面的模型:MLP-Mixer、Swin Transformer(https://www.bilibili.com/video/BV1Ze411K7uR/?spm_id_from=333.337.search-card.all.click&vd_source=d6a2fc38f01ed867e1dfa2494a78fa10 https://zhuanlan.zhihu.com/p/367111046) 。
Swin Transformer 是在Vit的基础上进行的改进,针对Vit的全局自注意力计算复杂度过大的问题,提出了window的思想,使得自注意力的计算局限在window里面,从而减少复杂度。还提出了相对位置编码的思想(非常巧妙)。为了在不同窗口间进行信息交互,还提出了shift window attention、Attention Mask的思想。巧妙的利用Attention Mask实现了与window attention等价的计算。
目标检测:R-cnn、faster-r-cnn、YOLO。
loss函数:
交叉熵公式(面试官问了):
交叉熵也可以简单写做:
交叉熵常常用于分类问题。
L1 loss(又称MAE),平均绝对误差:预测值和真实值之间的误差:sum(|y_pre - y_true|)/n ,用于回归问题
L2损失函数,又称均分误差 MSE: sum((y_pre-y_true)^2)/n,用于回归问题
L1 loss和L2 loss的关系:
KL散度(面试官问了):
KL散度用于度量两个不同分布之间的差异,通过推导科研得到交叉熵的公式(应该说“最小化KL散度等价于最小化交叉熵”),所以交叉熵可以用来作为loss函数。
(另外,L1 loss和L2 loss别和L1正则、L2正则搞混了)