找实习——望石智慧

一个用diffusion做生物分子的公司,就在新中关。感觉医疗领域更多的是图像分割和生成。

时隔8个月,面试的时候还是战战兢兢,不过心态好多了。

一面是技术面,二面是主管。

先说结论,一面没过。

14:00,很准时。

面试官看着很累,满脸的疲惫,还有黑眼圈。

先自我介绍了一下,发现我都是做的简单的图像分类。

又问了一些resnet和transformer的内容,发现我也不太熟悉。

问了VIT。

问图像太大的话应该怎么办?(这其实就是vit的缺点,一个解决方案是进行局部自注意力,而不是全局自注意力)

除了resnet和VIT还有啥模型可以分类?不知道。

我说之前毕设用过VAE,于是问了KL散度,问了用VAE做了啥。我说用隐空间聚类,就没问了。

还问了loss函数,说有哪些loss函数。

问了回归问题,做过图像分割没有,用啥loss函数?没有,不知道。。。。。

发现我不熟。就问我熟悉啥。。。。。。。

啥都不熟。。。。

最后面试官说让我好好复习基础,看看理论,然后说做点复杂的项目TT(我也想啊,这不是在找实习吗。本科是有点废了。。。)。

就当投石问路了。看下transformer和loss函数和其他的内容,再看看这几年的视觉方面的研究。还是得专攻,别搞杂了。

PS:

Vit:ViT(Vision Transformer)解析 - 德怀特的文章 - 知乎 https://zhuanlan.zhihu.com/p/445122996

Vit将图像分成一个个patch,通过将3通道进行拼接,并和位置编码(也是一个矩阵)相加,再通过transformer进行处理。

transformer:https://mbd.baidu.com/ug_share/mbox/4a83aa9e65/share?product=smartapp&tk=a0981ab4c67d47cd045db4f6de0e0f92&share_url=https%3A%2F%2Fyebd1h.smartapps.cn%2Fpages%2Fblog%2Findex%3FblogId%3D116263324%26_swebfr%3D1%26_swebFromHost%3Dbaiduboxapp&domain=mbd.baidu.com

https://jalammar.github.io/illustrated-transformer/

其他cv方面的模型:MLP-Mixer、Swin Transformer(https://www.bilibili.com/video/BV1Ze411K7uR/?spm_id_from=333.337.search-card.all.click&vd_source=d6a2fc38f01ed867e1dfa2494a78fa10 https://zhuanlan.zhihu.com/p/367111046) 。

Swin Transformer 是在Vit的基础上进行的改进,针对Vit的全局自注意力计算复杂度过大的问题,提出了window的思想,使得自注意力的计算局限在window里面,从而减少复杂度。还提出了相对位置编码的思想(非常巧妙)。为了在不同窗口间进行信息交互,还提出了shift window attention、Attention Mask的思想。巧妙的利用Attention Mask实现了与window attention等价的计算。

目标检测:R-cnn、faster-r-cnn、YOLO。

loss函数:

交叉熵公式(面试官问了):

交叉熵也可以简单写做:

交叉熵常常用于分类问题。

L1 loss(又称MAE),平均绝对误差:预测值和真实值之间的误差:sum(|y_pre - y_true|)/n ,用于回归问题

L2损失函数,又称均分误差 MSE: sum((y_pre-y_true)^2)/n,用于回归问题

L1 loss和L2 loss的关系:

KL散度(面试官问了):

KL散度用于度量两个不同分布之间的差异,通过推导科研得到交叉熵的公式(应该说“最小化KL散度等价于最小化交叉熵”),所以交叉熵可以用来作为loss函数。

(另外,L1 loss和L2 loss别和L1正则、L2正则搞混了)

#我的实习求职记录#
全部评论

相关推荐

点赞 评论 收藏
分享
评论
2
8
分享

创作者周榜

更多
牛客网
牛客企业服务