传统cv想做多模态
目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
秋招?
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享