请问为啥说文本和图像的融合?为啥不是cross attetion,而是clip
点赞 2

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务