咨询cuda中warp level parallelism

最近在学cuda矩阵乘法的优化,其中有个warp level parallelism的优化,大概的原理是增加一个warp中访存的密集型,不知道这么做是不是可以减少共享内存的bank  conflict ,有大佬知道原理的吗,或者有那本书里或者视频里提到这个,能推荐一下吗?#HPC高性能计算工程师##C/C++#
全部评论
一个warp计算的C子矩阵又方又好吧。32,64的要优于16,128的。计算量一样,但访存会降些。
点赞 回复 分享
发布于 2022-01-26 16:05

相关推荐

Southyeung:我说一下我的看法(有冒犯实属抱歉):(1)简历不太美观,给我一种看都不想看的感觉,感觉字体还是排版问题;(2)numpy就一个基础包,机器学习算法是什么鬼?我感觉你把svm那些写上去都要好一点。(2)课程不要写,没人看,换成获奖经历;(3)项目太少了,至少2-3个,是在不行把网上学习的也写上去。
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客企业服务