咨询cuda中warp level parallelism

最近在学cuda矩阵乘法的优化,其中有个warp level parallelism的优化,大概的原理是增加一个warp中访存的密集型,不知道这么做是不是可以减少共享内存的bank  conflict ,有大佬知道原理的吗,或者有那本书里或者视频里提到这个,能推荐一下吗?#HPC高性能计算工程师##C/C++#
全部评论
一个warp计算的C子矩阵又方又好吧。32,64的要优于16,128的。计算量一样,但访存会降些。
点赞 回复 分享
发布于 2022-01-26 16:05

相关推荐

不愿透露姓名的神秘牛友
07-11 11:30
点赞 评论 收藏
分享
06-20 17:42
东华大学 Java
凉风落木楚山秋:要是在2015,你这简历还可以月入十万,可惜现在是2025,已经跟不上版本了
我的简历长这样
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务