咨询cuda中warp level parallelism

最近在学cuda矩阵乘法的优化,其中有个warp level parallelism的优化,大概的原理是增加一个warp中访存的密集型,不知道这么做是不是可以减少共享内存的bank  conflict ,有大佬知道原理的吗,或者有那本书里或者视频里提到这个,能推荐一下吗?#HPC高性能计算工程师##C/C++#
全部评论
一个warp计算的C子矩阵又方又好吧。32,64的要优于16,128的。计算量一样,但访存会降些。
点赞 回复 分享
发布于 2022-01-26 16:05

相关推荐

06-10 21:15
门头沟学院 Java
宁阿:好多这种没🧠的公司,他们估计都不知道毕业的人不能给安排实习岗
实习吐槽大会
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务