cuda实现:reduction,softmax,matrix transpose,avg pooling,算两堆bbox的iou,大部分情况下都是实现kernel即可,少数情况需要跟cpu对齐。 c++实现:NMS,conv2d,双线性插值,layernorm,单例模式 请问这些实现有什么比较好的参考吗
点赞 评论

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务