cuda实现:reduction,softmax,matrix transpose,avg pooling,算两堆bbox的iou,大部分情况下都是实现kernel即可,少数情况需要跟cpu对齐。 c++实现:NMS,conv2d,双线性插值,layernorm,单例模式 请问这些实现有什么比较好的参考吗
点赞 评论

相关推荐

白火同学:大二有这水平很牛了,可以适当对关键信息加粗一点,比如关键技术、性能指标之类的。
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务