本发明提出一种利用NVIDIA Kepler GPU汇编指令加速的卷积优化方法,涉及深度学习,高性能计算,GPGPU编程技术领域,该方法包括将大小的矩阵与大小的矩阵相乘,获得大小的输出元素,对N维度用bn做分块,对K维度用bk作分块,获得GPU的block维度为>>,其中N为批处理图像数目,K为输出图像深度,C为输入图像深度,R为卷积核高度, S为卷积核宽度,P为输出图像高度,Q为输出图像宽度。本发明相比传统的卷积过程简化了步骤,减少了调用次数,增加了数据局部性;避免额外延迟并可选取高效的向量指令,如STS.128,LDG.128减少bank冲突和增加带宽;可以达到75%的峰值性能,超过目前最优的cudnn实现20%‑40%。


