性能
解决代码生成问题,提高代码执行时间,减少生成代码的内存使用
GPU Coder™生成的代码不能按预期执行的一些最常见的原因是:
CUDA®没有创建内核。
主机到设备和设备到主机的内存传输(
cudaMemcpy
)为节流性能。没有足够的并行或设备问题。
这些主题详细说明这些症状的常见原因,并描述如何利用内置筛选程序检测这些问题。您可以找到关于如何解决这些问题并生成更有效的CUDA代码的信息。
应用程序
功能
对象
主题
- 工作流
GPU Coder故障排除工作流程。
- 代码生成报告
创建和查看在代码生成期间生成的报告。
- 生成CUDA代码和MATLAB源代码之间的跟踪
突出显示在GPU上运行的MATLAB代码部分。
- 为从MATLAB代码生成的代码生成GPU代码度量报告
创建和探索GPU静态代码指标报告。
- 调试CUDA MEX函数
CUDA MEX功能的调试建议。
- 内核分析
生成有效CUDA内核的建议。
- 内存瓶颈分析
使用GPU Coder时减少内存瓶颈问题。
- 分析生成代码的执行配置文件
对MATLAB算法进行细粒度分析,并通过SIL生成CUDA代码。
- 使用NVIDIA分析器进行分析
通过使用NVIDIA Profiler (nvvp)获得的信息来提高性能。
- GPU编码器的局限性
参见GPU Coder的当前限制。
- 注册计数nvlink错误
排除由寄存器计数引起的编译失败
nvlink
错误。