GPU Coder™生成优化的CUDA®从MATLAB代码®代码和仿真软件®模型。生成的代码包括CUDA内核,用于深度学习、嵌入式视觉和信号处理算法的可并行部分。为了获得高性能,生成的代码调用优化的NVIDIA®CUDA库,包括TensorRT™,cuDNN, cuFFT, cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到您的项目中,并且可以为嵌入在NVIDIA Jetson™、NVIDIA DRIVE™和其他平台上的桌面、服务器和gpu编译。您可以在MATLAB中使用生成的CUDA来加速深度学习网络和算法的其他计算密集型部分。GPU Coder允许您将手写CUDA代码合并到您的算法和生成的代码中。
当与嵌入式编码器一起使用时®, GPU Coder允许您通过软件在循环(SIL)和处理器在循环(PIL)测试来验证生成代码的数值行为。
开始:
部署算法免版税
在流行的NVIDIA gpu上编译和运行生成的代码,从桌面系统到数据中心再到嵌入式硬件。生成的代码是免版税的,在商业应用程序中免费部署给您的客户。
GPU程序员的成功故事
了解不同行业的工程师和科学家如何使用GPU Coder为他们的应用程序生成CUDA代码。
从支持的工具箱和函数生成代码
GPU Coder从广泛的MATLAB语言特性中生成代码,设计工程师使用这些特性开发算法作为大型系统的组件。这包括来自MATLAB和配套工具箱的数百个运算符和函数。
将遗留代码
使用遗留代码集成功能,将可信的或高度优化的CUDA代码合并到MATLAB算法中,以便在MATLAB中进行测试。然后从生成的代码中调用相同的CUDA代码。
运行模拟并为NVIDIA gpu生成优化的代码
当与Simulink Coder™一起使用时,GPU Coder可以加速NVIDIA GPU上的Simulink模型中MATLAB函数块的计算密集型部分。然后,您可以从Simulink模型生成优化的CUDA代码,并将其部署到NVIDIA GPU目标上。
部署端到端深度学习算法
在Simulink模型中使用来自深度学习工具箱™的各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM),并部署到NVIDIA gpu。生成用于预处理和后处理的代码,以及经过训练的深度学习网络,以部署完整的算法。
记录信号、调优参数和数字验证代码行为
当与Simulink Coder一起使用时,GPU Coder使您能够使用外部模式模拟实时记录信号和调优参数。使用嵌入式Coder和GPU Coder来运行软件在循环和处理器在循环测试,从数字上验证生成的代码是否与模拟的行为相匹配。
部署端到端深度学习算法
从深度学习工具箱中部署各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM)到NVIDIA gpu。使用预定义的深度学习层或为特定的应用程序定义自定义层。生成用于预处理和后处理的代码,以及经过训练的深度学习网络,以部署完整的算法。
为推理生成优化的代码
与其他深度学习解决方案相比,GPU Coder生成的代码占用空间更小,因为它只生成使用特定算法进行推断所需的代码。生成的代码调用优化的库,包括TensorRT和cuDNN。
进一步优化使用张量排序
生成与NVIDIA TensorRT(高性能深度学习推理优化器和运行时)集成的代码。使用INT8或FP16数据类型可以在标准FP32数据类型的基础上获得额外的性能提升。
深度学习量化
量化您的深度学习网络,以减少内存使用和提高推理性能。使用深度网络量化器应用程序分析和可视化提高性能和推理准确性之间的权衡。
最小化CPU-GPU内存传输,优化内存使用
GPU Coder自动分析、识别和划分MATLAB代码段,以便在CPU或GPU上运行。它还最小化了CPU和GPU之间的数据拷贝数量。使用分析工具来识别其他潜在的瓶颈。
调用优化图书馆
GPU Coder生成的代码调用优化的NVIDIA CUDA库,包括tensort, cuDNN, cuSolver, cuFFT, cuBLAS和推力。从MATLAB工具箱函数生成的代码被映射到优化的库中。
原型在NVIDIA Jetson和DRIVE平台上
使用针对NVIDIA GPU的GPU编码器支持包,自动交叉编译和部署生成的代码到NVIDIA Jetson和DRIVE平台。
从MATLAB和生成的代码访问外设和传感器
从MATLAB与NVIDIA目标远程通信,从网络摄像头和其他支持的外围设备获取数据,用于早期原型。将算法与外围接口代码一起部署到板上,以便独立执行。
从原型开发转移到生产
使用GPU Coder与嵌入式Coder交互式跟踪您的MATLAB代码与生成的CUDA代码并排。使用软件在循环(SIL)和处理器在循环(PIL)测试,验证在硬件上运行的生成代码的数值行为。
MATLAB中的gpu加速算法
从MATLAB代码中调用生成的CUDA代码作为MEX函数,以加快执行速度,但性能将取决于MATLAB代码的性质。分析生成的MEX函数,以识别瓶颈并集中精力进行优化。
使用NVIDIA gpu加速Simulink仿真
当与Simulink Coder一起使用时,GPU Coder可以加速NVIDIA GPU上的Simulink模型中MATLAB函数块的计算密集型部分。