GPU编码器

为NVIDIA gpu生成CUDA代码

申请免费试用

请求报价

GPU Coder™生成优化的CUDA^®从MATLAB代码^®代码和仿真软件^®模型。生成的代码包括CUDA内核，用于深度学习、嵌入式视觉和信号处理算法的可并行部分。为了获得高性能，生成的代码调用优化的NVIDIA^®CUDA库，包括TensorRT™，cuDNN, cuFFT, cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到您的项目中，并且可以为嵌入在NVIDIA Jetson™、NVIDIA DRIVE™和其他平台上的桌面、服务器和gpu编译。您可以在MATLAB中使用生成的CUDA来加速深度学习网络和算法的其他计算密集型部分。GPU Coder允许您将手写CUDA代码合并到您的算法和生成的代码中。

当与嵌入式编码器一起使用时^®， GPU Coder允许您通过软件在循环(SIL)和处理器在循环(PIL)测试来验证生成代码的数值行为。

什么是GPU Coder?

生成快速、灵活的CUDA代码

生成优化的CUDA代码。免版税的部署代码。

部署算法免版税

在流行的NVIDIA gpu上编译和运行生成的代码，从桌面系统到数据中心再到嵌入式硬件。生成的代码是免版税的，在商业应用程序中免费部署给您的客户。

生成雾校正算法CUDA代码(22)

GPU代码生成:Mandelbrot集合

探索图库(2张图片)

GPU程序员的成功故事

了解不同行业的工程师和科学家如何使用GPU Coder为他们的应用程序生成CUDA代码。

Drass利用YOLO v2网络将海上光学跟踪和障碍识别系统部署到运行在NVIDIA gpu上的Visual Studio应用程序中

空中客车原型飞机检查演示机运行在NVIDIA Jetson TX2上自动检测缺陷

空中客车原型机自动检测英伟达Jetson TX2的缺陷。

从支持的工具箱和函数生成代码

GPU Coder从广泛的MATLAB语言特性中生成代码，设计工程师使用这些特性开发算法作为大型系统的组件。这包括来自MATLAB和配套工具箱的数百个运算符和函数。

支持的工具箱和函数

MATLAB语言功能支持

MATLAB语言和工具箱支持代码生成。

将遗留代码

使用遗留代码集成功能，将可信的或高度优化的CUDA代码合并到MATLAB算法中，以便在MATLAB中进行测试。然后从生成的代码中调用相同的CUDA代码。

遗留代码集成

将现有的CUDA代码合并到生成的代码中。

从Simulink模型生成CUDA代码

在Simulink中创建模型并生成优化的CUDA代码。

运行模拟并为NVIDIA gpu生成优化的代码

当与Simulink Coder™一起使用时，GPU Coder可以加速NVIDIA GPU上的Simulink模型中MATLAB函数块的计算密集型部分。然后，您可以从Simulink模型生成优化的CUDA代码，并将其部署到NVIDIA GPU目标上。

基于GPU编码器的仿真加速

利用GPU编码器从Simulink模型中生成代码

针对NVIDIA嵌入式板

Sobel边缘检测器在GPU上运行的Simulink模型。

部署端到端深度学习算法

在Simulink模型中使用来自深度学习工具箱™的各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM)，并部署到NVIDIA gpu。生成用于预处理和后处理的代码，以及经过训练的深度学习网络，以部署完整的算法。

支持的网络和层

在Simulink中使用MATLAB函数块进行深度学习

基于Simulink的NVIDIA GPU深度学习:使用GPU编码器生成CUDA代码

记录信号、调优参数和数字验证代码行为

当与Simulink Coder一起使用时，GPU Coder使您能够使用外部模式模拟实时记录信号和调优参数。使用嵌入式Coder和GPU Coder来运行软件在循环和处理器在循环测试，从数字上验证生成的代码是否与模拟的行为相匹配。

外部模式的参数调优和信号监控

数值等价测试

基于Simulink的NVIDIA gpu深度学习:心电信号分类

从深度学习网络生成CUDA代码

使用深度学习工具箱部署训练有素的深度学习网络。

部署端到端深度学习算法

从深度学习工具箱中部署各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM)到NVIDIA gpu。使用预定义的深度学习层或为特定的应用程序定义自定义层。生成用于预处理和后处理的代码，以及经过训练的深度学习网络，以部署完整的算法。

支持的网络和层

使用GPU Coder的YOLO v2实时对象检测(或无)

基于YOLO v3深度学习的目标检测代码生成

利用U-net生成语义分割网络

如何为一个Keras-TensorFlow模型生成CUDA代码

为推理生成优化的代码

与其他深度学习解决方案相比，GPU Coder生成的代码占用空间更小，因为它只生成使用特定算法进行推断所需的代码。生成的代码调用优化的库，包括TensorRT和cuDNN。

利用GPU编码器优化车道检测

使用cuDNN在Titan V GPU上使用VGG-16进行单幅图像推理。

进一步优化使用张量排序

生成与NVIDIA TensorRT(高性能深度学习推理优化器和运行时)集成的代码。使用INT8或FP16数据类型可以在标准FP32数据类型的基础上获得额外的性能提升。

基于TensorRT的NVIDIA gpu行人检测(34)

使用NVIDIA TensorRT进行深度学习预测

在Jetson AGX Xavier上使用MATLAB、GPU Coder和TensorRT进行深度学习(24:40)

在NVIDIA gpu上使用MATLAB和TensorRT

使用TensorRT和INT8数据类型提高执行速度。

深度学习量化

量化您的深度学习网络，以减少内存使用和提高推理性能。使用深度网络量化器应用程序分析和可视化提高性能和推理准确性之间的权衡。

INT8量化深度网络量化器

深度神经网络的量化

什么是int8量化，为什么它在深度神经网络中流行?

深度网络量化与使用深度学习工具箱模型量化库的部署

优化生成的代码

GPU Coder自动优化生成的代码。使用设计模式进一步提高性能。

最小化CPU-GPU内存传输，优化内存使用

GPU Coder自动分析、识别和划分MATLAB代码段，以便在CPU或GPU上运行。它还最小化了CPU和GPU之间的数据拷贝数量。使用分析工具来识别其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

生成代码的GPU执行分析

识别潜在瓶颈的概要报告。

调用优化图书馆

GPU Coder生成的代码调用优化的NVIDIA CUDA库，包括tensort, cuDNN, cuSolver, cuFFT, cuBLAS和推力。从MATLAB工具箱函数生成的代码被映射到优化的库中。

库调用的内核

英伟达TensorRT

英伟达cuDNN

英伟达cuFFT

在优化的cuFFT CUDA库中生成代码调用函数。

使用设计模式进一步加速

模板处理等设计模式使用共享内存来提高内存带宽。当使用某些函数(如卷积)时，它们会自动应用。您还可以使用特定的语法手动调用它们。

设计模式

基于GPU的模板处理

模具加工设计模式。

原型硬件

通过自动将算法转换为CUDA代码，快速到达硬件。

原型在NVIDIA Jetson和DRIVE平台上

使用针对NVIDIA GPU的GPU编码器支持包，自动交叉编译和部署生成的代码到NVIDIA Jetson和DRIVE平台。

NVIDIA Tegra支持GPU Coder

NVIDIA DRIVE支持GPU Coder

使用GPU编码器在NVIDIA驱动器上原型和部署，Jetson(2:54)

基于NVIDIA DRIVE的语义分割

在NVIDIA Jetson平台上进行原型设计。

从MATLAB和生成的代码访问外设和传感器

从MATLAB与NVIDIA目标远程通信，从网络摄像头和其他支持的外围设备获取数据，用于早期原型。将算法与外围接口代码一起部署到板上，以便独立执行。

利用NVIDIA Jetson上的网络摄像头进行Sobel边缘检测

NVIDIA Jetson TX2平台上网络摄像头图像的部署和分类

从MATLAB中访问外设和传感器并生成代码。

从原型开发转移到生产

使用GPU Coder与嵌入式Coder交互式跟踪您的MATLAB代码与生成的CUDA代码并排。使用软件在循环(SIL)和处理器在循环(PIL)测试，验证在硬件上运行的生成代码的数值行为。

MATLAB代码与CUDA生成代码之间的跟踪

验证生成的代码的正确性

处理器在循环执行与GPU编码应用程序

PIL的执行时间分析

交互式跟踪报告使用GPU Coder与嵌入式Coder。

加速算法

生成CUDA代码并编译它在MATLAB和Simulink中使用。

MATLAB中的gpu加速算法

从MATLAB代码中调用生成的CUDA代码作为MEX函数，以加快执行速度，但性能将取决于MATLAB代码的性质。分析生成的MEX函数，以识别瓶颈并集中精力进行优化。

GPU代码生成:Mandelbrot集合

生成代码的GPU执行分析

使用GPU编码器在NVIDIA GPU上加速雷达模拟(3)

生成雾校正算法CUDA代码

使用NVIDIA gpu加速Simulink仿真

当与Simulink Coder一起使用时，GPU Coder可以加速NVIDIA GPU上的Simulink模型中MATLAB函数块的计算密集型部分。

使用GPU编码器进行模拟加速

产品资源:

文档功能技术文章产品需求发布说明视频和网络研讨会例子必备产品2022世界杯八强谁会赢？硬件支持

GPU编码器

GPU编码器

为NVIDIA gpu生成CUDA代码

开始:

生成快速、灵活的CUDA代码

部署算法免版税

GPU程序员的成功故事

从支持的工具箱和函数生成代码

将遗留代码

从Simulink模型生成CUDA代码

运行模拟并为NVIDIA gpu生成优化的代码

部署端到端深度学习算法

记录信号、调优参数和数字验证代码行为

从深度学习网络生成CUDA代码

部署端到端深度学习算法

为推理生成优化的代码

进一步优化使用张量排序

深度学习量化

优化生成的代码

最小化CPU-GPU内存传输，优化内存使用

调用优化图书馆

使用设计模式进一步加速

原型硬件

原型在NVIDIA Jetson和DRIVE平台上

从MATLAB和生成的代码访问外设和传感器

从原型开发转移到生产

加速算法

MATLAB中的gpu加速算法

使用NVIDIA gpu加速Simulink仿真

产品资源:

对GPU编码器感兴趣?

接下来是什么?

资源

硬件支持