并行训练深度学习网络

这个示例使用:

这个例子展示了如何在本地机器上运行多个深度学习实验。使用此示例作为模板，您可以修改网络层和培训选项，以满足您特定的应用程序需求。您可以在单个或多个gpu上使用这种方法。如果你只有一个GPU，网络就会在后台一个接一个地训练。本例中的方法使您能够在进行深度学习实验时继续使用MATLAB®。

作为一种替代方法，你可以使用实验管理器交互式地并行训练多个深度网络。有关更多信息，请参见使用实验管理器并行训练网络．

准备数据集

在运行该示例之前，必须能够访问深度学习数据集的本地副本。本例使用一个数据集，其中包含从0到9的数字合成图像。在下面的代码中，将位置更改为指向您的数据集。

datasetLocation = fullfile (matlabroot,“工具箱”，“nnet”，.．.“nndemos”，“nndatasets”，“DigitDataset”）;

如果您想用更多的资源运行实验，您可以在云中的集群中运行此示例。

将数据集上传到Amazon S3桶中。示例请参见上传深度学习数据到云端．
创建云集群在MATLAB中，您可以直接从MATLAB桌面在云中创建集群。有关更多信息，请参见创建云计算集群(并行计算工具箱)．
选择您的云集群作为默认值首页选项卡,环境部分中,选择平行>选择默认集群．

加载数据集

方法加载数据集imageDatastore对象。将数据集分为训练集、验证集和测试集。

imd = imageDatastore (datasetLocation,.．.“IncludeSubfolders”,真的,.．.“LabelSource”，“foldernames”）;[imdsTrain, imdsValidation imdsTest] = splitEachLabel (imd, 0.8, 0.1);

要用增强的图像数据训练网络，可以创建一个augmentedImageDatastore．使用随机平移和水平反射。数据增强有助于防止网络过拟合和记忆训练图像的精确细节。

imageSize = [28 28 1];pixelRange = [-4 4];imageAugmenter = imageDataAugmenter (.．.“RandXReflection”,真的,.．.“RandXTranslation”pixelRange,.．.“RandYTranslation”, pixelRange);imdsTrain augmentedImdsTrain = augmentedImageDatastore(图象尺寸,.．.“DataAugmentation”, imageAugmenter);

平行列车网络

启动一个与gpu数量相同的并行池。可用gpu的数量可以通过gpuDeviceCount(并行计算工具箱)函数。MATLAB为每个worker分配不同的GPU。默认情况下,parpool使用默认的集群配置文件。如果您没有更改默认值，则是当地的．这个例子是在一台有2个gpu的机器上运行的。

numGPUs = gpuDeviceCount (“可用”）;parpool (numGPUs);

使用“Processes”配置文件启动并行池(parpool)…连接到并行池(工人数量:2)。

若要在培训期间从员工那里发送培训进度信息，请使用parallel.pool.DataQueue(并行计算工具箱)对象。要了解关于如何在培训期间使用数据队列获取反馈的更多信息，请参见示例利用parfeval训练多个深度学习网络．

dataqueue = parallel.pool.DataQueue;

定义网络层和培训选项。为了代码的可读性，您可以在一个单独的函数中定义它们，该函数返回几个网络架构和训练选项。在这种情况下,networkLayersAndOptions返回网络层的单元格数组和相同长度的训练选项数组。在MATLAB中打开这个示例，然后单击networkLayersAndOptions打开辅助功能networkLayersAndOptions．粘贴您自己的网络层和选项。该文件包含示例训练选项，演示如何使用输出函数将信息发送到数据队列。

[layersCell,选项]= networkLayersAndOptions (augmentedImdsTrain、imdsValidation dataqueue);

准备训练进度图，并设置一个回调函数，以便在每个工人向队列发送数据后更新这些图。preparePlots而且updatePlots是本例的支持函数。

处理= preparePlots(元素个数(layersCell));

afterEach (dataqueue @(数据)updatePlots(处理、数据));

为了在并行工作者中保存计算结果，可以使用将来对象。为每次训练的结果预先分配一个未来对象数组。

trainingFuture(1:元素个数(layersCell)) = parallel.FevalFuture;

方法在网络层和选项之间循环为循环,并使用parfeval(并行计算工具箱)在一个并行工人身上训练网络。请求两个输出参数trainNetwork,指定2作为第二个输入参数parfeval．

为i=1:numel(layersCell) trainingFuture(i) = parfeval(@trainNetwork,2,augmentedImdsTrain,layersCell{i}，options(i));结束

parfeval不会阻塞MATLAB，所以你可以在计算发生时继续工作。

方法可从未来对象获取结果fetchOutputs函数。对于本例，获取经过训练的网络及其训练信息。fetchOutputs阻塞MATLAB直到结果可用。这一步可能需要几分钟。

(网络,trainingInfo) = fetchOutputs (trainingFuture);

方法将结果保存到磁盘保存函数。要在以后再次加载结果，请使用负载函数。使用sprintf而且datetime使用当前日期和时间命名文件。

文件名= sprintf (“实验——% s”datetime (“现在”，“格式”，的名称“T”HHmmss”));保存(文件名,“网络”，“trainingInfo”）;

阴谋的结果

在网络完成训练后，利用网络中的信息绘制其训练进度trainingInfo．

使用子图为每个网络分配不同的图。对于本例，使用第一行子图来绘制训练精度与历元数以及验证精度之间的关系。

图(“单位”，“归一化”，“位置”，[0.1 0.1 0.6 0.6]);标题(“训练发展情节”）;为i = 1:元素个数(layersCell)次要情节(2,元素个数(layersCell), i);持有在；网格在；ylim (100 [0]);iterationsPerEpoch =地板(augmentedImdsTrain.NumObservations /选项(i) .MiniBatchSize);时代=(1:元素个数(trainingInfo(我).TrainingAccuracy)) / iterationsPerEpoch;情节(时代,trainingInfo(我).TrainingAccuracy);情节(时代,trainingInfo(我)。ValidationAccuracy,“同意”，“MarkerSize”10);结束次要情节(元素个数(layersCell), 1), ylabel (“准确性”）;

然后，使用第二行子图绘制训练损失与验证损失的epoch数的关系。

为i=1:numel(layersCell) subplot(2,numel(layersCell)，numel(layersCell) + i);持有在；网格在；ylim ([0 10]);iterationsPerEpoch =地板(augmentedImdsTrain.NumObservations /选项(i) .MiniBatchSize);时代=(1:元素个数(trainingInfo(我).TrainingAccuracy)) / iterationsPerEpoch;情节(时代,trainingInfo(我).TrainingLoss);情节(时代,trainingInfo(我)。ValidationLoss,“同意”，“MarkerSize”10);包含(“时代”）;结束次要情节(元素个数(layersCell),元素个数(layersCell) + 1), ylabel (“损失”）;

选择一个网络后，就可以使用了分类并在试验数据上得到其精度imdsTest．

另请参阅