使用自定义训练循环训练网络
这个例子展示了如何训练一个使用自定义学习率计划分类手写数字的网络。
可以训练大多数类型的神经网络trainNetwork
而且trainingOptions
功能。如果trainingOptions
函数没有提供您需要的选项(例如,自定义学习速率计划),那么您可以使用dlarray
而且dlnetwork
对象用于自动区分。的例子,展示如何重新训练一个预训练的深度学习网络trainNetwork
功能,请参阅使用预训练网络的迁移学习.
训练深度神经网络是一项优化任务。把神经网络看成一个函数 ,在那里 是网络输入,和 是否设置了可学习的参数,可以进行优化 这样就可以最小化一些基于训练数据的损失值。例如,优化可学习参数 对于给定的输入 有相应的目标 ,他们将预测之间的误差最小化 而且 .
所使用的损失函数取决于任务的类型。例如:
对于分类任务,您可以最小化预测和目标之间的交叉熵误差。
对于回归任务,您可以最小化预测和目标之间的均方误差。
你可以使用梯度下降来优化目标:最小化损失 通过迭代更新可学习参数 通过使用与可学习参数相关的损失梯度,采取步骤达到最小值。梯度下降算法通常通过使用这种形式的更新步骤的变体来更新可学习参数 ,在那里 是迭代数, 是学习率,和 表示梯度(损失相对于可学习参数的导数)。
此示例训练网络对手写数字进行分类基于时间的衰减学习率计划:对于每次迭代,求解器使用 ,在那里t是迭代数, 初始学习率,和k就是衰变。
负荷训练数据
方法将数字数据加载为图像数据存储imageDatastore
函数并指定包含图像数据的文件夹。
dataFolder = fullfile(toolboxdir(“nnet”),“nndemos”,“nndatasets”,“DigitDataset”);imds = imageDatastore(数据文件夹,...IncludeSubfolders = true,....LabelSource =“foldernames”);
将数据划分为训练集和验证集。方法留出10%的数据用于验证splitEachLabel
函数。
[imdsTrain,imdsValidation] = splitEachLabel(imds,0.9,“随机”);
本例中使用的网络需要大小为28 × 28 × 1的输入图像。要自动调整训练图像的大小,请使用增强图像数据存储。指定要对训练图像执行的附加增强操作:在水平轴和垂直轴上随机将图像平移到5个像素。数据增强有助于防止网络过度拟合和记忆训练图像的确切细节。
inputSize = [28 28 1];pixelRange = [-5 5];imageAugmenter = imageDataAugmenter(...RandXTranslation = pixelRange,...RandYTranslation = pixelRange);augimdsTrain = augmentedImageDatastore(inputSize(1:2),imdsTrain,DataAugmentation=imageAugmenter);
若要自动调整验证图像的大小,而不执行进一步的数据增强,请使用增强图像数据存储,而不指定任何额外的预处理操作。
augimdsValidation = augmentedImageDatastore(inputSize(1:2),imdsValidation);
确定训练数据中的类数。
classes = categories(imdsTrain.Labels);numClasses = nummel(类);
定义网络
定义图像分类的网络。
对于图像输入,指定输入大小与训练数据匹配的图像输入层。
不归一化的图像输入,设置
归一化
选项的输入层“没有”
.指定三个卷积-batchnorm- relu块。
将输入填充到卷积层中,使输出具有相同的大小
填充
选项“相同”
.对于第一个卷积层,指定20个大小为5的滤波器。对于剩余的卷积层,指定20个大小为3的滤波器。
对于分类,指定一个大小与类数量匹配的全连接层
为了将输出映射到概率,需要包含一个softmax层。
当使用自定义训练循环训练网络时,不要包含输出层。
layers = [imageInputLayer(inputSize,归一化=“没有”) convolution2dLayer(5、20、填充=“相同”) batchNormalizationLayer relullayer卷积2dlayer(3,20,填充=“相同”) batchNormalizationLayer relullayer卷积2dlayer(3,20,填充=“相同”) batchNormalizationLayer reluLayer fullyConnectedLayer(numClasses) softmaxLayer];
创建一个dlnetwork
对象。
Net = dlnetwork(layers)
net = dlnetwork with properties: Layers: [12×1 nnet.cnn.layer.Layer] Connections: [11×2 table] Learnables: [14×3 table] State: [6×3 table] InputNames: {'imageinput'} OutputNames: {'softmax'} Initialized: 1使用summary查看summary。
定义模型损失函数
训练深度神经网络是一项优化任务。把神经网络看成一个函数 ,在那里 是网络输入,和 是否设置了可学习的参数,可以进行优化 这样就可以最小化一些基于训练数据的损失值。例如,优化可学习参数 对于给定的输入 有相应的目标 ,他们将预测之间的误差最小化 而且 .
创建函数modelLoss
,列于模型损失函数部分的示例,将其作为输入dlnetwork
对象,带有相应目标的小批输入数据,并返回损失、损失相对于可学习参数的梯度以及网络状态。
指定培训项目
用128个小批量训练10个epoch。
numEpochs = 10;miniBatchSize = 128;
指定用于SGDM优化的选项。指定初始学习速率为0.01,衰减为0.01,动量为0.9。
initialLearnRate = 0.01;衰减= 0.01;动量= 0.9;
火车模型
创建一个minibatchqueue
对象,该对象在训练期间处理和管理小批量图像。对于每个小批量:
使用自定义小批量预处理功能
preprocessMiniBatch
(在本例结束时定义)将标签转换为单热编码变量。用尺寸标签格式化图像数据
“SSCB”
(空间,空间,通道,批次)。默认情况下,minibatchqueue
对象将数据转换为dlarray
具有基础类型的对象单
.不要格式化类标签。如果有GPU,可以在GPU上进行训练。默认情况下,
minibatchqueue
对象将每个输出转换为gpuArray
如果GPU可用。使用GPU需要并行计算工具箱™和受支持的GPU设备。有关受支持设备的信息,请参见GPU计算要求(并行计算工具箱).
mbq = minibatchqueue(augimdsTrain,...MiniBatchSize = MiniBatchSize,...MiniBatchFcn = @preprocessMiniBatch,...MiniBatchFormat = [“SSCB”""]);
初始化SGDM求解器的速度参数。
速度= [];
计算训练进度监控器的总迭代次数。
numObservationsTrain = numel(imdsTrain.Files);numIterationsPerEpoch = ceil(numObservationsTrain / miniBatchSize);numIterations = nummepochs * numIterationsPerEpoch;
初始化TrainingProgressMonitor
对象。因为计时器在创建监视器对象时开始,所以请确保创建的对象接近训练循环。
monitor = trainingProgressMonitor(指标=“损失”信息= (“时代”,“LearnRate”),包含=“迭代”);
使用自定义训练循环训练网络。对于每个纪元,洗牌数据并在小批量数据上循环。对于每个小批量:
方法评估模型损失、梯度和状态
dlfeval
而且modelLoss
函数并更新网络状态。确定基于时间的衰减学习率计划的学习率。
方法更新网络参数
sgdmupdate
函数。更新训练进度监视器中的损失、学习率和epoch值。
如果Stop属性为真,则停止。属性的Stop属性值
TrainingProgressMonitor
对象在单击停止按钮时更改为true。
Epoch = 0;迭代= 0;%遍历epoch。而epoch < numEpochs && ~monitor。停止epoch = epoch + 1;% Shuffle数据。洗牌(兆贝可);在小批上循环。而Hasdata (mbq) && ~monitor。停止迭代=迭代+ 1;读取小批数据。[X,T] = next(mbq);使用dlfeval和% modelLoss函数并更新网络状态。[loss,gradients,state] = dlfeval(@modelLoss,net,X,T);网状态=状态;确定基于时间的衰减学习率计划的学习率。learnRate = initialLearnRate/(1 +衰减*迭代);使用SGDM优化器更新网络参数。[net,velocity] = sgdmupdate(net,gradients,velocity,learnRate,momentum);更新培训进度监视器。recordMetrics(监控、迭代损失=损失);updateInfo(监控、时代=时代LearnRate = LearnRate);班长。进度= 100 * iteration/numIterations;结束结束
测试模型
通过将验证集上的预测结果与真实标签进行比较,检验模型的分类精度。
经过训练后,对新数据进行预测不需要标签。创建minibatchqueue
对象,只包含测试数据的预测器:
为了忽略标签进行测试,将迷你批处理队列的输出数量设置为1。
指定用于训练的相同的小批大小。
属性预处理预测器
preprocessMiniBatchPredictors
函数,在示例末尾列出。对于数据存储的单个输出,指定迷你批处理格式
“SSCB”
(空间,空间,通道,批次)。
numOutputs = 1;mbqTest = minibatchqueue(augimdsValidation,numOutputs,...MiniBatchSize = MiniBatchSize,...MiniBatchFcn = @preprocessMiniBatchPredictors,...MiniBatchFormat =“SSCB”);
循环小批和分类图像使用modelPredictions
函数,在示例末尾列出。
YTest = modelforecasts (net,mbqTest,classes);
评估分类准确率。
TTest = imdsValidation.Labels;精度=平均值(TTest == YTest)
准确度= 0.9750
在困惑图表中可视化预测。
次图confusionchart (tt)
对角线上的大值表示对相应类别的准确预测。非对角线上的大值表示对应类之间有很强的混淆。
支持功能
模型损失函数
的modelLoss
函数的参数为dlnetwork
对象网
,一小批输入数据X
有相应的目标T
并返回损失,关于可学习参数的损失梯度网
,表示网络状态。要自动计算梯度,请使用dlgradient
函数。
函数[loss,gradients,state] = modelLoss(net,X,T)通过网络转发数据。[Y,状态]= forward(net,X);计算交叉熵损失。损失=交叉熵(Y,T);计算相对于可学习参数的损失梯度。gradients = dlgradient(loss,net.Learnables);结束
模型预测函数
的modelPredictions
函数的参数为dlnetwork
对象网
,一个minibatchqueue
输入数据的兆贝可
和网络类,并通过迭代中所有数据来计算模型预测minibatchqueue
对象。函数使用onehotdecode
函数来查找得分最高的预测班级。
函数Y = modelforecasts (net,mbq,classes) Y = [];在小批上循环。而hasdata(mbq) X = next(mbq);做预测。分数=预测(净,X);解码标签并附加到输出。标签= onehotdecode(分数,类,1)';Y = [Y;标签);结束结束
迷你批量预处理功能
的preprocessMiniBatch
函数使用以下步骤预处理一小批预测器和标签:
对图像进行预处理
preprocessMiniBatchPredictors
函数。从传入的单元格数组中提取标签数据,并沿着第二次维度连接到分类数组中。
One-hot将分类标签编码为数字数组。编码到第一个维度会产生一个与网络输出形状匹配的编码数组。
函数[X,T] = preprocessMiniBatch(dataX,dataT)预处理预测器。X = preprocessMiniBatchPredictors(dataX);从单元格和级联中提取标签数据。T = cat(2,dataT{1:end});单热编码标签。T = onehotencode(T,1);结束
小批量预测预处理函数
的preprocessMiniBatchPredictors
函数通过从输入单元格数组中提取图像数据并将其连接到数值数组来预处理一小批预测器。对于灰度输入,在第四个维度上的连接将为每个图像添加第三个维度,以用作单个通道维度。
函数X = preprocessMiniBatchPredictors(dataX)%连接。X = cat(4,dataX{1:end});结束
另请参阅
trainingProgressMonitor
|dlarray
|dlgradient
|dlfeval
|dlnetwork
|向前
|adamupdate
|预测
|minibatchqueue
|onehotencode
|onehotdecode