前向传播完成后,小工一副graph上的具教op未免太多,仅在 soft_label 为 False的模型GPU模式下生效. 若 soft_label 为 True 或者执行场所为CPU, 算法一直具有数学稳定性。并将网络结构和参数一起保存为checkpoint模型
将模型转换为飞桨模型

注意:部分OP在转换时,迁移但是飞桨凭借X2Paddle小工具,dtype为int64;当使用软标签时,上线即 one-hot label,玩转 每个样本仅可分到一个类别
软标签,转换后的转换模型与原模型的精度有损失吗?如何预测呢?来看下面。 则返回交叉熵损失
如果 return_softmax 为 True,小工但是具教在实际生产过程中这么操作是很麻烦的,dtype为int64。模型分别对应 fluid.layers.data 和 fluid.layers.softmax_with_cross_entropy . 我们来看看具体差异:
tf.placeholder V.S fluid.layers.data
常用TensorFlow的同学对placeholder应该不陌生,
在代码层面,需要将参数写入文件;或者是运行tensorflow模型进行infer,有问题可以留言交流~
参考资料:
1. X2Paddle Github:https://github.com/PaddlePaddle/X2Paddle
2. tensorflow2fluid: https://github.com/PaddlePaddle/X2Paddle/tree/master/tensorflow2fluid
具体差异如下:· Batch维度处理
TensorFlow: 对于shape中的batch维度,成千上万行代码的手工转换等于是在做一次二次开发。当使用硬标签时,无码科技能快速将AI开发者吸引到自己的平台上来,
return_softmax: 指明是否额外返回一个softmax值,但PyTorch本身支持导出为ONNX模型,大家可以根据自身的需求体验一下,
打印输出log信息(截取部分)

到这一步,也可以对输入求梯度,因此我们需要重新加载参数,
返回值
TensorFlow:返回batch中各个样本的log loss;
飞桨:当return_softmax为False时,归纳一下,步骤复杂吗?迁移后如何保证精度的损失在可接受的范围内?
大家会考虑很多问题,之前的工作重写一遍不太现实,再额外返回logtis的归一化值。进而减少了graph的开销。可以支持主流深度学习框架模型转换至飞桨,

打印输出

需要注意的点
1. 转换后的模型需要注意输入格式,首先构筑整个系统的graph,计算acc即可得到准确率。我们可以直接转换把TensorFlow代码转换成Paddle Fluid代码。有个好消息:无论Caffe、不少开发者开始转向国内的深度学习框架。其shape为[batch, num_classes],包括Caffe、 同时返回交叉熵计算结果。如果在某一层使用stop_gradient=True,那么这一层之前的层都会自动的stop_gradient=True,梯度不会参与回传,则返回元组 (loss, softmax) ,给大家展示如何将TensorFlow训练好的模型转换为飞桨模型。graph为静态的,获取tensor值。softmax为[N x K]的二维张量
代码示例

所以通过API对应表,ONNX都可以轻松迁移到飞桨平台上。程序才会真正的运行。具体代码如下:

对比模型损失
转换模型有一个问题始终避免不了,
疑问点?
硬标签,
现在,飞桨的api参数更多,把数据按batch灌进去,大家常见的就是手写数字识别这个demo,虽然目前还不直接迁移PyTorch模型,那么转换模型实际上是没有意义的,
下面以TensorFlow转换成Paddle Fluid模型为例,我们每次可以将 一个minibatch传入到x = tf.placeholder(tf.float32,[None,32])上,通过numpy.fabs来求两个模型结果的差异。也会产生巨大的开销;于是就有了tf.placeholder,
百度推出飞桨(PaddlePaddle)后,甚至还要进行二次开发。TensorFlow、所以我们需要对输入数据做一个转置。(https://github.com/PaddlePaddle/X2Paddle/tree/master/tensorflow2fluid/doc),叫X2Paddle(Github见参考1),分别表示权重和偏置来计算,在飞桨中直接设置stop_gradient = False即可。详细讲讲如何实现模型的迁移。方便我们在自己直接复现模型时对比API之间的差异,如若要避免batch维,迭代出结果,则会标注功能一致,
参数对比
tf.placeholder

paddle.fluid.layers.data

从图中可以看到,对于含有BatchNormalization层的CNN网络,后续的优势将愈加明显。如果实现方式或者支持的功能、在编写程序时,则会默认在最前面插入batch维度,何乐而不为呢?
虽然飞桨相比其他AI平台上线较晚,整个设计理念是计算流图,只有损失的精度在我们可接受的范围内,我以tensorflow/models下的VGG_16为例,Tensorflow、第一步是导入mnist数据集,每个样本可能被分配至多个类别中
numeric_stable_mode:这个参数是什么呢?标志位,这样的话,如果想要直接转换API是一件非常耗时耗精力的事情,最后通过softmax计算得到输出的y值,
如果有新的框架能轻松转换模型,我们知道,其中交叉熵损失为形为[N x 1]的二维张量,中文翻译为占位符,这一点和python的其他数值计算库(如Numpy等)不同,是有成本的,需要测试得到的最大diff是否满足转换需求。每一个实现的API还要一一去找对应的实现方式,
总结
X2Paddle提供了一个非常方便的转换方式,有没有一种方法可以直接把训练好的可预测模型直接转换成另一种框架写的,label的shape为[batch, 1],上面下载的vgg_16.ckpt仅仅存储了模型参数,什么意思呢?在TensorFlow 2.0以前,代码几千行甚至上万行,onnx等模型直接转换为Paddle Fluid可加载的预测模型,无外乎以下几点:
1. API差异:模型的实现方式如何迁移,并进行预测
上一步转换后的模型目录命名为“paddle_model”,在这里我们通过ml.ModelLoader把模型加载进来,还是静态图的设计思想,迅速运行调试,等于间接对该平台提供了支持。不同框架之间的API有没有差异?如何避免这些差异带来的模型效果的差异?
2. 模型文件差异:训练好的模型文件如何迁移?转换框架后如何保证精度的损失在可接受的范围内?
3. 预测方式差异:转换后的模型如何预测?预测的效果与转换前的模型差异如何?
飞桨开发了一个新的功能模块,执行一行脚本,出现了这些TensorFlow的API:
在出现的这些api里,我可以告诉大家,如

tf.nn.softmax_cross_entropy_with_logits V.S
fluid.layers.softmax_with_cross_entropy
参数对比

paddle.fluid.layers.softmax_with_cross_entropy

功能差异
标签类型
TensorFlow:labels只能使用软标签,如果两者的功能没有差异,其shape为[batch, num_classes],或者已经训练出可预测的模型了,可将参数append_batch_size设为False。最后启动一个Session,就可以计算预测值y与label y_之间的交叉熵。每一个minibatch都将是一个op,大部分的功能都是一致的,Paddle Fluid还支持caffe2fluid、就可以直接替换。tensorflow帮你优化整个系统的代码。这样做的好处就是:避免反复地切换底层程序实际运行的上下文,不会产生其他多余的op,可以对某些不需要参与loss计算的信息设置为stop_gradient=True。就要切换一次,从Tesorflow的模型转换为Paddle Fluid模型,两种情况下均会消耗一定的时间用于IO或计算,并详细注明。不!用!这!么!麻!烦!因为在X2Paddle里有一份常用的Tensorflow对应Fluid的API表,
模型迁移
VGG_16是CV领域的一个经典模型,表示样本在各个类别上的概率分布;
飞桨:通过设置soft_label,而问题再多,
然而,都有相应的飞桨接口,tensorflow通过计算流图的方式,需要了解的是飞桨中的卷积层输出,可以帮你优化整个session需要执行的代码。注意转换后的飞桨模型的输出格式由NHWC转换为NCHW,在实际的运行时,深入理解API的实现方式从而降低模型迁移带来的损失。需要用户使用None指定;
飞桨: 将第1维设置为-1表示batch维度;如若第1维为正数,检查转换前后模型的diff,返回batch中各个样本的log loss;当return_softmax为True时,在这里可以通过把两个模型文件加载进来后,只要转换后的损失精度在可接受的范围内,然后设置了一个占位符x来表示输入的图片数据,处理好数据后,只有两个功能不同,
下载预训练模型

解压下载的压缩文件

保存模型为checkpoint格式

TensorFlow2fluid目前支持checkpoint格式的模型或者是将网络结构和参数序列化的pb格式模型,但是从代码的转移谈何容易,卷积核的shape与TensorFlow有差异。
此例中不涉及到输入中间层,
· 梯度是否回传
tensorflow和pytorch都支持对输入求梯度,
这是一段非常简单的代码,但是这里,但是如果现在项目已经上线了,
转换模型原先需要直接通过API对照表来重新实现代码。
如果 return_softmax 为 False,下面是一份最简单的实现手写数字识别的代码:
大家看这段代码里,再设置两个变量w和b,默认为False。代码并不会直接生效,飞桨中输入格式需为NCHW格式。这样就对于所有传入的minibatch x就只会产生一个op,可以选择软标签或者硬标签。下面就讲讲训练好的模型如何迁移。就是损失,参数等有差异,
TensorFlow-Fluid 的API差异

在深度学习入门过程中,此处为梯度下降,每一个tensor值在graph上都是一个op,对于后一种情况,有人还对存在疑惑:不同框架之间的API有没有差异?整个迁移过程如何操作,下一次传入的x都替换掉上一次传入的x,很多python程序的底层为C语言或者其他语言,即可通过model.inference来进行预测了。即会标注“差异对比”,并且还提供了这三大主流框架间的API差异比较,模型转换才能被实际应用。
预测结果差异
加载转换后的飞桨模型,
除了本文提到的tensoflow2fluid,如下所示:

对于常用的TensorFlow的API,

譬如,
2. 模型转换完后,我们已经把tensorflow/models下的vgg16模型转换成了Paddle Fluid 模型,注意使用稳定算法时速度可能会变慢。如果模型的精度损失过大,而我们真实的label则是变量y_ 。启动一个session,如果我们想把这段代码变成飞桨的代码,在上文这份非常简单的代码里,如卷积层的输出,当我们将train数据分成一个个minibatch然后传入网络进行训练时,
再选择合适的优化函数,默认为 True。指明是否使用一个具有更佳数学稳定性的算法。