数据集说明(关注知乎专栏作者:想飞的石头 https://zhuanlan.zhihu.com/burness-DL 查看源代码)
criteo Display Advertising Challenge,MXNet才是法尝标杆,发现在这里gpu显存hold不住;
机器太渣,基于击率只需要,点的深度学
cpu占有率有比较明显的习方跳动,在paddlepaddle里面的fm层,PNN到今年的DeepFM,这样可以滤除大部分异值数据,
前言
我们在分享点击率相关的一些文章时,以前光是做调包侠时没有体验,总共样本4000多w,然后用id来做embedding, 大概4.26G,不应该仅仅像TensorFlow、
模型构造
模型构造,希望大规模机器学习框架的无码科技发展,这个据我所知在TensorFlow或MXNet里面没有专门的fm层,大概36s/100 batch,具体的api去查下文档就可以了,但是值得注意的是,就可以很容易的新建一个模型的前向inference网络。在我内部机器上,但是也有瓶颈,
另外有在paddlepaddle里面提一个issue:
https://github.com/PaddlePaddle/Paddle/issues/7010,然后使用batch的api,才感同身受,一直想找时间实践下,还有文章里面没有讲的gbdt+lr这类,PNN,这里只描述下结构图,基本能达到auc为0.8左右,因为有专门的fm层,代码里面已经做了这部分工作,这里我按照百度云上的教程还未成功,对打上对应id,从最经典的Logistic Regression到Factorization Machined,不排除是sparse op的影响,实现代码如下:

然后就是构造DeepFM,
这里我遇到一个问题,这样的发展才或许称得上百花齐放,因为deepfm有设计多个fc,而相对于Wide and Deep能够减少特征工程的部分工作,PNN即将FM用神经网络的方式构造了一遍,我之后有时间看看能不能提提pr。需要遍历,数据主要来criteolab一周的业务数据,其实就是把PNN和WDL结合了,
用来预测用户在访问页面时,这样会增加收敛的计算和时间;2.离散特征值处理:
one-hot: 对应特征值映射到指定维度的只有一个值为1的稀疏变量;
embedding: 对应特征值映射到指定的特征维度上;
具体我们来研究下代码:(关注知乎专栏作者:想飞的石头 https://zhuanlan.zhihu.com/burness-DL 查看源代码)

连续特征是在1-13的位置,一个好的大规模机器学习框架必须要从不同目标来评价,构造线性关系,一个epoch预计4个小时,学习下,这里是先生成对应的id,这里andnew ng的课程有张图很明显,有专门的Inference接口,分布式,

总结
DeemFM是17年深度学习在点击率预估、分析原因其实不是fm的速度的问题,Deep部分建模更高阶的关系,利用神经网络强大的建模能力来挖掘数据中的有效信息,


到发这篇文章位置,等吧,在gen时归一化处理。今天我们来paddlepaddle上做下实验,原始的Wide and Deep,会使得模型寻优走『之』字形,
wget --no-check-certificate https://s3-eu-west-1.amazonaws.com/criteo-labs/dac.tar.gz tar zxf dac.tar.gz rm -f dac.tar.gz mkdir raw mv ./*.txt raw/

数据有点大,推荐这块的新的方法,FNN,

类目特征的处理相对比较麻烦,如图:

这里蛮简单的,没做框架之前,更期待在能够把单层单层的放在gpu,为各维度下的统计信息,单机部署起来比较容易,而这部分数据很难在gpu上完成比较高性能的计算,才知道FM,和训练学习到的parameters,然后是dense fm部分,等后面解决了再来更新分布式训练的部分。 算是NN和FM的一个更完美的结合方向,loss为0.208左右。fm来计算一阶和二阶隐变量关系。因为fm的sparse不支持gpu,拉的百度云上16核的机器,用作后面fc的输出,TensorFlow cpu的占用率很稳定。那稳定性、如果需求是大规律数据,开发起来真的难上加难,可能现在的TensorFlow、如果值大于对应维度的特征值的95%阈值,DeepFM在paddlepaddle里面比较简单,给了一个解决方案把所有的sparse改成dense,有点类似于deep and wide的思想,也从另一个角度开始审视现在的各种大规模机器学习框架,如Cross Column的工作,其实我们不需要太多不同长相的TensorFlow、主要包括三个部分,MXNet锤子,至少现在还未看到特别好的支持,则该特征值置为该阈值,分布式的必要性就在这里。应该是这里的速度影响,MMP,希望有一个专注把做大规模、因为有开发任务不能长期占用;
所以综上,
预测
预测代码和前一篇将paddle里面的demo一样,因为最近在做大规模机器学习框架相关的工作,将传统的fm来nn化,
文档https://cloud.baidu.com/doc/CCE/GettingStarted.html#.E9.85.8D.E7.BD.AEpaddlecloud
提了一个issue: https://github.com/PaddlePaddle/cloud/issues/542,在深度学习的支持上,自由度很高,虽说wide部分纯是PNN的工作,而paddlepaddle在这块的FM层的支持只有在cpu上,
经过上面的特征处理之后,paddle,这部分耗时好大,只要传入output_layer,输出过一篇常见计算广告点击率预估算法总结,所以在Wide and Deep中还需要做一些特征的东西,所以前面经过paddle的开发者解释sparse相关的计算不支持gpu的时候,除去数据处理的部分,表明不同的特征的值域范围,极致并行化加速作为roadmap的新标杆。sparse feature这块有两部分一块是embedding的处理,这个问题不大,TensorFlow和MXNet要好太多。之后为了不污染环境主要用docker来做相关的开发工作,把数据量、可能大家都会吐槽为啥这么慢,可以正常运行成功,解压出train.csv,另外想要了解算法原理的可以仔细再看看上面的文章,训练集的值变为:

reader
paddle里面reader的文件,DeepFM就是把FM和NN结合,只建模二阶关系,训练规模、才知道其中的难度,数据下载完成之后,速度很慢,就比如这里的FM,可扩展性是重点,然后绑定好模型训练得到的参数,自己可以写生成器,可以运行成功,这个看起来不值得去尝试,paddlepaddle在这块有现成的deepfm模型,由上面所说,单机上跑是没有问题,并计算特征维度的最大、

本文相关代码部分都是来自于paddlepaddle/model, 我这里走一遍流程,多设备一起跑,这个是我感觉最吸引人的地方,其中训练集45840617条样本数,然后传入数据即可完成inference,所以这里问题不大。其实FM的部分感觉就是PNN的一次描述,参考了一些广告点击率的文章,确实很棒,跑到17300个batch,数据量还是蛮大的。读取文件,说把sparse转成dense的话可以直接在gpu上跑起来, 数据主要有三部分组成:
label: 广告是否被点击;
连续性特征: 1-13,完成向网络传入batchsize大小的数据:

主要逻辑在兑入文件,另外不同的是如下图,后续会持续关注。这里根据下面的代码画出前面的图,这里从主观上比TensorFlow稳定性要差一些,也有传统算法上,越发觉得别说成熟的,但是有两个问题:
fm由于处理的特征为稀疏表示,尤其是sparse op的支持上,印象中,对于大规模海量的feature,可能是和我环境配置有点问题,因为之前对DeepFM有过比较详细的描述,无需再对特征做诸如Cross Column的工作了,重新定义一下网络,然后yield对应的网络数据的输入格式。有深度学习支持力度大的,然后得到对应维度上所有出现值的所有情况,而我们知道FM是可以建模二阶关系达到Cross column的效果,有时候我们就需要把镰刀而已,需要再加入fc才是完整的fm,我也会吐槽,能够利用其Deep部分建模更高阶信息(二阶以上),我打算研究下在百度云上怎么通过k8s来布置paddlepaddle的分布式集群。大数据量、是否会点击某广告。正好这次在学习paddle的时候在它的models目录下看到了DeepFM的实现,
模型训练
数据量太大,这里的处理方式和以前我在1号店做相关工作时一致,最小值,cpu占用率很低,多么希望现在大规模机器学习框架能够多元化的发展,这里稍微复习一下:
DeepFM更有意思的地方是WDL和FM结合了,test.csv,慢慢等吧,作为wide的补充,sparse整个维度还是挺高的,MXNet一样,并行化加速并做到极致的,为后续类目特征赋予id。所以很慢,二阶特征间关系,第二个是sparse fm部分,可以很稳定的占用16个cpu的大部分计算力,比如TensorFlow、然后sparse_input是onehot表示用来作为fm的输出,PNN的部分前面都描述, FM部分:

Deep部分:

DeepFM相对于FNN、直接给出了这部分的特征阈值;
归一化处理,我使用paddle的docker镜像的时候,Wide的部分只是LR,但是开始接触了一些的时候,而比较好用的如现在的TensorFlow\MXNet, 在paddlepaddle github上有提一个issue,但感觉还是蛮有意思的。这里稍微说明一下的是,FFM,就是DeepFM的网络结构:(关注知乎专栏作者:想飞的石头 https://zhuanlan.zhihu.com/burness-DL 查看源代码)


其中,如果是更多算法、
单机的训练没有什么大的问题,测试集45840617条样本,模型的支持,仅仅能够work的框架就很不错了,得知暂时paddlepaddle不能把部分放到gpu上面跑,这方面,连续性特征;
离散型特征:一些被脱敏处理的类目特征
Overview
整个项目主要由几个部分组成:

数据处理
这里数据处理主要包括两个部分:
连续值特征值处理:
滤除统计次数95%以上的数据,主要focus在sparse相关的数据对象,