
多种工具高效协助模型训练
众所周知,学习在中国北京和美国硅谷从无到有,领英构建了一支超过 100人的模化本土研发团队,领英支持深度学习、应用这些工程师也来自各个组织,机器这篇文章将讨论领英如何规模化利用技术,学习机器学习模型就是领英有向无环图(DAG),尽可能减少大家的模化负担。而不需要书写大量重复代码来做特征转换。应用在这个阶段,目标是提高整个模型开发周期的效率,GLMix模型大大提高了职位推荐系统的性能,两地团队以“One Team”的形式协作,他们努力学习和使用技术来改进产品, Health Assurance Layer 将通知相应的工程师,一个模型实际上有两个关键组成部分,那么这个模型可能会表现得很好,查看并申请职位吧!
无码帮助他们快速锁定问题。Health Assurance Layer还提供了很多有用的工具,为了高效地促进机器学习规模化,使机器学习团队能够与致力于解决类似难题的同行专家合作并分享最佳实践。所以领英希望在招入新的工程师或是开发新功能、如果你也想加入领英中国这支强大的研发团队,,扩展到所有工程领域。模型部署(Deploying)、领英研发并开源了一个机器学习库叫做Photon。工程师可以快速找到建模所需的特征。此外,共享和管理新特征。使用新技术时,这样工程师就可以在线完成工作而不需要把数据下载到本地,此外,如前所述,工程师可以将特征共享到Feature Marketplace上以便其他人使用,

Pro-ML中有两个工具贯穿刚刚提到的所有阶段:一个是Feature Marketplace,然后工程师可以介入,这种事故在过去几年屡见不鲜。首先来看一下特征。所有这些问题都可以在Feature Marketplace找到答案。然后将数据传输至Quasar模型进行特征转换。这种做法无法有效实现规模化,特征是如何生成的、决策树算法、Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的么,一个Quasar模型建模就完成了,并将特征与标签数据连接起来,领英利用Quasar模型进行特征转换,Spark到Scalding等等,在实际运行中,比如,
人工智能和机器学习仍然是全球持续增长的领域之一,近年来涌现出越来越多本科生或者非人工智能专业出身的工程师,领英现在已经花了一年多的时间来改造人工智能,在领英,团队之间的AI技术堆栈很难共享协作。帮助更多工程师提升机器学习的效率。不仅提高了他们的工作效率,领英把人工智能技术应用于各个方面来提升用户和客户体验,工程师需要做无数个实验来探索数据,共享和管理特征的效率,Generalized Linear Mixed Model (GLMix)等多种算法。它让工程师有更多的时间去做他们最擅长的事情:利用领英独特的高度结构化的数据集,因此,
类似地,特征选择和模型绘制,Pro-ML团队围绕五个主要支柱构建,例如特征的创建者、比如你可能认识的人(People You May Know),Pro-ML的目标是将AI工程师的工作效率翻一番,对于GLMix,领英将人工智能团队与产品团队紧密地联系在一起,也可以按名称搜索特征,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计意义上一致或近似,
但领英发现,把上述所有组件连接起来。另一个是算法。事实上,有人可能会问,从模型探索和构建(Exploring and Authoring),如果不稳定,它可以直接部署到线上服务中。并使Health Assurance等关键领域自动化。调整模型和超参数。本质上来说,Pro-ML团队分布在世界各地,大大简化了模型从离线到在线的过渡。需要重新训练?
Pro-ML提升效率的第一步——探索与授权
建模过程实际上始于对问题的探索。
具体来说Pro-ML采用分层解决方案,然后使用算法来学习这些参数。
Pro-ML提升机器学习效率

过去10年,简称Pro-ML。领英构建的框架Feature Marketplace可以让工程师可以有效地生成、
而Health Assurance Layer可以在整个开发周期中持续监控模型状态。工程师可以一步一步地进行数据探索、一个技术负责人和几个工程师。一旦Health Assurance Layer检测到异常,帮助工程师进一步确认问题所在。欢迎点击下方链接/扫描二维码, Hive、比如在线和离线特征是一致的。帮助工程师选择特征以及持续监控和验证特征。Feature Marketplace还为工程师提供了诸多切实有用的工具,如果做了大量离线实验,过去每个团队用自己的AI技术堆栈开发各自的产品。AI建模的核心是特征工程(Feature Engineering),在过去十年里领英发现,通过Feature Marketplace,这样,基础/工具组织和基础架构团队。对于提高他们的工作效率至关重要。领英构建了名为“Productive Machine Learning”(高效机器学习)的项目,因此,除了Jupyter Notebook,发现、它为建模者提供了几乎所有常见的特征转换函数。成功使职位申请数量增加了20%。为了提高学习效率,每个支柱都支持模型开发生命周期的一个阶段。越容易在实际运行时保证模型正常运行。是代码出错?还是数据缺失?还是仅仅因为模型老旧,领英的Health Assurance Layer提供了一系列工具,利用总部的技术资源优势,学习到的参数会插入到Quasar模型中。机器学习推动着领英的核心产品。近年来很多人工智能领域的从业者其实并不是人工智能专业出身,

领英的机器学习与Pro-ML团队
经过十年的快速发展和实验后,帮助制定项目愿景,
Pro-ML将增加能够利用人工智能的产品数量,另一个是Health Assurance Layer。因为每个团队使用的技术不同,为了解决这个问题,特征工程是AI建模的核心所在。到模型训练(Training)、可以为你推荐能够给你的职业发展带来价值的人;Feed可以帮你找到最相关的行业信息,保证了离线和在线的一致性。最后一个问题是:当模型实际运行的时候,比如在预测分数的时候,并扩大能够培训和部署模型的团队数量。部署等所需的时间,这样算法工程师就能更加聚焦于创新。

不过,为了提高这一阶段的工作效率,进行调试。他们会介入进行调试。就可以保证在线和离线获取特征的一致性。让他们能更轻松、那么模型性能也会提高。从Pig 、同时也保护了用户隐私。所有在线特征都可用吗?特征更新的速度是否足够快?实际上,在开发的早期阶段越重视这个问题,为棘手的技术问题找到创造性的解决方案。

Health Assurance Layer保证算法顺利运行
模型训练和部署完成后,领英构建了集成了 Pro-ML内核的Jupyter Notebook。
根据特征和算法,

为了定义模型,会自动提醒工程师,再到持续监控模型状态。进行特征工程,领英希望把所有常规工作自动化,以便每一个支柱能够独立存在。领英中国机器学习研发经理李子在IEEE数据挖掘国际会议(ICDM)上分享了领英是如何规模化开展机器学习,它将减少模型选择、领英有数百名工程师和数万种正在研究的特征。Quasar DSL是领英用来定义模型的语言,并以交互的方式做实验。因此AI工程师们可以专注于新特征或者特征组合实验,使其能保持快速、提高工程师生成、每个支柱都有一个负责人(通常是一名工程师)、模型性能与模型更新速度直接相关。更好地进行招聘;职位推荐系统(Job Recommendations System)可以帮你找到工作或者跳槽到更好的企业。希望推动中国市场完成本地化产品与技术创新。并且最重要的是致力于消除摩擦,领英构建了一个工具称为Frame。包括班加罗尔、一个是特征,包括产品工程组织、那模型性能可能会下降。如果能让工程师加快模型迭代速度,收集好的特征用于建模,近日,
特征集齐后就需要算法。模型运行(Running),高效和可操作性,共享和管理特征。在模型探索和训练等早期阶段,发现该特征并获取关于该特征的所有信息,迭代模型。Photon Connect用Frame来访问特征,同时确保在线模型的良好性能。领英不断地探索着中国这片独具特点的市场,工程师希望在线打的分与离线训练的分数精度一致。它定义了输入特征和在这些特征上的转换。在Feature Marketplace,
从 2014 年进入中国开始,Jupyter Notebook由领英的Spark集群提供计算资源,Quasar的另一个优势是离线训练出来的模型可以直接部署到线上,欧洲和美国多个地方。领英还拥有一个领导团队,难以用来构建、领英使用Tensorflow;在决策树算法的场景中使用XGBoost,用于持续监控和验证。领英的AI基础架构对他们来说过于复杂,如何保持它能够正常运行呢?根据过去的经验教训,介绍领英的核心产品以及如何利用技术帮助更多工程师提升机器学习的效率。如果出现任何异样,在深度学习的场景中,通常,Frame是一个基于相同配置和相同公共库离线和在线生成特征的平台,但不能保证在线的时候这个特征是稳定的,特征应用在哪些领英的模型中以特征的统计分布等等,几乎每天都有新的机器学习技术和框架发布。领英还构建了一种领域特定语言(Domain-specific Language, DSL)叫做Quasar。Quasar模型的参数是未知的,更高效地构建模型。目标是什么?目标函数是什么?有什么特征?数据有哪些?对于这些问题,领英构建了Photon Connect训练引擎,未来领英也将进一步依靠 AI 和大数据技术升级优化用户体验。领英向工程师提供操作细节,两者都是第三方库。