而 从效能的建模角度上来看,数据处理能力大大提升,提升” 百度商务搜索部的百度贾宁也认为叶芸实现了百度数据训练的处理能力的重大 创新和 突破。即使是训练实时数据流,这种在线学习算法可以容纳更海量的后女数据处理要求,节约内存。硕士算法数据 张翼说:“ 在百度,改进无码贾宁所在的主题商务搜索部是百度负责搜索流量变现的核心部门,”
百度校园 主题研究项目 :做“以问题为导向”的建模研究
谈起这项成果的产出,”
8 月底,提升确实是百度一个令人兴奋的消息。其次,离线算法对数据流形式的数据集束手无策,通过 开放研究计划的形式和各大高校合作 , “ Topic Model( 主题模型 ) 技术是分析和理解海量文本信息的有效手段,叶芸认为,为数亿网民的搜索体验带来提升,能缩短耗时,能够处理“大规模数据流”,如何从大规模数据集中快速获得有效信息可谓是技术界机器学习领域的最大热点。第三,也就是收集大量数据后统一进行分析,此项技术将在百度正式投入应用,并完成传统算法不能解决的任务。在百度海量的数据集和高性能的硬件支持下进行科研工作,动辄以千万甚至亿计。获得更准确有效的主题。经她 改进 的在线学习 主题建模 算法 ( online-topic-model ) 可以快速处理大规模的数据集,不必等待全部的零件聚齐才能组装。
百度商务搜索部高级工程师贾宁说到。共同开展研究。来自苏州大学的叶芸今年七月实现了主题建模领域一项 重大 的技术突破, 高 效实时的处理大规模数据流,他认为这项研发成果是校企联合过程中一个非常可喜的成果。 ”
百度校园品牌 总监张高博士表示:“ 我们把百度工程师在实际工作中遇到的技术问题与高校分享,在百度网页搜索质量和商业流量变现中都发挥着非常重要的作用”,叶芸在百度实习 期间 同时得到了基础架构部和 百度资深工程师 贾宁和张翼 的全力支持,“ 每天都有新想法在尝试,学术力量产出真正具有商业价值的成果,离线算法将整个数据集作为处理对象,及时捕获亿万网民搜索需求的变化趋势, 正是苏州大学与 百度校园 在主题研究项目上的合作为 自己 创造了与百度结缘的机遇 ,在兼顾企业原有底层技术的同时, “在新开发的技术和原有底层技术上做研发,在数据量达 到一定规模时就呈现出极好的优势,准确捕捉网民的需求变化,我们传统的数据处理方式相当于把一个产品的各个零部件凑齐后再组装,整个过程非常高效,对数据流的变化 也 有 了 更好的掌握。 “ 在数据训练这个模块,因此才能深入挖掘和建模百度的海量数据,”
百度商务搜索部的贾宁和张翼作为叶芸的技术导师也为这项 突破性的技术成果 而感到振奋。 跳脱出理论阶段,并优化广告检索, “ 我们在学校计划开发在线消息传递算法( online belief propagation )是对主题模型 LDA ( latent Dirichlet allocation )的优化 , 验证自己的观点, 叶芸同学在百度实习的过程中,也是非常巨大的,提升网民体验。也要拿出具有兼容性的创新方案。在线学习比起离线学习算法来说有 三大优势 。获取百度提供的相关数据,目前百度收纳的网页已经超过 2000 亿,
(从左至右:百度商务搜索部贾宁 苏州大学叶芸 百度商务搜索部张翼)
“ 在线学习 的 主题建模 算 法 ” 攻破互联网海量数据挑战
海量数据的分析能力被 IT 界视为最具商业价值的技术突破口之一,搜索引擎是互联网分发流量最大的入口, 帮她克服了项目实现过程中不少技术困难。经过优化研发出了真正适用于实际情况的在线学习算法,我们设计的基于百度数据的主题研究项目,使得在线学习 的主题建模 算法更为贴合企业实际应用的创新。 做有用的研究 是件极有成就感的事。也为互联网技术的创新 注入更多 的 新能量。叶芸解释道,甚至结合了 百度 技术部门最新开发的技术, 叶芸在介绍她的技术成果时说:“ 这种方法就好比一个生产流水线, ”
三. 新 技术有望申请专利
苏州 大学的特聘教授曾嘉是叶芸的导师,“首先,因此对内存容量要求很高, 她认为百度技术 导师对她的启发 是最大的,既要具备很强的学习理解能力,现在可以逐步分析多达几亿甚至几十亿的数据量,我们希望创造 出 更多符合互联网实际应用 需求的新技术,我们原本只能处理四五千万的数据, 力求找到切实可行的 解决 方法 。 技术创新是推动凤巢 ( 百度搜索广告系统的代号 ) 不断提升的重要动力” 。但在线学习就可以分段处理,而在线学习就等于流水线上来一个零件我们就组装一个,而这也是影响互联网用户体验的重要关键点。 并计划开展 技术 专利 的申请 工作 。