百度凤巢广告AI大揭秘:GPU驯服千亿参数,深度学习效率暴增!

mysmile 5个月前 (11-15) 广告新闻 42 0
百度凤巢广告AI大揭秘:GPU驯服千亿参数,深度学习效率暴增!

百度凤巢广告系统AI技术深度解密:GPU加速千亿参数模型训练实战

来源:中国网

想象一下,在全球抗疫的关键时刻,百度研究院西雅图办公室于3月2日清晨7点,通过远程连线向MLSys顶级AI会议的听众分享了一项突破性研究——揭秘凤巢广告系统的核心AI技术:分布式分层GPU参数服务器如何支撑大规模深度学习广告系统。

这篇论文系统回顾了百度自2010年起在广告AI领域的系列创新:

1、2010年,百度率先部署分布式超大规模机器学习模型,并引入参数服务器存储架构。

2、2013年,百度升级至分布式深度学习模型,参数规模突破千亿级。

3、2014年,百度推出大规模向量近邻检索(ANN)和最大内积检索(MIPS)技术并投入商用(注:相关成果斩获NIPS2014最佳论文奖),显著提升广告召回精度。

4、2019年KDD会议上,百度发表MOBIUS论文,通过近邻检索技术实现广告匹配效率的飞跃。

5、2017年,百度广告AI团队启动分布式GPU系统(4-8块GPU卡)替代传统CPU集群,本论文正是这一革新的集中体现。

论文核心聚焦于如何用轻量级GPU-SSD集群训练千亿参数模型。

传统机器学习模型参数多在百万级,而百度广告系统需处理千亿维特征数据,模型参数达千亿规模,存储需10TB空间。以往需数百CPU节点协同,但GPU显存有限(仅32GB),无法直接加载全量模型。尽管GPU算力优势明显,工业界长期无法用其训练广告模型。

论文提及2015年百度采用哈希技术压缩模型,虽提升逻辑回归效率,但压缩存在损耗。为追求极致精度,必须回归原始千亿参数训练。

2017年起,百度创新融合GPU与SSD,首创分布式层级参数服务器方案。面对SSD读取速度慢于内存的挑战,团队攻克系统级难题,全球首次实现商用级GPU-SSD深度学习广告系统。

当前系统仅需4个GPU节点,训练速度比150CPU节点快2倍,性价比提升9倍!这不仅加速模型迭代,更让研究人员能以更低成本验证新策略。系统扩展性优异,1-4GPU节点测试均呈现线性效率增长,为未来万亿级模型训练铺平道路。

值得一提的是,论文第一作者赵炜捷博士出自百度研究院博士后项目。该项目由CTO王海峰博士推动,旨在支持青年学者专注前沿探索。

该系统与百度飞桨深度学习平台深度融合,助力国产AI生态建设。

互动问答

如何分析竞争对手的广告投放策略?-ZOL问答

如何快速定位同行的竞价广告投放区域?... 如何分析竞争对手的广告投放策略?广告讨论回复(3)主题:精准广告追踪

扫描二维码

手机扫一扫添加微信