NVIDIA助力腾讯PCG加快无量推荐系统

行业动态 | 2022-08-23 13:55:07 | 沥拓

案例简介

•在这种情况下使用NVIDIAGPU加快平台、腾讯平台和内容业务集团(PCG)实现了深度学习平台”无量推荐系统”从模型训练到在线推理的全过程GPU加快，整体效率性价比提高1~3倍。

•本案主要用于NVIDIAA100TensorCoreGPU以及相关软件的加速平台。

客户介绍及应用背景

无量推荐系统承载着腾讯平台和内容业务群的推荐场景，包括:腾讯亮点(浏览器)QQ看点，商业化)，腾讯新闻，腾讯视频，腾讯音乐，阅读，应用宝藏，鹅拼写等。无限推荐系统支持日活跃用户达到数亿，其中模型数量达到数千，日均呼叫服务达到1000亿。

无限推荐系统可以在模型训练和推理中进行海量推荐Embedding和DNN模型的GPU计算，是目前行业领先的体系结构设计。

客户挑战

传统的推荐系统具有以下特点：培训是一个基于参数服务器框架的分布式培训问题，用于处理大量数据和稀疏特征。推理通常与大规模分离Embedding和DNN，只能进行DNN的GPU加快。

所以，传统的推荐体系结构也有局限性：

大规模的分布式结构有很多额外的费用，比如网络收发的参数和梯度。

随着DNN进一步提高了模型的复杂性，CPU处理速度开始捉襟见肘。

随着业务的快速增长，日常客户的增加，调用的数量迅速增加，给推荐系统的背景带来了新的挑战：

1、模型比较复杂，计算量比较大，但是参数服务器的分布式架构有效计算比例很低。

2,海量Embedding由于规模大，很难有效利用查询和聚合计算GPU高性能显存和计算力的优点。

应用方案

基于上述挑战，腾讯选择基于上述挑战NVIDIAA100TensorCoreGPU建立无量推荐系统的分布式系统架构。

1、多级存储和存储Pipeline提升，在HPC完成大规模推荐模型GPU高性能训练。

2、基于特征的浏览Power-law分布特征，GPU同时缓存高频特征参数CPU中动态获取低频特征参数，实现完整的大规模推荐模型GPU端到端模型推理。

使用经验及影响

腾讯平台和内容业务群有多种类型的推荐业务场景。例如，信息流推荐QQ浏览器，QQ看点，新闻推荐腾讯新闻，视频推荐腾讯视频，微视，App推荐的应用宝，以及腾讯音乐的音乐推荐和文学推荐。

无限推荐系统为这些推荐的业务场景提供模型培训和推理服务。基于传统的推荐系统体系结构，没有大量的使用CPU资源可以通过分布式架构扩展到TB水平模型的训练和部署，取得了巨大的成功。

随着业务的快速增长，日常客户的增加，调用的数量迅速增加，传统体系结构的局限性限制了推荐体系的体系结构扩展和性能提升。

通过使用GPU培训和推理，单机多卡GPU算力可达几十台CPU机器的计算能力节省了许多额外的分布式费用。通过充分利用A100GPU快速访问高性能显存Embedding，并行算力处理DNN推理，单张A100GPU在相同的延迟下，可以推理10倍以上CPU评分样本。

目前基于GPU推荐体系结构可以提高模型训练和推理比1~3倍。

展望未来，无量推荐系统将不断优化推荐模型GPU应用，利用HPC多机多卡、混合精度等能力，进一步提高推荐场景的使用GPU的性价比。