阿里“NASA”首个重磅武器亮相:机器学习平台 PAI 2.0

2017-03-30 20:35


  • 全面兼容TensorFlow、Caffe和MXNet深度学习框架
  • 集成100余种算法组件

阿里“NASA”计划发布了首个重磅武器。 

3 月 29 日,阿里云在云栖大会深圳峰会上正式发布机器学习平台 PAI 2.0。相比 1.0 版本,PAI 2.0 有多项重大更新,除增加了 100 余种算法外,更重要的是对主流深度学习框架 TensorFlow、Caffe 和 MXNet 的全面兼容。

3 月初,阿里巴巴董事局主席马云宣布启动内部代号为“NASA”的计划,机器学习、芯片、IoT、操作系统、生物识别被明确提及,智能化的产业基础和应用被放在了突出位置。

两年前,阿里云对外发布国内首个机器学习平台 PAI。此次版本的重大升级,标志着阿里云在构建 AI 核心技术能力上又进一步。据悉,阿里“NASA”计划将为 PAI 平台使用者提供强大的技术后盾。

此次PAI2.0的重大升级主要包括以下方面:

1、全面拥抱开源

PAI 2.0 编程接口完全兼容深度学习框架:Tensorflow、Caffe 以及 MXNet,用户只需要将自己本地编写的代码文件上传至云端就可以执行。

Tensorflow、Caffe 和 MXNet 是目前全球主流的深度学习开源框架。Tensorflow 开源算法和模型最丰富;Caffe 是经典的图形领域框架,使用简单;MXNet 分布式性能优异。

对于底层计算资源,PAI 2.0 提供了强大的云端异构计算资源,包含 CPU、GPU、FPGA。在 GPU 方面,PAI 2.0 可以灵活实现多卡调度。 

借助这些框架以及强大的计算资源,用户能非常方便地就可以将计算任务下发到对应的分布式计算机群上,实现深度学习模型训练与预测。

2、更丰富的算法库

PAI 2.0 提供 100 余种算法组件,涵盖了分类、回归、聚类等常用场景,还针对主流的算法应用场景,提供了偏向业务的算法,包含文本分析、关系分析、推荐 3 种类别。

“算法全部脱胎于阿里巴巴集团内部的业务实践,所有算法都经历过 PB 级数据和复杂业务场景的锤炼,具备成熟稳定的特点”,阿里云首席科学家周靖人说。

3、支持更大规模的数据训练

PAI 2.0 新增了参数服务器Parameter Server架构的算法。不仅能进行数据并行,同时还可将模型分片,把大的模型分为多个子集,每个参数服务器只存一个子集,全部的参数服务器聚合在一起拼凑成一个完整的模型。 

其创新点还在于失败重试的功能。在分布式系统上,成百上千个节点协同工作时,经常会出现一个或几个节点挂掉的情况,如果没有失败重试机制,任务就会有一定的几率失败,需要重新提交任务到集群调度。PS 算法支持千亿特征、万亿模型和万亿样本直至 PB 级的数据训练,适合于电商、广告等数据规模巨大的推荐场景。

阿里云首席科学家周靖人说,在过去的一年时间里我们协助客户落地了多项重大的人工智能应用。但人工智能要想真正成为成为普惠科技,需要一款更加通用的生产工具。PAI 2.0 正是为此而生。

人工智能综合了多门学科的技术,对人才要求极其高,除了懂统计学中各种复杂的机器学习算法,还要懂实现逻辑以及分布式架构理论。PAI 可以大幅的降低人工智能的门槛以及开发成本。

从操作界面来看,PAI 没有繁琐的公式和复杂的代码逻辑,用户看到的是各种分门别类被封装好的算法组件。每一个实验步骤都提供可视化的监控页面。在深度学习黑箱透明化方面,PAI 也同时集成了各种可视化工具。 

PAI 的基础设施和计算框架建立在阿里云飞天计算平台之上,通过云的模式大幅降低了计算成本,支持 MR、SQL、MPI、PS、GRAPH 等多种分布式计算框架,对于底层的 CPU 和 GPU 计算机群可以灵活调用。

两年时间里,PAI 在阿里巴巴内部已经被广泛使用。以淘宝搜索为例,搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器,淘宝可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破了规模的瓶颈。 

PAI 还被应用在各种前沿科技领域。华大基因联合阿里云科学家,正使用 PAI 对肺腺癌患者基因进行分析,试图寻找到导致肺腺癌病发的关键基因突变。