揭秘字节跳动基于 HPC 的大规模机器学习技术
| 2022-04-08 15:52
前沿技术资深大咖首度开讲
随着智慧科研、自动驾驶、基因测序、量化投资等大量新兴产业的发展,现代产业对模型训练有了大量的需求,模型体积也呈现爆发式地增长。而大模型训练给底层基础设施,尤其是计算能力带来了不小的挑战。
4 月 14 日,火山引擎开发者社区技术大讲堂第一期将为大家揭秘字节跳动基于 HPC 的大规模机器学习技术。字节跳动经过业务实践打磨的机器学习技术将首次亮相开发者社区,并由技术负责人项亮公开深度分享,与广大开发者互动。同时,承载机器学习平台的超大规模 HPC 基础设施也将首度在社区分享。
活动时间:2022/04/14(周四)19:30-21:00
活动形式:线上直播
《火山引擎大规模机器学习平台架构设计与应用实践》
项亮|字节跳动 AML 负责人
本次分享将围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等 AI 工程化实践,全面介绍如何以开发者的极致体验为核心,进行机器学习平台的设计与实现,带大家了解当前机器学习应用落地过程中的挑战以及火山引擎如何应对这些挑战。
分享主要内容:
- 机器学习应用开发过程中的挑战
- 火山引擎机器学习平台的架构
- 字节跳动内部及行业头部客户的机器学习应用实践案例
《大规模高性能计算集群架构及优化实践》
叶璐|火山引擎云计算研发工程师
冯瑞青|火山引擎云计算研发工程师
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享将主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践,带大家了解火山引擎支撑大规模高性能计算集群的架构和优化实践。
分享主要内容:
- 模型训练的趋势及对基础设施的要求
- 火山引擎高性能计算实例相关产品介绍及平台架构
- 支撑超大规模训练的 RDMA 网络架构和优化
- 字节跳动内部及合作伙伴的业务实践
扫码立即报名
扫码进入活动群