人工智能专家介绍机器翻译在字节跳动的应用
| 2021-10-22 15:08
字节跳动在全球推出了多款有影响力的产品,包括今日头条、抖音、西瓜视频、飞书,等等,产品和服务覆盖全球 150 个国家和地区。截至 2021 年 6 月,抖音日活跃用户数已经突破 6 亿,字节跳动旗下全线产品总 MAU(月活跃用户)超过 19 亿。
一款全球化的产品,该如何冲破语言阻碍?将产品信息快速传达给不同语言背景的用户,提升产品价值?这是产品全球化过程中需要解决的问题,而机器翻译让计算机替代人工实现语言翻译,提升了内容的翻译与转化速度,大大推动产品与内容的全球化。
2021 年 10 月 30 日,字节跳动技术社区ByteTech将主办对外技术沙龙“机器翻译如何助力字节跳动产品全球化”。邀请字节跳动机器翻译领域的技术专家许晶晶、封江涛、程善伯与熊鹰,体系化地展示字节跳动机器翻译技术的全栈能力,特别是机器翻译助力产品全球化的降本增效方案。例如,应用于火山翻译等多个内部业务的训练推理加速引擎 LightSeq、绿色机器翻译词表 VOLT,以及一体化的深度学习框架 ByCha。
除了展示机器翻译在多领域中的应用现状,讲师们也将针对机器翻译目前所面临的挑战进行分析,引导相关企业和从业者们发散思维,解决行业难题,帮助学习者与从业者推动机器翻译技术的便利化和系统化,助力产品走向全球化道路。讲师分享结束后,沙龙还将有圆桌主题会议和QA答疑,用沉浸式的体验帮助开发者们深入行业,触碰核心技术与关键问题,启发进一步的思考与总结。
讲师阵容
程善伯
程善伯毕业于南京大学,后加入字节跳动人工智能实验室(AI Lab),负责多语言机器翻译平台的能力建设。他长期从事机器翻译相关算法的研究与业务应用,先后 3 次获得国际权威全球机器翻译大赛的多项冠军,并曾在 ACL、EMNLP、NAACL 等会议上发表多篇论文。 机器翻译具有重要巨大的应用价值,无需人工的自然语言翻译可以大大提升产品全球化的效率、实现内容和应用的高效调整与切换。但是机器翻译现有的发展仍不够系统与便利,机器翻译的应用仍面临着巨大的挑战。作为机器学习与自然语言计算的经验者,程善伯将带领我们了解机器翻译的现状、介绍机器翻译的可应用场景,从而引发我们对机器翻译的挑战和未来发展方向的思考。
封江涛
封江涛毕业于复旦大学,后加入字节跳动,主要从事于文本生成技术的研究和应用工作,致力于推动文本生成研究工作的落地。他曾在 IJCAI、AAAI、EMNLP 上发表多篇论文。 近年来,自然语言处理得到了可观的进步,被投入到更广阔生产生活中。但是以现在的研究工作,自然语言处理并不能高效地迁移到实际的业务中。封江涛将介绍一款“从研究到落地”的一体化深度学习框架 ByCha,旨在更加便捷地推动前沿工作落地、提升深度学习算法的开发效率。通过讲座内容,参与者能够了解深度学习训练框架的设计架构,同时基于对 ByCha 的学习理解,能够更方便地进行深度学习模型的开发。
许晶晶
许晶晶是字节跳动人工智能实验室(AI Lab)研究员,在机器学习与自然语言计算方面有着丰富经验,曾在国内外知名学术会议上发表过超过 30 篇顶级论文。 在 2021 年的 ACL 上,字节跳动摘得唯一一篇最佳论文桂冠。这是 ACL 成立 59 年以来,中国科学家团队第 2 次摘得最高奖项。作为论文的第一作者,许晶晶提出了一种全新的词表学习方案 VOLT,在实现同样效果的前提下,降低模型复杂度、节省算力资源与电能消耗,从而促进 AI 产业节能环保。在效率方面,相比主流词表,VOLT 展现了在不同场景中找到最优词表的出色性能,大幅缩短了词表搜索时间。这期沙龙中,她将向我们介绍绿色词表的相关背景、展示 VOLT 核心原理,以及如何衡量词表和寻找最优词表。通过她的讲解,参与者能够掌握 VOLT 的核心原理,并进一步了解机器翻译词表学习的现状。
熊鹰
熊鹰是字节跳动人工智能实验室(AI Lab)资深算法工程师,从事自然语言处理相关的算法工作,参与开发 Lightseq 开源项目。在文本生成、机器翻译、高性能计算与模型压缩有着丰富的经验。 Transformer 是当前众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,在大型模型的训练中存在效率限制。针对这一问题,字节跳动推出了 LightSeq 加速引擎。该引擎优化了 Transformer 训练的计算过程,实现了处理速度的大提升,并被应用于字节跳动的火山翻译、搜索、广告、推荐、教育、电商等多个内部业务,在开源社区获得大量关注。 熊鹰将分享 LightSeq 高性能训练与推理背后的技术原理,并详细介绍使用方法,从学术研究和工业应用的角度,给予从业者帮助和启发。
日程安排
目前,技术沙龙免费对外开放报名中,点此报名,一起探秘“机器翻译”在字节跳动产品里的应用!
沙龙介绍
字节跳动技术沙龙,是由字节跳动技术社区 ByteTech 发起的,面向全行业开发者的技术交流活动。通过搭建一个包容、开放、自由的交流平台,促进前沿技术的普及与落地,帮助技术团队和开发者快速成长。字节跳动技术沙龙的技术分享来源于字节跳动及互联网一线大厂任职的技术专家,针对热点技术方向和实践总结,为技术团队和开发者呈现一场场可供参考的技术盛宴。