跳到主要内容

字节跳动

团队介绍

Data AML 是字节跳动公司的机器学习中台,为抖音、今日头条、西瓜视频等业务提供推荐、广告、计算机视觉(CV)、语音、自然语言处理(NLP)的训练和推理系统。该团队为公司内部业务部门提供强大的机器学习算力,并在相关业务问题上研究通用性和创新性的算法。同时,通过火山引擎将一些机器学习和推荐系统的核心能力提供给外部企业客户。此外,AML 还在 AI for Science、科学计算等领域进行前沿研究。

课题介绍

大规模推荐系统正越来越多地应用于短视频、文本社区、图像等产品中,模态信息在推荐系统中的作用也愈发重要。传统上,模态信息主要通过迁移学习(Transfer Learning)技术引入推荐模型。在字节跳动的部分产品实践中,模态信息能够很好地作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统研究正变得火热。在工程角度,多模态模型和推荐模型的结合、样本存储、在线推理和离线训练系统的范式也会发生重大变化。

本课题旨在探索超大规模多模态推荐系统中的工程实践方法,研究方向包括:多模态样本的表征、基于 PyTorch 框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用等。

职责描述

  1. 负责公司机器学习系统架构的设计开发,以及系统性能调优;
  2. 解决系统高并发、高可靠性、高可扩展性等技术难题;
  3. 涵盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System 等;
  4. 调研和引入机器学习系统前瞻技术,如最新硬件架构、异构计算系统、GPU 优化技术的落地;
  5. 研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。

职位要求

  1. 2025 届获得博士学位,计算机、软件工程等相关专业优先;
  2. 熟练掌握 Linux 环境下的 C/C++/Go/Python/Java 等 1 至 2 种以上语言;
  3. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
  4. 具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
  5. 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
  6. 有良好的工作文档习惯,及时撰写和更新工作流程及技术文档。

加分项

  1. 熟悉 Kubernetes 架构,有丰富的云原生系统开发经验;
  2. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch / MXNet);
  3. 熟悉 Django、Flask 等相关技术,有后端开发经验;
  4. 有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,高性能计算(HPC),ML 硬件架构(GPU、加速器、网络),机器学习框架,系统机器学习(ML for System),分布式存储;
  5. 有大规模云计算平台或私有云产品架构开发经验。