首页
推荐
搜索
单位
简历
APP
双选会
海优 热门图标
理聘AI

理聘网-职位详情页,昇腾通信研发工程师(AIInfra)

昇腾通信研发工程师(AIInfra)
30-60W/年
投简历
聊一聊
地点图标 深圳
工作经验图标 1-3年
教育经历图标 本科
职位描述
计算机科学与技术
人工智能
软件工程
工作年限要求:2 是否能接受应届生:是 岗位职责: 1.昇腾平台通信算子开发与优化: 基于华为昇腾AI处理器集群,设计并实现高性能通信算子;开发并优化大模型训练中的核心通信原语如AllReduce、AllGather、ReduceScatter、Broadcast等,特别针对梯度同步、模型参数分发场景;针对昇腾芯片的异构通信架构(片上NoC、芯片间HCCS、节点间RDMA/IB)进行通信路径优化 2.大模型分布式训练通信栈构建:构建面向千亿参数大模型训练的高效通信库,支持数据并行、模型并行、流水线并行混合场景;优化ZeRO优化器系列(ZeRO-1/2/3)在昇腾平台上的通信实现,减少显存占用同时保持通信效率;开发通信计算重叠(Overlap)机制,通过异步通信、流水线调度最大化训练吞吐 3.拓扑感知与拥塞控制:实现拓扑感知的通信算法,自动适应昇腾集群的物理拓扑(Pod内全连接、Pod间层次化);开发动态通信策略选择,根据消息大小、拓扑特征自动选择最优通信算法(Ring、Halving-Doubling、Tree等);设计拥塞控制机制,避免多流通信时的带宽争用与延迟抖动 4.通信性能分析与调优:使用昇腾通信性能分析工具(如AscendProfiler通信视图、hccl-test工具);分析大模型训练中的通信热点,定位通信瓶颈(延迟、带宽、同步开销);为典型大模型训练任务(如Qwen3训练)提供通信优化方案与最佳实践 5.软硬件协同优化:深入理解昇腾HCCS(华为集群通信服务)硬件特性,实现软硬件协同优化;优化Host-Device通信,减少PCIe数据拷贝与同步开销;参与昇腾通信库开源生态建设 任职要求: 1.优先3年以上高性能计算或分布式训练通信开发经验,其中至少1年专注于昇腾平台HCCL开发或优化,熟悉计算机体系结构和分布式系统 2.精通华为昇腾HCCL(HuaweiCollectiveCommunicationLibrary),有实际调优经验,熟悉昇腾芯片间通信架构如HCCS(片上互连)、RoCE、InfiniBand,了解昇腾多机多卡训练通信配置与性能调优方法 3.熟悉主流通信库实现原理(如NCCL、MPI、OpenMPI),了解Ring-AllReduce、Double-Binary-Tree等算法,熟练掌握昇腾等性能分析工具,能够独立分析复杂通信问题(如死锁、性能抖动、带宽不达标) 4.加分项:有千亿参数大模型在昇腾集群上训练,并主导通信优化经验;在开源通信库(NCCL、OpenMPI、UCX)中有代码贡献;有通信协议栈开发经验(如自定义可靠传输协议、拥塞控制算法) 福利待遇: 1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。 2.提供覆盖全城的免费班车,员工通勤无忧。 3.年度体检、佳节礼包、生日惊喜等福利拉满。 4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。
发布时间:2026.02.11
工作地点
深圳市大数据研究院
深圳市大数据研究院
地点图标地点圆形图片
单位简介
深圳市大数据研究院(Shenzhen Research Institute of Big Data),是在深圳市委、市政府的支持下于2016年3月组建成立的市属二类事业单位,其前身是香港中文大学(深圳)副校长罗智泉教授领衔的大数据信息处理及应用创新团队。2019年,研究院被正式授牌成为深圳市基础研究机构之一。 研究院以数学为基础,以数据为驱动,以重大应用为导向,聚焦网络系统优化、人工智能大模...
查看更多
福利待遇
五险一金
大牛带队
定期体检
子女教育
相似职位
安全提示图标 理聘安全提示
求职中如遇到招聘方扣押证件、要求提供担保或收取财务、强迫入股或集资、收取不正当利益或其他违法情形,提高警惕并立即举报
下载app提示-背景图
理聘小程序
随时随地看职位
投递反馈秒知道
微信小程序-二维码图
深圳市大数据研究院
其他事业单位
热招 54 个职位
单位主页
Ai入口图
猜你喜欢
更多