首页
推荐
搜索
单位
简历
APP
双选会
海优 热门图标
理聘AI

理聘网-职位详情页,系统研发工程师(AIInfra)

系统研发工程师(AIInfra)
60-80W/年
投简历
聊一聊
地点图标 深圳
工作经验图标 5-10年
教育经历图标 本科
职位描述
计算机科学与技术
人工智能
软件工程
工作年限要求:5 是否能接受应届生:否 岗位职责: 1.智算集群资源调度平台架构与研发:基于Kubernetes构建面向大规模智算集群(≥千卡规模)的资源调度平台;设计并实现GPU/NPU异构资源调度策略,支持算力分时复用、拓扑感知调度、弹性配额管理;开发节能调度算法,基于负载预测的动态功耗控制、基于利用率感知的节点启停策略;实现多维度调度,支持CPU/内存/显存/网络带宽/存储IO等多资源维度的综合调度决策;设计高可用、可扩展的调度平台架构,支持万级节点规模管理 2.数据治理与算子知识库建设:构建智算集群的统一数据治理框架;设计并实现资源使用数据采集、存储与分析流水线,覆盖利用率、功耗、故障等维度;开发性能数据血缘追踪系统,支持从训练任务到物理硬件的全链路性能溯源;构建面向大模型训练的算子性能知识库,实现算子知识问答和支撑算子自动生成 3.安全合规与产品化:设计并实现多租户安全隔离方案:网络隔离、数据加密、权限控制;满足等保三级/四级要求,建立安全审计、漏洞管理、入侵检测机制;将安全能力产品化封装,形成可交付的安全调度模块;将调度平台能力封装为标准化产品或解决方案 4.系统稳定性与性能优化:设计调度系统的高可用架构,实现故障自愈、状态同步;优化大规模调度决策延迟,支持秒级千任务调度决策;基于历史数据预测集群容量需求,指导硬件采购与部署 5.技术引领与团队建设:制定调度平台技术路线图,跟踪业界最新技术(如Kueue、Volcano、Katalyst等);指导中级工程师,建立团队技术规范与最佳实践;与硬件团队、算法团队、运维团队紧密协作,推动平台落地 任职要求: 1. 至少3年Kubernetes调度器开发或深度优化经验,熟悉kube-scheduler扩展机制 2.熟悉调度框架、优先级与抢占、亲和性策略,熟练掌握装箱算法、负载均衡、弹性伸缩等经典调度算法 3.掌握数据治理方法:有数据采集、存储、分析系统开发经验,了解数据血缘、质量监控 4.有实际安全整改项目经验,熟悉等保要求,具备安全产品化落地经验,了解零信任架构、容器安全、网络安全策略 5.精通Go/Python,熟悉Linux内核机制,具备系统级问题排查能力,具备复杂系统架构设计经验,能够设计高并发、高可用的分布式系统,熟悉微服务架构、服务网格、可观测性体系建设 6.加分项:有大型智算/超算中心调度系统开发经验;有绿色计算/节能调度项目经验(如参与国家绿色数据中心项目);熟悉Kubernetes生态调度项目(如Volcano、Kube-batch、Kueue)并有贡献;有安全产品认证经验(如等保测评、安全评估) 福利待遇: 1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。 2.提供覆盖全城的免费班车,员工通勤无忧。 3.年度体检、佳节礼包、生日惊喜等福利拉满。 4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。
发布时间:2026.02.11
工作地点
深圳市大数据研究院
深圳市大数据研究院
地点图标地点圆形图片
单位简介
深圳市大数据研究院(Shenzhen Research Institute of Big Data),是在深圳市委、市政府的支持下于2016年3月组建成立的市属二类事业单位,其前身是香港中文大学(深圳)副校长罗智泉教授领衔的大数据信息处理及应用创新团队。2019年,研究院被正式授牌成为深圳市基础研究机构之一。 研究院以数学为基础,以数据为驱动,以重大应用为导向,聚焦网络系统优化、人工智能大模...
查看更多
福利待遇
五险一金
大牛带队
定期体检
子女教育
相似职位
安全提示图标 理聘安全提示
求职中如遇到招聘方扣押证件、要求提供担保或收取财务、强迫入股或集资、收取不正当利益或其他违法情形,提高警惕并立即举报
下载app提示-背景图
理聘小程序
随时随地看职位
投递反馈秒知道
微信小程序-二维码图
深圳市大数据研究院
其他事业单位
热招 54 个职位
单位主页
Ai入口图
猜你喜欢
更多