工作年限要求:5
是否能接受应届生:否
岗位职责:
1.智算集群资源调度平台架构与研发:基于Kubernetes构建面向大规模智算集群(≥千卡规模)的资源调度平台;设计并实现GPU/NPU异构资源调度策略,支持算力分时复用、拓扑感知调度、弹性配额管理;开发节能调度算法,基于负载预测的动态功耗控制、基于利用率感知的节点启停策略;实现多维度调度,支持CPU/内存/显存/网络带宽/存储IO等多资源维度的综合调度决策;设计高可用、可扩展的调度平台架构,支持万级节点规模管理
2.数据治理与算子知识库建设:构建智算集群的统一数据治理框架;设计并实现资源使用数据采集、存储与分析流水线,覆盖利用率、功耗、故障等维度;开发性能数据血缘追踪系统,支持从训练任务到物理硬件的全链路性能溯源;构建面向大模型训练的算子性能知识库,实现算子知识问答和支撑算子自动生成
3.安全合规与产品化:设计并实现多租户安全隔离方案:网络隔离、数据加密、权限控制;满足等保三级/四级要求,建立安全审计、漏洞管理、入侵检测机制;将安全能力产品化封装,形成可交付的安全调度模块;将调度平台能力封装为标准化产品或解决方案
4.系统稳定性与性能优化:设计调度系统的高可用架构,实现故障自愈、状态同步;优化大规模调度决策延迟,支持秒级千任务调度决策;基于历史数据预测集群容量需求,指导硬件采购与部署
5.技术引领与团队建设:制定调度平台技术路线图,跟踪业界最新技术(如Kueue、Volcano、Katalyst等);指导中级工程师,建立团队技术规范与最佳实践;与硬件团队、算法团队、运维团队紧密协作,推动平台落地
任职要求:
1. 至少3年Kubernetes调度器开发或深度优化经验,熟悉kube-scheduler扩展机制
2.熟悉调度框架、优先级与抢占、亲和性策略,熟练掌握装箱算法、负载均衡、弹性伸缩等经典调度算法
3.掌握数据治理方法:有数据采集、存储、分析系统开发经验,了解数据血缘、质量监控
4.有实际安全整改项目经验,熟悉等保要求,具备安全产品化落地经验,了解零信任架构、容器安全、网络安全策略
5.精通Go/Python,熟悉Linux内核机制,具备系统级问题排查能力,具备复杂系统架构设计经验,能够设计高并发、高可用的分布式系统,熟悉微服务架构、服务网格、可观测性体系建设
6.加分项:有大型智算/超算中心调度系统开发经验;有绿色计算/节能调度项目经验(如参与国家绿色数据中心项目);熟悉Kubernetes生态调度项目(如Volcano、Kube-batch、Kueue)并有贡献;有安全产品认证经验(如等保测评、安全评估)
福利待遇:
1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。
2.提供覆盖全城的免费班车,员工通勤无忧。
3.年度体检、佳节礼包、生日惊喜等福利拉满。
4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。