工作年限要求:2
是否能接受应届生:是
岗位职责:
1.大模型系统架构开发:
a.设计并实现高性能、可扩展的大模型训练与推理系统,优化分布式计算、显存管理、通信效率等关键模块。
b.开发或改进大模型框架(如Verl、vLLM、Megatron等),支持十亿级/百亿级/千亿级参数的稳定训练与高效推理。
2.性能优化与调优:
a.解决大模型在训练/推理中的瓶颈问题(如计算、存储、通信),通过算子融合、流水线并行、量化压缩等技术提升效率。
b.针对硬件(GPU/昇腾)特性进行底层优化,实现低延迟、高吞吐的推理服务。
3.基础设施构建:
a.搭建大模型开发与部署的全栈工具链,包括数据预处理、分布式训练集群管理、模型服务化(如vLLM、SGLang)等。
b.设计容错、弹性伸缩的推理平台,支持多租户、高并发场景需求。
4.前沿技术探索:
a.跟踪LLM领域最新进展(如MoE、RLHF、多模态),将研究成果工程化落地。
b.探索大模型与边缘计算、知识图谱、具身智能等技术的结合。
任职要求:
1.熟练掌握大模型训推框架(如Megatron/vLLM/SGLang/Verl)的开发和优化,熟悉分布式系统。
2.扎实的算法基础,熟悉Transformer架构及大模型关键技术(如KVCache、FlashAttention)。
3.优秀的编程能力(Python/C++),熟悉Linux开发环境与容器化技术(Docker/K8s)。
4.加分项:有百亿以上参数的大模型训推部署和优化经验;熟悉LLM生态工具链(如HuggingFace、LangChain、LoRA)
福利待遇:
1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。
2.提供覆盖全城的免费班车,员工通勤无忧。
3.年度体检、佳节礼包、生日惊喜等福利拉满。
4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。