任职要求:
职位描述:1.深度参与大模型VLA强化微调工作,包括:监督微调、离线强化预训练、真机强化学习;2.设计优化VLA强化微调算法,突破模仿学习上限,减少人工数据依赖。岗位职责:1.模型研发与优化:(1)负责视觉语言行动模型(VLA)的端到端研发,包括架构设计、数据处理、训练优化及真机部署二、探索多模态输入(视觉、语言、动作)到机器人动作输出的映射逻辑,优化模型效率和精度;(2)实现主流框架如OpenVLA、RDT-1B、PIO等的改进与适配。2.技术研究与创新:(1)跟踪VLA领域前沿技术(如流匹配、动作分块架构),探索新算法在具身智能中的应用;(2)研究强化学习(DQN/PPO/SAC)、模仿学习(BC/IRL)与VLA的融合方法。
研究方向:
负责视觉语言行动模型(VLA)的端到端研发,包括架构设计、数据处理、训练优化及真机部署二、探索多模态输入(视觉、语言、动作)到机器人动作输出的映射逻辑,优化模型效率和精度;