3D理解/生成算法实习生

自变量机器人科技(深圳)有限公司| 深圳/北京
实习算法硕士
发布于 2026-06-17

职位描述

1. 3D/4D Feedforward 基础模型研发:研究并实现高泛化性的 3D/4D 前向生成模型。突破传统的单场景逐次优化限制,构建从单/多目图像或视频流到高精度 3D/4D 资产的推理重建管线。 2. 2D 视频到 4D 内容的升维(数据引擎):研发前沿算法将大规模互联网 2D 视频或机器人实机视频“升维(Lifting)”为高精度 4D 动态场景。重点攻克时空一致性、几何拓扑稳定性、以及物体运动与背景环境的解耦重建,构建规模化的3D/4D数据。 3. 3D/4D 自监督世界模型构建:构建面向机器人任务的 3D/4D 自监督学习框架。通过海量无标注视频数据,训练能够理解空间几何演变、接触物理规律及时间因果规律的世界模型,使智能体具备在 3D 空间内进行长程时空预测与物理推理的能力。 4. 3D/4D VLA 模型集成与端到端优化:探索将 3D/4D 表征(如 3D Tokens/Volumes)深度注入 Vision-Language-Action (VLA) 框架。研究如何利用空间几何特征增强策略网络的泛化能力,实现基于 3D 空间感知的端到端高精度动作执行。 5. 动作条件下的 4D 动态反馈生成:研发 Action-conditioned 4D Generation 技术。基于智能体当前的动作指令,预测环境及物体的 4D 动态演变,提供具备物理真实性、可交互的反事实(Counterfactual)想象环境。

任职要求

1. 计算机科学、人工智能、机器人学或相关专业优先,硕士及以上学历优先。 2. 具备深厚的计算机图形学与 3D 视觉功底。精通 3DGS、4D-Splatting、NeRF 等显式/隐式表征,熟悉从视频中提取几何与动态特性的算法(如 SfM, SLAM, Multi-view Geometry)。 3. 熟悉主流生成模型(Diffusion Models, DiT, Transformers)及其在 3D/4D 领域的变体(如 LRM 架构、Video-to-4D)。 4. 熟悉自监督学习、表征学习,有处理大规模无标注视频数据经验者优先。 5. 具身智能与 VLA:熟悉主流 VLA 框架或大规模预训练策略网络,了解动作空间建模与多模态对齐。 6. 精通 PyTorch,具备大规模分布式训练经验。 7. 在 CVPR, ICCV, NeurIPS, ICLR, SIGGRAPH, ICRA 等顶级会议发表过高质量论文,有开源项目贡献者优先。 8. 对构建“通用物理大脑”充满热情,具备卓越的快速学习能力,能独立解决具身智能领域最前沿的工程与算法挑战。

相关职位推荐