职位描述
一、为什么加入我们
1. 直面万卡级 GPU 集群 —— 你将接触到行业最前沿的 AI 算力基础设施,日常工作围绕大规模 GPU服务器展开,积累的经验在整个行业都是稀缺的;
2. 没有技术壁垒的团队 —— 你的主线是硬件运维,但我们团队内部不设方向墙。自动化开发、监控体系、服务器交付流程、带外管理……只要你有兴趣,都可以深入参与。我们希望你在实习期间能建立对团队整体业务的全局理解,而不是只做一个方向的螺丝钉;
3. 以转正为目标的培养 —— 这个岗位不是找人来打杂的。我们的目标是培养一位能长期服务于团队整体业务的正职同学,实习期间会有体系化的带教,帮你从单点执行逐步成长为能独立负责模块的工程师;
4. 扁平高效的协作方式 —— 团队决策链路短,技术讨论开放直接,好的想法不需要层层审批就能落地。
二、我们在做什么
MiniMax 正在构建驱动下一代 AGI 的算力基础设施。我们的团队负责管理数以万计的 GPU服务器——每天都可能有服务器出现故障,我们的工作就是让它们稳定运转,坏了快速发现、快速修复,保障大模型训练和推理的算力供给。
三、你将做什么
你的主线工作是 GPU 服务器硬件运维,包括:
1. GPU 服务器的故障诊断与修复,硬件巡检与预防性维护;
2. 大规模服务器的交付与上架;
3. 硬件监控与告警的跟进处理,持续提升集群运行效率。
同时,根据你的兴趣和能力,你也有机会参与:
- 运维自动化工具开发(Python / Bash / Ansible)
- 监控告警体系建设(Prometheus 等)
- 服务器带外管理(BMC/IPMI、Redfish)相关的工程实践