服务器运维实习生

上海稀宇科技有限公司| 北京
实习基础架构本科
发布于 2026-04-13

职位描述

一、为什么加入我们 1. 直面万卡级 GPU 集群 —— 你将接触到行业最前沿的 AI 算力基础设施,日常工作围绕大规模 GPU服务器展开,积累的经验在整个行业都是稀缺的; 2. 没有技术壁垒的团队 —— 你的主线是硬件运维,但我们团队内部不设方向墙。自动化开发、监控体系、服务器交付流程、带外管理……只要你有兴趣,都可以深入参与。我们希望你在实习期间能建立对团队整体业务的全局理解,而不是只做一个方向的螺丝钉; 3. 以转正为目标的培养 —— 这个岗位不是找人来打杂的。我们的目标是培养一位能长期服务于团队整体业务的正职同学,实习期间会有体系化的带教,帮你从单点执行逐步成长为能独立负责模块的工程师; 4. 扁平高效的协作方式 —— 团队决策链路短,技术讨论开放直接,好的想法不需要层层审批就能落地。 二、我们在做什么 MiniMax 正在构建驱动下一代 AGI 的算力基础设施。我们的团队负责管理数以万计的 GPU服务器——每天都可能有服务器出现故障,我们的工作就是让它们稳定运转,坏了快速发现、快速修复,保障大模型训练和推理的算力供给。 三、你将做什么 你的主线工作是 GPU 服务器硬件运维,包括: 1. GPU 服务器的故障诊断与修复,硬件巡检与预防性维护; 2. 大规模服务器的交付与上架; 3. 硬件监控与告警的跟进处理,持续提升集群运行效率。 同时,根据你的兴趣和能力,你也有机会参与: - 运维自动化工具开发(Python / Bash / Ansible) - 监控告警体系建设(Prometheus 等) - 服务器带外管理(BMC/IPMI、Redfish)相关的工程实践

任职要求

四、我们期待你 基础要求: 1. 熟悉 Linux 系统基本操作与常用命令; 2. 对服务器硬件有基本了解(CPU、内存、硬盘、网卡、RAID 等),愿意动手拆装和排障; 3. 掌握 Python 或 Shell 脚本,能编写简单的自动化工具; 4. 做事细致有责任心,有较强的问题排查意识与自驱学习能力; 5. 实习时长 6 个月及以上,以转正为目标优先。 加分项: 1. 有 IDC 或服务器运维实践经验,熟悉 GPU 服务器硬件; 2. 了解 BMC/IPMI、Redfish 等带外管理技术; 3. 有 Ansible、Prometheus 等运维工具的使用经验; 4. 对 AI 基础设施方向有兴趣。

相关职位推荐