职位描述
SRE/云原生运维工程师实习生(AI for Ops 方向)
一、岗位职责
🔹 AI for Ops 场景探索与辅助落地
- 参与 LLM、AI Agent、OpenClaw 等前沿技术在运维场景的探索,协助开展故障根因分析(RCA)、智能日志诊断、工单自动化处理等方向的原型验证与工程落地。
- 参与 AI 技术与运维流程的融合实践,助力智能化运维体系搭建。
🔹 可观测性体系建设辅助
- 协助维护 Prometheus、Grafana、AlertManager 监控告警体系,负责监控大盘维护、告警规则配置与数据整理分析。
- 参与 EFK、Loki 日志平台日常运维,协助完成采集配置、索引管理与基础查询优化,支撑故障排查与业务分析。
🔹 云原生基础设施与集群运维支持
- 协助维护公有云(阿里云/百度云/AWS 等)基础资源,完成虚拟机、网络、存储等资源的日常监控、配置变更与基础问题排查。
- 参与 Kubernetes 集群日常运维,协助检查集群状态、部署基础应用、收集日志并定位常见问题,保障集群稳定运行。
- 协助梳理容器化部署规范、维护配置模板,沉淀标准化操作文档。
### 🔹 CI/CD 与自动化工具开发支持
- 协助维护、调优 CI/CD 流水线,排查配置问题,提升研发交付效率。
- 使用 Python/Golang 编写自动化脚本、简易运维工具,减少重复操作,协助落地基础设施即代码(IaC)理念。
🔹 生产稳定性保障辅助
- 参与生产故障复盘与根因分析,协助整理处理流程、编写故障预案与运维知识库。
我们能提供什么?
- AI-First 工程文化**:配备不限量 Claude Code、Cursor、Codex 等前沿 AI 开发工具,助力高效学习与工作。
- 一对一带教**:资深工程师全程指导,深度接触 AI Agent、云原生、CI/CD 主流技术栈。
- 实战机会**:参与真实业务项目,深耕 LangChain、LangGraph、Harness、K8s 等技术落地。
- 成长体系**:定期技术分享、内部培训,搭建完整技术知识体系,助力职业发展。"