职位描述
【岗位职责】
AI for Ops 场景探索:参与 LLM、AI Agent、OpenClaw 等前沿技术在运维场景的探索(故障根因分析、智能日志诊断、工单自动化处理);
可观测性体系建设:协助维护 Prometheus、Grafana、AlertManager 监控告警体系;参与 EFK、Loki 日志平台日常运维;
云原生基础设施与集群运维:协助维护公有云资源(阿里云/百度云/AWS)与 Kubernetes 集群;
CI/CD 与自动化工具开发:协助维护、调优 CI/CD 流水线;使用 Python/Golang 编写自动化脚本;
生产稳定性保障:参与生产故障复盘与根因分析,编写故障预案与运维知识库。