职位描述
1. 大数据平台保障:负责Hadoop、Spark、Hive、Flink、ClickHouse、HBase、Kafka等大数据生态组件的集群运维,保障集群高可用性、高可靠性;针对集群性能瓶颈(如资源占用过高、任务延迟、数据倾斜等)进行分析与优化,提升平台处理能力。
2. 故障应急与风险管控:建立健全大数据平台监控告警体系(含硬件、软件、网络、数据链路等),快速响应并处理各类运维故障(如集群宕机、任务失败、数据丢失等),降低故障对业务的影响;定期开展风险评估与应急演练,提升团队风险预判与应急处置能力。
3. 数据安全与合规保障:负责大数据平台的数据安全与合规管理,落实数据加密、权限管控、日志审计等安全措施;配合内外部合规检查,确保运维工作符合行业规范与公司制度。
4. 运维体系搭建与管理:主导大数据运维体系规划、建设与优化,制定标准化运维流程(含集群部署、扩容、备份、监控、故障处理等),输出运维标准规范、应急预案等规范文档,提升运维效率与标准化水平。
5. 跨部门协作:对接开发、业务、数据等跨部门团队,理解业务需求与技术痛点,提供运维支撑与解决方案;协同推进大数据平台的迭代升级、新业务上线等相关运维保障工作。