职位描述
岗位职责
核心架构设计:聚焦推理服务与MaaS(模型即服务)模块,遵循Cloud Native与AI Native理念,负责智算云平台核心功能的设计、开发与迭代,支撑大模型的高效部署与稳定调用。
推理服务优化:基于KServe、NVIDIA Triton等推理引擎,设计并优化推理服务架构,实现动态批处理、模型量化、模型预热等关键逻辑,适配GPU/NPU异构算力环境,保障服务的高并发处理能力与低延迟响应。
MaaS全流程建设:负责MaaS服务全流程开发,构建模型仓库与版本管理机制,封装标准化RESTful/gRPC API接口,打通从模型研发到线上推理的完整链路,结合容器化技术实现服务的弹性扩缩容。
异构算力调度:借助Volcano/GPU调度器,参与异构算力资源的管理与调度优化,实现推理请求与底层算力的高效匹配,提升整体资源利用率;依托Kubernetes核心能力(编排、自愈、服务发现),保障服务的长期稳定运行。
稳定性与可观测性:践行DevOps理念,配合CI/CD流水线落地服务自动化部署与迭代;构建服务可观测性体系(日志、指标、链路追踪),落地故障自愈、熔断降级、限流等稳定性能力,及时定位并解决线上性能瓶颈。
技术驱动与创新:独立推进模块设计与实现,撰写高质量技术文档;持续跟进智算领域前沿技术(如vLLM、SGLang、TGI等推理框架演进),推动推理服务与MaaS服务的持续优化与创新。