任职要求
1、熟悉GPU体系结构,熟练掌握CUDA/triton,熟练掌握C++或Python语言。
2、深入了解PyTorch等深度学习框架的架构和运行原理,深入理解大模型训练多维并行架构,如Tensor并行、流水线并行、序列并行等。
3、深入理解多模态模型结构,如ViT、DiT等,了解开源多模态大模型结构,如qwen-vl、llama等。
4、熟悉至少一种主流开源推理引擎(如 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo等)的底层机制与源码魔改。
5、熟悉量化、剪枝、蒸馏、投机推理、步数蒸馏等前沿推理加速及模型小型化技术方案。