职位描述
1.负责多模态大模型(如 LLaVA、Qwen-VL、GPT-4V 类架构)的模型设计、训练策略制定与性能优化。
2.研究视觉编码器(ViT/CLIP/SigLIP)与大语言模型的对齐机制,包括投影层设计、指令微调(SFT)、RLHF/DPO 对齐。
3.主导预训练、指令微调、多模态上下文学习(In-context Learning)及模型压缩(量化、剪枝、蒸馏)的全链路。
4.负责模型推理加速(vLLM、TensorRT-LLM、FlashAttention、投机解码等),解决长上下文、高并发场景下的延迟与吞吐问题。
5.构建多模态数据 pipeline(图文对、视频-文本、交互相机数据),设计数据清洗、去重与质量评估策略。
6.将 MLLM 能力封装为 API 或 SDK,支撑产品侧的图文理解、视觉问答、多模态 Agent 等应用。