大模型高效系統(tǒng)推理工程師
崗位職責(zé):
●針對端(手機/智能終端設(shè)備)、邊(邊緣智能盒)、云(數(shù)據(jù)中心)的異構(gòu)算力環(huán)境(CPU/GPU/NPU等),按照項目需求設(shè)計并構(gòu)建高效的大語言模型(LLM)、多模態(tài)模型專屬推理系統(tǒng)。
●針對大模型推理效率及成本進行優(yōu)化,解決算力堵點、優(yōu)化緩存效率、動態(tài)降低模型推理時的計算冗余,實現(xiàn)低成本的大模型推理部署。
●與算法團隊緊密協(xié)作,將大語言模型、多模態(tài)模型(如圖文理解、語音交互等)集成到推理系統(tǒng)中,優(yōu)化模型在實際場景中的推理效率(如模型量化、剪枝、異構(gòu)算子優(yōu)化)。
●編寫系統(tǒng)設(shè)計文檔、技術(shù)方案與代碼注釋,確保推理系統(tǒng)的可維護性、可擴展性及標(biāo)準(zhǔn)化交付。
任職要求:
(一)基本條件
●碩士及以上學(xué)歷,計算機科學(xué)、軟件工程、電子工程等相關(guān)專業(yè)。
●5年以上高性能計算、模型推理系統(tǒng)研發(fā)經(jīng)驗,有大語言模型/多模態(tài)模型部署、異構(gòu)算力優(yōu)化、端邊云協(xié)同項目經(jīng)驗者優(yōu)先。
(二)專業(yè)技能
●熟悉大語言模型(如GPT系列、LLaMA、BERT)和多模態(tài)模型(如StableDiffusion、CLIP)的推理原理及優(yōu)化方法,具備模型輕量化(量化、剪枝、蒸餾)和加速部署經(jīng)驗。
●精通DNN高性能推理計算框架(如TensorRT、ONNXRuntime、MNN、TNN),掌握CUDA/CuDNN、OpenCL、ARMNEON等異構(gòu)編程技術(shù),能針對CPU/GPU/NPU等硬件特性優(yōu)化推理算子。
●熟悉分布式推理架構(gòu)(如DeepSpeed、Megatron-LM推理優(yōu)化),掌握模型并行、數(shù)據(jù)并行、流水并行等分布式策略,具備大規(guī)模集群推理系統(tǒng)調(diào)優(yōu)經(jīng)驗。
●了解端邊云協(xié)同技術(shù)(如邊緣計算框架KubeEdge、云原生平臺K8s/Docker),熟悉邊緣設(shè)備(如智能攝像頭、工業(yè)網(wǎng)關(guān))的算力約束與部署要求。
(三)工具與框架
●有開源推理框架(如ONNXRuntime、TritonInferenceServer)貢獻經(jīng)驗或大規(guī)模模型推理系統(tǒng)落地案例。
●具備語音識別、圖像生成等多模態(tài)任務(wù)的端邊云協(xié)同推理實戰(zhàn)經(jīng)驗。
●熟熟練使用Python/C++,具備高性能代碼開發(fā)能力;熟悉PyTorch/TensorFlow等深度學(xué)習(xí)框架的推理部署流程。
●對算力資源調(diào)度(如任務(wù)分配、資源隔離)有實踐經(jīng)驗,熟悉容器化部署與Serverless推理架構(gòu)。
(四)能力素質(zhì)
●具備復(fù)雜系統(tǒng)問題分析能力,能快速定位異構(gòu)算力環(huán)境下的推理性能瓶頸并設(shè)計優(yōu)化方案。
●有強烈的技術(shù)探索精神,關(guān)注大模型推理前沿技術(shù)(如稀疏推理、動態(tài)圖優(yōu)化、近似計算),具備創(chuàng)新落地能力。
●良好的團隊協(xié)作與跨領(lǐng)域溝通能力,能與算法、硬件、產(chǎn)品團隊高效配合,推動技術(shù)方案落地。
●具備嚴(yán)謹(jǐn)?shù)墓こ趟季S,重視代碼質(zhì)量與系統(tǒng)可維護性,熟悉CI/CD流程與DevOps工具鏈。
簡歷接收郵箱:DoNI-recruit@pcl.ac.cn
郵件標(biāo)題注明:應(yīng)聘某某崗位+本人姓名+高校人才網(wǎng),【快捷投遞:點擊下方“立即投遞/投遞簡歷”,即刻進行職位報名】。