職位描述

職位名稱:高性能網(wǎng)絡(luò)研發(fā)工程師
職位描述:
1.設(shè)計、開發(fā)與優(yōu)化面向AI訓(xùn)練/高性能計算(HPC)場景的高性能網(wǎng)絡(luò)通信架構(gòu),支撐大規(guī)模分布式計算需求;
2.主導(dǎo)RDMA(RoCE/InfiniBand)、GPUDirect、NCCL等技術(shù)的深度調(diào)優(yōu),解決網(wǎng)絡(luò)與GPU協(xié)同工作的性能瓶頸;
3.開發(fā)高效集合通信算法,提升多節(jié)點多GPU集群的通信效率,降低AllReduce、Broadcast等操作時延;
4.構(gòu)建GPU-aware網(wǎng)絡(luò)協(xié)議棧,優(yōu)化數(shù)據(jù)從網(wǎng)絡(luò)到GPU顯存的零拷貝傳輸機(jī)制;
5.參與超大規(guī)模集群網(wǎng)絡(luò)故障診斷與性能分析工具鏈建設(shè),提升系統(tǒng)魯棒性;
6.跟蹤C(jī)UDA-Aware MPI等前沿技術(shù),推動技術(shù)落地生產(chǎn)環(huán)境。
技能要求:
1.精通C/C /Python,網(wǎng)絡(luò)協(xié)議棧/高性能組件開發(fā)經(jīng)驗;
2.深入理解RDMA協(xié)議棧(Verbs API)、RoCEv2/InfiniBand架構(gòu)及流量控制機(jī)制;
3.熟悉NVIDIA GPU架構(gòu)(如Ampere/Hopper),有CUDA/GPU Direct RDMA開發(fā)調(diào)試經(jīng)驗;
4.掌握NCCL、OpenMPI等集合通信庫內(nèi)部原理,具備性能瓶頸分析能力;
5.熟悉主流網(wǎng)絡(luò)加速技術(shù)(DPDK、SR-IOV、TCP/IP Offload);
6.具備Kernel Bypass、Zero-Copy、PCIe P2P數(shù)據(jù)傳輸?shù)葍?yōu)化實戰(zhàn)經(jīng)驗。
職位要求:
1.本科及以上學(xué)歷,計算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)工程、通信工程等相關(guān)專業(yè);
2.擁有高性能網(wǎng)絡(luò)研發(fā)工作經(jīng)驗,有實際的大規(guī)模集群網(wǎng)絡(luò)項目開發(fā)經(jīng)驗;
3.有在云服務(wù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)中心等領(lǐng)域進(jìn)行高性能網(wǎng)絡(luò)研發(fā)背景者優(yōu)先;
4.具備良好的問題解決能力,能夠快速定位和解決復(fù)雜的網(wǎng)絡(luò)問題;
5.對技術(shù)創(chuàng)新有強(qiáng)烈的熱情,具備良好的學(xué)習(xí)能力和創(chuàng)新精神,能夠跟蹤并掌握最新的網(wǎng)絡(luò)技術(shù)發(fā)展趨勢;
6.具備優(yōu)秀的團(tuán)隊合作精神和溝通能力,能夠與不同背景的團(tuán)隊成員緊密合作,共同完成項目目標(biāo);
7.良好的英語閱讀和寫作能力,能夠閱讀和理解英文技術(shù)文檔和資料。
工作地點
地址:北京北京


職位發(fā)布者
HR
深圳市騰訊計算機(jī)系統(tǒng)有限公司


-
互聯(lián)網(wǎng)·電子商務(wù)
-
1000人以上
-
股份制企業(yè)
-
深圳市南山區(qū)高新區(qū)高新南一路飛亞達(dá)大廈5-10樓
相似職位
-
教務(wù)主任 面議應(yīng)屆畢業(yè)生 本科昆明長鴻實驗中學(xué)
-
美團(tuán)配送渠道經(jīng)理 16000-20000元應(yīng)屆畢業(yè)生 大專北京三快科技有限公司
-
雙十一快遞行業(yè)臨時工 3000-5000元應(yīng)屆畢業(yè)生 不限浙江丹鳥物流科技有限公司
-
包吃住 年前結(jié)清 當(dāng)天安排住宿 5000-6000元應(yīng)屆畢業(yè)生 不限四川新起程企業(yè)管理有限公司
-
邀請應(yīng)聘 面議應(yīng)屆畢業(yè)生 不限廣州小鵬汽車科技有限公司
-
預(yù)結(jié)算審核員 6000-8000元應(yīng)屆畢業(yè)生 大專金芒果裝飾工程有限公司