近日,中國(guó)電信與上海交通大學(xué)云計(jì)算聯(lián)合實(shí)驗(yàn)室在算力平臺(tái)根技術(shù)方向取得重要進(jìn)展,其研究團(tuán)隊(duì)的論文《Joint Prediction and Matching for Computing Resource Exchange Platforms》被并行與分布式處理領(lǐng)域最具歷史的頂級(jí)會(huì)議——ICPP 2025(International Conference on Parallel Processing)正式接收。這一成果聚焦解決算力服務(wù)平臺(tái)中“算力高效度量”與“智能任務(wù)匹配”的核心難題,為未來的智能算力調(diào)度技術(shù)奠定了堅(jiān)實(shí)理論基礎(chǔ)。
隨著以大模型為代表的新一代人工智能技術(shù)的快速發(fā)展,計(jì)算密集型任務(wù)對(duì)算力資源的需求持續(xù)快速增長(zhǎng)。天翼云基于多年技術(shù)積累在業(yè)界率先推出息壤算力調(diào)度平臺(tái),為算力互聯(lián)互通和跨域共享提供了創(chuàng)新解決方案,同時(shí)在匯聚第三方資源、實(shí)現(xiàn)任務(wù)智能調(diào)度的過程中,也面臨如何準(zhǔn)確評(píng)估集群性能并高效完成任務(wù)匹配等技術(shù)挑戰(zhàn)。
中國(guó)電信云計(jì)算研究院與上海交大電子信息與電氣工程學(xué)院于2024年4月共同成立云計(jì)算聯(lián)合實(shí)驗(yàn)室,致力于從實(shí)際生產(chǎn)業(yè)務(wù)中凝練抽象科學(xué)問題,發(fā)揮雙方各自優(yōu)勢(shì)共同開展云計(jì)算前沿領(lǐng)域的理論和技術(shù)研究。本篇論文研究團(tuán)隊(duì)由上海交通大學(xué)計(jì)算機(jī)學(xué)院、中國(guó)電信云計(jì)算研究院以及天翼云科技有限公司“息壤”產(chǎn)品線共同組成,團(tuán)隊(duì)成員主要包括中國(guó)電信首席科學(xué)家/云計(jì)算研究院院長(zhǎng)吳杰教授、黃瀟瑤研究員,上海交通大學(xué)計(jì)算機(jī)學(xué)院常務(wù)副院長(zhǎng)吳帆教授、鄭臻哲教授、霍達(dá)博士,天翼云智算平臺(tái)事業(yè)部副總經(jīng)理鄢智勇、胡建鋒總監(jiān)、陳浩研究員。
聯(lián)合研究團(tuán)隊(duì)經(jīng)過深入分析,針對(duì)傳統(tǒng)“先預(yù)測(cè)、再匹配”的兩階段架構(gòu)可能帶來的匹配誤差,提出了面向任務(wù)匹配優(yōu)化的性能預(yù)測(cè)方法MFCP(Matching-Focused Cluster Performance Predictor),通過端到端訓(xùn)練機(jī)制,實(shí)現(xiàn)了性能評(píng)估與任務(wù)分配過程的一體化優(yōu)化,顯著降低了因預(yù)測(cè)誤差導(dǎo)致的匹配失效。同時(shí),研究團(tuán)隊(duì)在模型訓(xùn)練過程中引入梯度近似計(jì)算、連續(xù)優(yōu)化松弛等多項(xiàng)優(yōu)化技術(shù),突破了復(fù)雜調(diào)度算法經(jīng)常出現(xiàn)的不可導(dǎo)難題。在多個(gè)實(shí)驗(yàn)場(chǎng)景中,MFCP方法在任務(wù)匹配準(zhǔn)確性、資源利用率和調(diào)度魯棒性方面相較傳統(tǒng)方法均表現(xiàn)出顯著優(yōu)勢(shì),有望進(jìn)一步提升息壤算力調(diào)度平臺(tái)的運(yùn)營(yíng)效能。
圖1:預(yù)測(cè)與匹配的傳統(tǒng)分離模式與MFCP的整合模式
ACM ICPP(International Conference on Parallel Processing)是并行與分布式計(jì)算領(lǐng)域的國(guó)際頂級(jí)會(huì)議(CCF推薦B類),其收錄論文需經(jīng)過國(guó)際權(quán)威學(xué)者的嚴(yán)格評(píng)審,對(duì)論文創(chuàng)新性、技術(shù)深度及工程可行性要求極高。本論文的成功入選,代表著科研團(tuán)隊(duì)在算力服務(wù)平臺(tái)關(guān)鍵問題研究方面獲得國(guó)際學(xué)術(shù)界高度認(rèn)可,也體現(xiàn)出產(chǎn)研協(xié)同在復(fù)雜系統(tǒng)關(guān)鍵技術(shù)攻關(guān)中的重要作用。未來,聯(lián)合實(shí)驗(yàn)室將繼續(xù)聚焦“問題導(dǎo)向、技術(shù)突破、落地應(yīng)用”的科研模式,持續(xù)深化在算力管理和資源調(diào)度等關(guān)鍵技術(shù)方向的研究,攻克更多核心技術(shù)難題,實(shí)現(xiàn)產(chǎn)學(xué)研創(chuàng)新鏈合作共贏。