浪潮信息彭震：加速智算系統(tǒng)創(chuàng)新，切實(shí)解決大模型算力難題

華夏經(jīng)緯網(wǎng) > 新聞 > 大陸新聞 > 社會(huì)綜合 2023-11-14 12:10:07

　中新網(wǎng)北京11月7日電(邱牧子)2023年，生成式人工智能的爆發(fā)帶來了歷史性產(chǎn)業(yè)機(jī)遇，正在逐步改造重塑社會(huì)、經(jīng)濟(jì)、文化等各個(gè)領(lǐng)域。

　　浪潮信息董事長彭震近日在接受中新網(wǎng)采訪時(shí)稱，生成式AI蓬勃發(fā)展的背后，算力尤其是AI算力已經(jīng)成為驅(qū)動(dòng)大模型進(jìn)化的核心引擎。但大模型時(shí)代的算力供給，與云計(jì)算時(shí)代的算力供給，存在很大的差異性。目前大模型研發(fā)已經(jīng)進(jìn)入萬卡時(shí)代，從事大模型研發(fā)的公司和團(tuán)隊(duì)，普遍面臨“買不起、建不了、算不好”的困局。

　　如何解決上述困境？彭震認(rèn)為，需要以算力基建化改善算力供給，促進(jìn)算力普惠，以算力工程化指導(dǎo)完善算力系統(tǒng)最佳實(shí)踐，提升算力效率，以模型訓(xùn)練工具化手段，降低模型訓(xùn)練門檻，推動(dòng)全棧智算系統(tǒng)創(chuàng)新，通過“三化”融合互補(bǔ)，促進(jìn)產(chǎn)業(yè)鏈條各環(huán)節(jié)協(xié)同配合，加速釋放大模型生產(chǎn)力，打造人工智能產(chǎn)業(yè)良好發(fā)展環(huán)境。

　　一方面，要實(shí)現(xiàn)算力供給基建化，緩解“買不起”困境。彭震表示，大模型對(duì)海量算力資源的消耗，急劇抬高了準(zhǔn)入門檻。除了通過政策引導(dǎo)、政策補(bǔ)貼等方式降低企業(yè)融資成本外，還應(yīng)大力發(fā)展普適普惠的智算中心，通過算力基建化使得智算力成為城市的公共基礎(chǔ)資源，供用戶按需使用，發(fā)揮公共基礎(chǔ)設(shè)施的普惠價(jià)值。用戶可以選擇自建算力集群，或者是采用智算中心提供的算力服務(wù)來完成大模型的開發(fā)。

　　在他看來，通過大力發(fā)展智算中心新基建，中國和美國大模型產(chǎn)業(yè)的發(fā)展已經(jīng)呈現(xiàn)出完全不同的發(fā)展路徑。在美國，算力的私有化決定了大模型產(chǎn)業(yè)技術(shù)只能掌握在少數(shù)企業(yè)手中，而中國大力推動(dòng)的算力供給基建化，為大模型創(chuàng)新發(fā)展提供了一片沃土，將使得整個(gè)產(chǎn)業(yè)呈現(xiàn)“百模爭(zhēng)秀”的全新格局。

　　另一方面，追求算力效率工程化，化解大模型算力系統(tǒng)“建不了”難題。彭震直言，即使解決了算力供應(yīng)的問題，通用大模型開發(fā)仍然是一項(xiàng)極其復(fù)雜的系統(tǒng)工程，如同F(xiàn)1賽車的調(diào)校一樣。F1賽車的性能非常高，但如何調(diào)校好這部賽車，讓它在比賽中不僅能跑出最快圈速，而且能確保完賽，對(duì)整個(gè)車隊(duì)的能力要求是非常高的。

　　彭震認(rèn)為，大模型不應(yīng)是簡(jiǎn)單粗暴的“暴力計(jì)算”，算力系統(tǒng)構(gòu)建也不是算力的簡(jiǎn)單堆積，而是一項(xiàng)復(fù)雜的系統(tǒng)工程，需要從多個(gè)方面進(jìn)行系統(tǒng)化的設(shè)計(jì)架構(gòu)。包括要解決如何實(shí)現(xiàn)算力的高效率、要解決算力系統(tǒng)如何保持線性可擴(kuò)展以及算力系統(tǒng)長效穩(wěn)定訓(xùn)練問題等。

　　“因此，化解大模型‘建不了’難題，根源在于提升算力效率。但目前業(yè)界開源項(xiàng)目主要集中在框架、數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)乃至模型等軟件及算法層面，硬件優(yōu)化的方法由于集群配置的差異，難以復(fù)用而普遍處于封閉狀態(tài)。這就需要具備大模型實(shí)踐的公司將集群優(yōu)化經(jīng)驗(yàn)予以工程化，以硬件開源項(xiàng)目、技術(shù)服務(wù)等多種方式，幫助更多公司解決算力效率低下的難題。”彭震說。

　　此外，還要通過模型訓(xùn)練工具化，解決“算不好”難題。彭震表示，解決“算不好”難題，根本上要保障大模型訓(xùn)練的長時(shí)、高效、穩(wěn)定訓(xùn)練的問題。例如，大模型訓(xùn)練過程的失效故障，大模型訓(xùn)練會(huì)因此中斷，不得不從最新的檢查點(diǎn)重新載入以繼續(xù)訓(xùn)練，這個(gè)問題在當(dāng)前是不可避免的。提高算力系統(tǒng)的可持續(xù)性，不僅需要更多機(jī)制上的設(shè)計(jì)，更依賴于大量自動(dòng)化、智能化的模型工具支撐。

　　由此，彭震進(jìn)一步指出，模型訓(xùn)練工具化保障手段，能夠有效降低斷點(diǎn)續(xù)訓(xùn)過程中所耗費(fèi)的資源，這意味著大大降低訓(xùn)練成本并提升訓(xùn)練任務(wù)的成功率，會(huì)讓更多公司和團(tuán)隊(duì)參與到大模型創(chuàng)新之中。(完)

責(zé)任編輯：黃楊

浪潮信息彭震：加速智算系統(tǒng)創(chuàng)新，切實(shí)解決大模型算力難題

相關(guān)文章