亚洲天堂在线视频,香港三级日本三级少妇三级,伊人色综合久久天天小片,亚洲中文字幕αv天堂

      ITBear旗下自媒體矩陣:

      阿里云全棧AI高可用架構(gòu)發(fā)布,共筑AI時(shí)代云上新治理體系

         時(shí)間:2024-12-27 15:34:40 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

      在近日由中國信息通信研究院主辦的“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”上,阿里云正式揭曉了其全棧AI負(fù)載高可用架構(gòu),這一創(chuàng)新方案旨在滿足AI大模型在企業(yè)級應(yīng)用中對于云服務(wù)處理能力的嚴(yán)苛要求,特別是在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)以及高性能算力背景下,確??蓴U(kuò)展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和快速故障恢復(fù)。

      阿里云此次發(fā)布的架構(gòu),核心目標(biāo)是為生成式AI提供持續(xù)卓越的用戶體驗(yàn)。具體而言,該架構(gòu)能夠?qū)崿F(xiàn)GPU故障預(yù)測準(zhǔn)確率高達(dá)92%,在千卡規(guī)模集群中,連續(xù)訓(xùn)練的有效時(shí)長超過99%,同時(shí)支持秒級模型自動保存和分鐘級故障恢復(fù)。它還具備每分鐘擴(kuò)展10000個(gè)pod的能力,實(shí)現(xiàn)分鐘級自動擴(kuò)容,以及核心模型服務(wù)99.99%的API SLA,確保模型應(yīng)用服務(wù)的全鏈路可觀測性。這些特性在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場景下,為Gen AI應(yīng)用的業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性提供了全面保障。

      在論壇期間,2025年中國數(shù)字化治理領(lǐng)域的最新評估結(jié)果也同步揭曉,阿里云憑借出色的表現(xiàn),成為首批通過信通院“企業(yè)用云治理能力成熟度評估”的兩家企業(yè)之一,并榮獲該項(xiàng)評估的最高等級。這一榮譽(yù)不僅是對阿里云在云治理能力上的認(rèn)可,也體現(xiàn)了其在推動企業(yè)數(shù)字化轉(zhuǎn)型方面的卓越貢獻(xiàn)。

      隨著AI算力需求的不斷增長,以GenAI為代表的應(yīng)用場景和技術(shù)正以前所未有的速度發(fā)展。云上企業(yè)需要處理的數(shù)據(jù)量呈指數(shù)級增長,AI驅(qū)動的應(yīng)用在高負(fù)載環(huán)境下對業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性提出了更高要求。阿里云在升級云平臺技術(shù)服務(wù)能力的同時(shí),將GPU、異構(gòu)算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機(jī)器學(xué)習(xí)平臺等全面融入云平臺架構(gòu)設(shè)計(jì),構(gòu)建了全棧AI負(fù)載高可用架構(gòu)。

      在高可用模型訓(xùn)練方面,阿里云將AI基礎(chǔ)設(shè)施的高可用能力融入云服務(wù)整體架構(gòu)設(shè)計(jì),通過基于AI算法的故障預(yù)測,實(shí)現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析。GPU故障預(yù)測準(zhǔn)確率高達(dá)92%,同時(shí)接入異常預(yù)測自愈鏈路,訓(xùn)練恢復(fù)自愈率超過90%。CPFS高性能存儲集群在超大集群中具備20TB/s的吞吐能力,支持更大、更頻繁的Checkpoint讀寫,有效防止數(shù)據(jù)丟失,提升訓(xùn)練的穩(wěn)定性和可靠性。阿里云自研的高性能網(wǎng)絡(luò)則采用業(yè)界首創(chuàng)的雙平面高可用網(wǎng)絡(luò)架構(gòu),確保網(wǎng)絡(luò)Link和設(shè)備中斷時(shí),訓(xùn)練任務(wù)不中斷。

      在推理資源方面,阿里云容器計(jì)算服務(wù)ACS的彈性擴(kuò)展能力每分鐘可完成10000個(gè)pod的擴(kuò)展,實(shí)現(xiàn)分鐘級自動擴(kuò)容。PAI-EAS模型在線服務(wù)適用于多種AI推理場景,包括實(shí)時(shí)推理和近實(shí)時(shí)異步推理,能夠感知每個(gè)請求的執(zhí)行進(jìn)度,實(shí)現(xiàn)更公平的任務(wù)調(diào)度,提高擴(kuò)縮容效率。同時(shí),阿里云將跨區(qū)域的主動式重路由技術(shù)應(yīng)用于數(shù)據(jù)中心間通信,達(dá)到跨域帶寬業(yè)界最高的99.995% SLA,實(shí)現(xiàn)秒級內(nèi)重新路由,提供穩(wěn)定的網(wǎng)絡(luò)通信延遲。

      對于實(shí)時(shí)語音交互、實(shí)時(shí)AI搜索等高性能場景下的推理需求,阿里云百煉模型服務(wù)平臺基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù)。核心模型服務(wù)API的SLA達(dá)到99.99%,高性能場景核心用戶用例中的首包延時(shí)小于300毫秒,有效解決應(yīng)用開發(fā)、模型調(diào)用過程中的跨區(qū)域TPM限制和高并發(fā)需求下API響應(yīng)變慢等問題,提升用戶體驗(yàn)。

      在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務(wù)針對不同計(jì)算引擎和多種AI框架進(jìn)行了深度集成,形成了承載PB級甚至EB級大規(guī)模數(shù)據(jù)的統(tǒng)一存儲底座。同城冗余容災(zāi)能力高達(dá)99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點(diǎn)續(xù)傳、批量和多線程數(shù)據(jù)操作確保數(shù)據(jù)服務(wù)的高可靠性。這一架構(gòu)支持面向單AZ、雙AZ、三AZ及跨Region的高可用服務(wù),實(shí)現(xiàn)跨Region AI數(shù)據(jù)的就近讀寫和負(fù)載均衡,滿足AI數(shù)據(jù)多活的強(qiáng)一致性要求。

      在AI時(shí)代的浪潮中,阿里云不僅通過全棧AI負(fù)載高可用架構(gòu)為企業(yè)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ),還致力于與用戶共同構(gòu)建一個(gè)AI-Native的智能化、自動化和可持續(xù)的IT治理體系。阿里云推出的卓越架構(gòu)Well-Architeched framework旨在幫助企業(yè)在云上構(gòu)建一個(gè)安全、穩(wěn)定、高效的應(yīng)用環(huán)境。該框架根據(jù)云計(jì)算的彈性、實(shí)時(shí)交付和自助化等特點(diǎn),進(jìn)一步升級了用云企業(yè)運(yùn)維管理和治理規(guī)則基線的最佳實(shí)踐。

      阿里云開放平臺負(fù)責(zé)人表示,構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負(fù)責(zé)提供云平臺的可靠性,確保云服務(wù)可用性符合或超過阿里云服務(wù)等級協(xié)議;用戶則需要根據(jù)業(yè)務(wù)需求選擇合適的產(chǎn)品服務(wù),并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu),確保云上應(yīng)用的可靠性。在AI迅猛發(fā)展的背景下,企業(yè)應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達(dá)到高可用,實(shí)現(xiàn)面向失敗的設(shè)計(jì)架構(gòu)、面向精細(xì)的運(yùn)維管控以及面向風(fēng)險(xiǎn)的應(yīng)急快恢。

      阿里云在企業(yè)用云治理能力方面取得了顯著成就。根據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》,阿里云測評結(jié)果為L4+,這是目前階段云服務(wù)提供商實(shí)際獲得的最高等級。此前,阿里云的企業(yè)用云治理能力已多次獲得信通院的認(rèn)可,并聯(lián)合埃森哲發(fā)布了《云治理企業(yè)成熟度發(fā)展2024年度報(bào)告》。該報(bào)告基于400多家企業(yè)客戶的調(diào)研數(shù)據(jù),旨在幫助用戶理解云治理概念、企業(yè)用云實(shí)踐的現(xiàn)狀及變遷趨勢,并為面向AI時(shí)代的IT新治理和云上架構(gòu)優(yōu)化提供參考與決策依據(jù)。

      舉報(bào) 0 收藏 0 打賞 0評論 0
       
       
      更多>同類資訊
      全站最新
      熱門內(nèi)容
      網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version