12月17日上午,在中國(guó)信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負(fù)載高可用架構(gòu),以滿足AI大模型企業(yè)級(jí)應(yīng)用在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)和高性能算力背景下,對(duì)云服務(wù)處理能力可擴(kuò)展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和故障快速恢復(fù)的需求。
以為生成式 AI 打造持續(xù)的卓越用戶體驗(yàn)為目的,阿里云全棧AI負(fù)載高可用架構(gòu)可達(dá)到GPU故障預(yù)測(cè)準(zhǔn)確率92%,千卡規(guī)模集群連續(xù)訓(xùn)練有效時(shí)長(zhǎng)大于99%,秒級(jí)模型自動(dòng)保存、分鐘級(jí)故障恢復(fù);每分鐘10000個(gè)pod擴(kuò)展,分鐘級(jí)自動(dòng)擴(kuò)容;核心模型服務(wù)99.99%的API SLA,模型應(yīng)用服務(wù)全鏈路可觀測(cè)等重要的AI業(yè)務(wù)高可用目標(biāo),在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場(chǎng)景下,實(shí)現(xiàn)了對(duì)Gen AI應(yīng)用業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性的全面保障。
在論壇上,2025年中國(guó)數(shù)字化治理領(lǐng)域最新評(píng)估結(jié)果揭曉,阿里云成為首批通過(guò)信通院“企業(yè)用云治理能力成熟度評(píng)估”評(píng)測(cè)的兩家企業(yè)之一,同時(shí)獲得該項(xiàng)能力評(píng)估最高等級(jí)。
阿里云全棧AI負(fù)載高可用架構(gòu)正式發(fā)布
在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的應(yīng)用場(chǎng)景和技術(shù)倍增,云上企業(yè)需要處理和存儲(chǔ)的數(shù)據(jù)量呈指數(shù)增長(zhǎng),AI驅(qū)動(dòng)的應(yīng)用在高負(fù)載情況下,對(duì)保障業(yè)務(wù)的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性均提出了更高要求。
為此,阿里云在升級(jí)云平臺(tái)自身的技術(shù)服務(wù)能力的同時(shí),將GPU、異構(gòu)算力集群、容器集群、存儲(chǔ)、向量數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)平臺(tái)等AI負(fù)載高可用全面融入云平臺(tái)架構(gòu)設(shè)計(jì),圍繞大模型訓(xùn)練微調(diào)、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié),構(gòu)建具備“高可用模型訓(xùn)練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負(fù)載高可用架構(gòu),實(shí)現(xiàn)了從通用負(fù)載向AI負(fù)載的可用性演進(jìn),為客戶AI業(yè)務(wù)構(gòu)建提供穩(wěn)定的業(yè)務(wù)服務(wù)和出色的用戶體驗(yàn)。
在高可用模型訓(xùn)練方面,阿里云AI基礎(chǔ)設(shè)施高可用能力融入云服務(wù)整體架構(gòu)設(shè)計(jì),基于AI算法的故障預(yù)測(cè),實(shí)現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析,GPU故障預(yù)測(cè)準(zhǔn)確率達(dá)92%,同時(shí)將異常預(yù)測(cè)接入自愈鏈路,訓(xùn)練恢復(fù)自愈率超90%、千卡規(guī)模集群連續(xù)訓(xùn)練有效時(shí)長(zhǎng)大于99%,實(shí)現(xiàn)秒級(jí)模型自動(dòng)保存、分鐘級(jí)故障恢復(fù);同時(shí),CPFS 高性能存儲(chǔ)集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫(xiě),能夠更好地防止數(shù)據(jù)丟失,并提升訓(xùn)練的穩(wěn)定性和可靠性。在網(wǎng)絡(luò)層面,阿里云自研的高性能網(wǎng)絡(luò),業(yè)界首創(chuàng)雙平面的高可用網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)Link和設(shè)備中斷,訓(xùn)練任務(wù)不中斷。
在推理資源方面,阿里云容器計(jì)算服務(wù)ACS的彈性能力實(shí)現(xiàn)每分鐘可以進(jìn)行10000個(gè)pod擴(kuò)展,分鐘級(jí)自動(dòng)擴(kuò)容;PAI-EAS模型在線服務(wù),適用于實(shí)時(shí)推理、近實(shí)時(shí)異步推理等多種AI推理場(chǎng)景,能感知每個(gè)請(qǐng)求的執(zhí)行進(jìn)度,做到更公平的任務(wù)調(diào)度,提高擴(kuò)縮容效率。同時(shí),阿里云將跨區(qū)域的主動(dòng)式重路由技術(shù)運(yùn)用到數(shù)據(jù)中心間的通信,從而在跨數(shù)據(jù)中心推理網(wǎng)絡(luò)上,達(dá)到跨域帶寬業(yè)界最高的 99.995% SLA,實(shí)現(xiàn)秒級(jí)內(nèi)重新路由,提供一個(gè)更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。
對(duì)于在實(shí)時(shí)語(yǔ)音交互、實(shí)時(shí)AI搜索等高性能場(chǎng)景有推理需求的客戶,阿里云百煉模型服務(wù)平臺(tái),基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù),核心模型服務(wù)API達(dá)到 99.99% SLA,高性能場(chǎng)景核心用戶用例中的首包延時(shí)小于300毫秒,能夠有效解決應(yīng)用開(kāi)發(fā)、模型調(diào)用等過(guò)程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應(yīng)變慢等問(wèn)題,提升Gen AI應(yīng)用推理與構(gòu)建時(shí)的用戶體驗(yàn)。
在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)庫(kù)服務(wù)面向不同計(jì)算引擎、多種 AI 框架進(jìn)行了深度集成,形成承載PB級(jí)甚至EB級(jí)大規(guī)模數(shù)據(jù)統(tǒng)一的存儲(chǔ)底座,同城冗余容災(zāi),高達(dá)99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點(diǎn)續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務(wù)高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務(wù),跨Region AI數(shù)據(jù)的就近讀寫(xiě)和負(fù)載均衡,滿足AI數(shù)據(jù)多活的強(qiáng)一致性,AI數(shù)據(jù)冷備、熱備、故障自動(dòng)切換,解決AI數(shù)據(jù)故障風(fēng)險(xiǎn)。
AI時(shí)代與用戶共建云上的IT新治理
AI時(shí)代的浪潮中,企業(yè)對(duì)于高可用架構(gòu)的需求不僅僅停留在節(jié)點(diǎn)的穩(wěn)定性上,而是在更高的層面追求智能化運(yùn)營(yíng)。阿里云全棧AI負(fù)載的高可用架構(gòu)已為企業(yè)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ),而進(jìn)一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運(yùn)維管理與治理能力。通過(guò)與用戶攜手,阿里云致力于在云環(huán)境中構(gòu)建一個(gè)AI-Native的智能化、自動(dòng)化和可持續(xù)的IT治理體系,為企業(yè)的創(chuàng)新之路保駕護(hù)航。
阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗(yàn)總結(jié)為一系列的方法論和架構(gòu)設(shè)計(jì)原則,推出了阿里云卓越架構(gòu) Well-Architeched framework,意在幫助企業(yè)在云上構(gòu)建一個(gè)安全、穩(wěn)定、高效的應(yīng)用環(huán)境。面向AI技術(shù)融入帶來(lái)的更復(fù)雜更大規(guī)模的,根據(jù)云計(jì)算的彈性、實(shí)時(shí)交付、自助化等特點(diǎn),阿里云卓越架構(gòu)進(jìn)一步升級(jí)了用云企業(yè)運(yùn)維管理和治理規(guī)則基線的最佳實(shí)踐,依靠Well-Architeched云卓越架構(gòu)來(lái)學(xué)習(xí)-度量-優(yōu)化,落地治理潛在的風(fēng)險(xiǎn)隱患,從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運(yùn)營(yíng)效率。
阿里云開(kāi)放平臺(tái)負(fù)責(zé)人何登成表示,“在云上構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負(fù)責(zé)提供云平臺(tái)的可靠性,確保提供的云服務(wù)可用性符合或超過(guò)阿里云服務(wù)等級(jí)協(xié)議;用戶需要根據(jù)業(yè)務(wù)需求,選擇合適的產(chǎn)品服務(wù),并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu),來(lái)確保云上應(yīng)用的可靠性?!?/p>
尤其在AI迅猛發(fā)展的今天,企業(yè)更應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺(tái)的基礎(chǔ)設(shè)施達(dá)到高可用,總結(jié)成三個(gè)"面向":面向失敗的設(shè)計(jì)架構(gòu),面向精細(xì)的運(yùn)維管控,面向風(fēng)險(xiǎn)的應(yīng)急快恢。同時(shí),用戶可以在建設(shè)持續(xù)穩(wěn)定的云環(huán)境過(guò)程中,面向AI并結(jié)合AI,通過(guò)良好的AI模型訓(xùn)推架構(gòu)設(shè)計(jì)、AI數(shù)據(jù)資產(chǎn)處理與存儲(chǔ)、智能診斷與風(fēng)險(xiǎn)預(yù)測(cè)等手段,進(jìn)一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。
阿里云獲信通院企業(yè)用云治理能力成熟度評(píng)估最高等級(jí)
據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級(jí)要求》,企業(yè)用云治理能力成熟度評(píng)估共分為L(zhǎng)1-L5共5個(gè)等級(jí),分別為L(zhǎng)1基礎(chǔ)級(jí)、L2應(yīng)用級(jí)、L3優(yōu)秀級(jí)、L4先進(jìn)級(jí)、L5卓越級(jí)。該分級(jí)要求不僅適用于對(duì)云服務(wù)使用方用云治理能力成熟度進(jìn)行評(píng)估,也適用于對(duì)云服務(wù)提供商云服務(wù)治理產(chǎn)品、技術(shù)能力成熟度進(jìn)行評(píng)估。阿里云測(cè)評(píng)結(jié)果為L(zhǎng)4+,是目前階段云服務(wù)提供商實(shí)際獲得的最高等級(jí)。
此前,阿里云企業(yè)用云治理能力曾兩度獲得信通院評(píng)測(cè)認(rèn)可,包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領(lǐng)域年度明星解決方案及產(chǎn)品;2023年“云治理中心”獲信通院科技治理領(lǐng)域年度明星解決方案。
今年,針對(duì)企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢(shì)分析與洞察,阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報(bào)告》(https://developer.aliyun.com/ebook/8419),報(bào)告調(diào)研取樣來(lái)自400多家企業(yè)客戶,橫跨互聯(lián)網(wǎng)、金融、新零售、交通等多個(gè)行業(yè),旨在幫助用戶理解云治理概念、企業(yè)用云實(shí)踐的現(xiàn)狀及變遷趨勢(shì),并基于云治理框架的五大分類(lèi)(即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運(yùn)營(yíng)),報(bào)告作為企業(yè)云上旅程的實(shí)踐樣本,為面向AI時(shí)代做好IT新治理和云上架構(gòu)優(yōu)化提供更多的參考與決策依據(jù)。
(完)