作為中國電子信息100強企業(yè),某制造業(yè)企業(yè)是一家在 PCB、PCBA、SUB、SIP 等領域具有出色實力的高新技術企業(yè),在電子電路行業(yè)起著舉足輕重的作用。
在集團數字化轉型過程中,傳統(tǒng)架構無法滿足業(yè)務連續(xù)性需求,面臨著業(yè)務發(fā)展與技術創(chuàng)新的挑戰(zhàn)。為了實現新型數字化業(yè)務的需求,集團決定使用深信服超融合基礎設施替換原有的VMware,以適應用戶業(yè)務的動態(tài)變化和增長需求。
老舊的 VMware 虛擬化平臺已無法滿足業(yè)務需求,主要存在以下問題:
缺乏維護:現有的VMware vSphere 5.1 虛擬化平臺已使用超過10年之久,目前已不再享有官方的維護服務,這意味著平臺可能面臨安全漏洞、兼容性問題以及性能瓶頸,同時缺乏必要的技術支持,這將會對業(yè)務和數據帶來風險。
成本問題:VMware對中國大陸用戶的政策調整導致續(xù)費和轉向訂閱模式的成本顯著增加。且VMware平臺的相關組件擴容和秒級備份解決方案的成本也相對較高。
業(yè)務瓶頸:隨著業(yè)務的持續(xù)增長,對計算、存儲和網絡資源的需求日益增加,原有的VMware平臺在處理高并發(fā)業(yè)務時顯得力不從心。這不僅影響了業(yè)務的擴展性和靈活性,還可能導致性能瓶頸,影響用戶體驗和業(yè)務效率。
一、建設方案概述
(一)建設方案
1.整體架構升級
本次項目擬采用深信服超融合基礎設施來替換原有的VMware虛擬化平臺,使用超融合建設普通混閃存儲和高性能混閃存儲兩個資源池,同時對接用戶現有的 DELL FC 外置存儲空間,形成一平臺多存儲的融合資源池。從傳統(tǒng)的單一虛擬化升級為私有云資源池架構,優(yōu)化業(yè)務信息系統(tǒng)架構,更好地適應企業(yè)業(yè)務的動態(tài)變化和增長需求。
原 VMware 配置清單如下:
CPU 配置:20×44 C
內存:20×768 G
磁盤信息:Dell FC 存儲約 100T
備注:ESXI 5.1
本次項目深信服配置清單如下:
CPU 配置:77×32 C
內存:77×768 G
磁盤信息:普通混閃集群 1.2P(緩存比 10%)、高性能混閃集群 600T(緩存比 24%)、全閃集群 600T。多套集群用于業(yè)務區(qū)分(HCI 6.8.0R2)
2.業(yè)務系統(tǒng)遷移策略關鍵業(yè)務系統(tǒng)針對性遷移
在進行業(yè)務系統(tǒng)遷移時,確保業(yè)務連續(xù)性和穩(wěn)定性至關重要。針對SRM、CRM、EKP和PCB_MES等關鍵業(yè)務系統(tǒng)進行詳細的業(yè)務影響分析來評估每個系統(tǒng)在業(yè)務中斷時的潛在影響,并確定它們的RTO和RPO要求,以便制定遷移優(yōu)先級和資源分配。為了最小化業(yè)務中斷,在非高峰時段進行遷移,并采用增量遷移技術來減少對業(yè)務的影響,確保遷移過程能夠最大程度地保障業(yè)務的連續(xù)性和穩(wěn)定性。
3.強大的備份機制CDP模塊實現秒級備份
在可靠性方面,本次項目擬采用數據冗余架構,在兩個相距約五公里的數據中心之間搭建起一座數據冗余的橋梁,實現雙活。確保當數據中心出現故障時,業(yè)務仍然能夠不間斷運行。同時基于深信服超融合的無代理CDP模塊,實現對重要業(yè)務系統(tǒng)的秒級備份。規(guī)劃將1T的 IO 日志存放于虛擬存儲,備份數據存放于外置存儲EDS上,在面對突發(fā)故障時,能夠迅速從備份中恢復數據,做到RPO =1s。
(二)方案優(yōu)勢
1.高性能與高效能提升系統(tǒng)表現
超融合基礎設施在軟硬件層面深度優(yōu)化,在計算資源層面更有效地應對企業(yè)業(yè)務系統(tǒng)的高并發(fā)處理需求,加速復雜生產管理系統(tǒng)、設計模擬軟件以及數據分析工具的響應速度,從而極大提高工作效率。存儲方面使用高性能混閃卷和全閃卷來滿足高IO的性能承載需求。
2.優(yōu)化資源利用率
通過精細化的資源整合和智能調度機制,顯著提升了資源利用效率,確保了業(yè)務系統(tǒng)的靈活性和高效性。這種優(yōu)化允許不同業(yè)務系統(tǒng)根據自身的具體需求動態(tài)分配資源,有效避免了資源的閑置和浪費。特別是在業(yè)務高峰期,系統(tǒng)能夠自動識別并優(yōu)先分配資源給關鍵業(yè)務,保障其性能穩(wěn)定和響應迅速。而在業(yè)務低谷期,系統(tǒng)則能夠智能回收閑置資源,從而減少能源消耗和降低運營成本。
3.成本效益優(yōu)勢,降低軟硬件成本
采用超融合資源池架構簡化數據中心的基礎設施,減少了對多種獨立硬件設備的需求。企業(yè)不再需要依賴于傳統(tǒng)的、由單獨服務器、存儲設備和網絡設備構成的復雜組合。這樣的集成化設計不僅降低了硬件采購成本,還減少了因設備多樣性而產生的維護工作和相關費用,不僅降低了企業(yè)的總體擁有成本(TCO),還增強了系統(tǒng)的可擴展性和靈活性。
4.安全保障提升,數據安全增強
內置的安全防護機制和完善的備份策略,確保了企業(yè)數據的安全性和完整性。CDP 備份保護機制、數據冗余和雙活架構等措施,有效地防止了數據丟失和損壞,有效解決了用戶在數據保護與安全防護方面的后顧之憂。這對于制造業(yè)企業(yè)而言,保護了其研發(fā)數據、用戶信息、生產工藝數據等重要資產,確保企業(yè)的核心競爭力不受影響。
二、遷移過程
本次遷移工程始于 2023 年初,持續(xù)至 2024 年 10 月,歷經近兩年的時間跨度,是一項復雜而艱巨的任務。整個過程可以分為以下幾個主要階段:
(一)前期準備階段
1.業(yè)務分層設計
在正式開始遷移之前,深信服進行了全面而細致的準備工作。首先,對用戶的業(yè)務進行了深入梳理,共識別出 369 臺業(yè)務虛機,并根據業(yè)務重要性和可中斷性將其分為三類:
一類業(yè)務 42 臺,僅在重大節(jié)假日窗口可中斷;
二類業(yè)務 59 臺,可在周六日窗口中斷;
三類業(yè)務 268 臺,可在工作日窗口中斷。
2.平臺風險分析
VMware源端
深信服對原 VMware 配置進行了詳細分析,識別潛在的風險,制定了科學合理的遷移方案。
遷移前期風險及規(guī)避措施
在遷移前期,發(fā)現以下問題并提前通知用戶進行風險規(guī)避:
(1)部分業(yè)務軟件授權與 MAC 地址強關聯(lián),遷移創(chuàng)建時需將網卡 MAC 地址設置一致后再進行遷移。
(2)源業(yè)務虛機內部安裝殺毒軟件可能導致 SCMT 的 agent 進程無法運行,遷移時建議退出殺毒軟件后再安裝 agent。
(3)部分老舊業(yè)務系統(tǒng)由于系統(tǒng)內核較低無法安裝 agent,需進行無代理遷移。且遷移至目的端后可能出現 SCMT 切換失敗,此時需源端關機進行最后一次增量同步后,再在 HCI 目標端拉起。建議先取消 virtio,正常開機后嘗試安裝 tools。
超融合目的端
提前會進行主動服務adeploy巡檢和資源查看,提前發(fā)現和規(guī)避風險,確保遷移資源充裕,如果資源不夠,會及時跟用戶以及市場同事進行相應溝通,保障整體遷移。
(二)分階段遷移階段
1.三類業(yè)務遷移
遷移前期,深信服優(yōu)先將三類業(yè)務遷移至混閃集群。整體采用 SCMT 遷移工具進行點對點遷移,在遷移過程中不影響原有業(yè)務并同步增量數據。大多數業(yè)務系統(tǒng)采用有代理→免代理業(yè)務遷移,遷移穩(wěn)定、數據傳輸速度快,少部分無法安裝agent的業(yè)務采用免代理→免代理業(yè)務遷移。在這個階段,需要密切關注遷移進度和資源使用情況,通過主動服務 aDeploy 巡檢并查看資源,確保遷移過程順利進行。若發(fā)現資源不足,及時與用戶及市場同事溝通,保障整體遷移順利進行。
2.二類業(yè)務遷移
待三類業(yè)務遷移穩(wěn)定后,深信服開始將二類業(yè)務遷移至高性能混閃集群。同樣采用 SCMT 遷移工具,遵循相同的遷移原則和風險規(guī)避措施。在這個階段,需要更加注重業(yè)務的穩(wěn)定性和可靠性,確保在遷移過程中不會對用戶的業(yè)務造成任何不良影響。
3.一類業(yè)務遷移
在五一、國慶等重大節(jié)假日時,深信服將一類業(yè)務遷移至全閃集群。由于一類業(yè)務的重要性和不可中斷性,在遷移過程中需要格外謹慎,提前做好充分的準備工作,包括與用戶的溝通協(xié)調、資源的優(yōu)化配置以及風險的再次評估和規(guī)避。
遷移過程的部分截圖如下:
(三)重點業(yè)務遷移階段
—— 以 PCB_MES 業(yè)務系統(tǒng)為例
PCB_MES 業(yè)務系統(tǒng)作為用戶的核心業(yè)務系統(tǒng),于 2016 年左右新建,運行著 Oracle 11.2 1T 的核心數據庫單機,采用 Linux 5.0 內核 2.6.18。由于系統(tǒng)無法安裝 SCMT 的遷移代理 agent,只能采用免代理方式進行業(yè)務遷移。
整個虛機空間約為 1T,遷移速度約為 80MB/s。在遷移過程中,需要密切關注數據的完整性和一致性,確保不會出現數據丟失或損壞的情況。經過約兩天的時間,完成了大部分數據的遷移。
中午11時33分,執(zhí)行停庫操作,進行最后一次增量同步后切換。切換至業(yè)務拉起驗證時間約為 30 分鐘。在此期間,遭遇了因 Linux 內核版本過低而無法在工具上完成切換的問題。依據前期風險排查與規(guī)避手段,深信服在 HCI 中取消 virtio 磁盤后拉起,并進行低版本內核的 tools 安裝,最終成功完成業(yè)務遷移。
三、遷移后的驗證
在完成所有業(yè)務的遷移后,深信服對遷移后的系統(tǒng)進行了全面的驗證和優(yōu)化。
(一)功能驗證
系統(tǒng)啟動與運行:確保遷移后的系統(tǒng)能夠正常啟動,各個服務和進程能夠穩(wěn)定運行,沒有出現死機、崩潰等異常情況。例如,對于服務器,檢查其操作系統(tǒng)是否能夠順利加載,各種服務是否能夠正常啟動,如 Web 服務器、數據庫服務器等。
業(yè)務應用功能業(yè)務流程完整性:驗證業(yè)務系統(tǒng)的各個功能模塊是否完整,業(yè)務流程是否順暢,是否能夠滿足用戶的實際需求。
功能響應速度:測試業(yè)務功能的響應速度,包括頁面加載速度、數據查詢和處理速度等,確保用戶能夠獲得良好的使用體驗。
(二)數據驗證
數據完整性:檢查遷移后的數據是否完整,包括數據庫中的表數據、文件數據等,確保數據沒有丟失或損壞。比如,對比遷移前后數據庫中表的記錄數量、數據內容是否一致。
數據一致性:驗證數據的一致性,確保不同業(yè)務系統(tǒng)之間的數據能夠正確交互和共享,沒有出現數據不一致的情況。例如,在涉及多個系統(tǒng)的業(yè)務場景中,檢查數據的一致性,如訂單數據在不同系統(tǒng)中的一致性。
四、業(yè)務持續(xù)穩(wěn)定運行
深信服對遷移到HCI的業(yè)務應用,通過云端智能大腦等智能運維工具,結合線上線下服務協(xié)同人機共智的模式實現智能監(jiān)控,相較于VMware承載,主要優(yōu)化并解決如下關鍵點:
(一)構建全棧監(jiān)控體系
建立涵蓋硬件、云平臺、云主機、數據庫、應用等全棧的監(jiān)控體系,實現對 IT 基礎設施和業(yè)務系統(tǒng)的全方位監(jiān)測。通過多種監(jiān)控指標和告警規(guī)則,及時發(fā)現潛在問題和異常情況。有效減少生產中斷事件發(fā)生次數,保障業(yè)務連續(xù)性,以全年不發(fā)生業(yè)務中斷為目標進行建設。
(二)配備專屬服務團隊
為用戶配備專屬線上線下服務經理,建立線上線下協(xié)同的故障處置機制,7*24H及時響應用戶問題,協(xié)同進行故障排除和恢復。能夠在事件發(fā)生前期提前發(fā)出預警,識別風險,達到提前介入處理,事先消除風險,規(guī)避事件發(fā)生。
自2023年初啟動,歷經近兩年的精心規(guī)劃與實施,于 2024年10月成功完成業(yè)務遷移任務,滿足了用戶存儲雙活和數據保護的核心訴求。該企業(yè)業(yè)務成功遷移,是深信服在制造業(yè)打磨技術方案的有效實踐證明。深信服始終關注各行業(yè)用戶替代升級的需求,持續(xù)打造有效、穩(wěn)定的解決方案,為用戶構建自主創(chuàng)新的數字化基礎設施。