自治網絡與服務2.0
自治網絡與服務2.0的目標,是用架構性創(chuàng)新解決電信領域結構化問題,通過數據與知識驅動的智能網絡,達到自動、自愈、自優(yōu)、自治的網絡自動駕駛目標。
多年以來,電信行業(yè)一直以支持各行業(yè)數字化為已任,但從行業(yè)內部視角來看,我們雖然運行著當今時代最前沿的網絡,但大量運行和維護手法卻仍然停留在十八世紀的手工階段,呈現出一系列結構化問題:一是從財務結果來看,OPEX普遍是CAPEX投資的三到四倍,通過網絡建設的優(yōu)化,很難支撐運營商大規(guī)模改善財務狀況;二是多代網絡疊加造成的復雜性,使得運維人員單靠人力難以把握和應對。大量的站點、管線、機房問題形成物理斷點,阻礙了自動化,核心系統的復雜性又導致了70%的網絡級事故由人為操作層面引發(fā);三是互聯網結構性沖擊,不僅在云業(yè)務上形成威脅,在網絡上也從DC間骨干網向云網協同企業(yè)網絡滲透,以大規(guī)模、廣覆蓋、高利用、深集成的方式沖擊云網協同市場。
從OPEX分布的維度切入,我們不妨分為運維(維護、雇員)、能源(動力、水電、取暖)、資源利用率(電路網元租賃、折舊、網站互聯)、體驗(銷售費用、產品成本)等四個角度,來進一步審視電信行業(yè)目前面臨的具體挑戰(zhàn)。
首先,從運維效率來看,第一大特點是日常維護工作量巨大。以某運營商為例,每年局數據制作超過170億條,網元參數配置近1000萬個,傳輸隱患整改近百萬處,家寬小區(qū)資源整治數十萬處。而在這些工作中,大量環(huán)節(jié)與物理設施有關,我們在一個區(qū)域調研運營商工單分布如下:26%是饋線、光纖等線纜問題,26%是重啟非主設備軟件、重啟上聯設備、簡單數據配置等恢復性操作,24%是市電中斷后自動恢復,11%是告警自行消除,設備本身的硬件類故障不到10%;第二大特點是每年要應對網絡割接升級超過10萬次,應急保障近40萬次,這些升級和重大事件的系統性保障都需要大量人力投入。
第二,從能源效率來看,站點能耗(包含室外站和電信機房)占到60%~80%,數據中心占到20%,云化之后數據中心能耗占比會越來越高。從運營統計來看,流量在時間和空間的分布是不均衡的:某網絡最繁忙的前10%的站點產生50%的流量,而最空閑的50%的站點僅產生5%的流量,但基礎能源的消耗又是類似的,即沒有流量或流量較低的站點,基礎運行仍然消耗著大量能源。
第三,從資源利用率來看,資源利用效率低的根源在于業(yè)務量在時間和空間分布不均衡,同時,資源受限于物理分散式設計和運維,沒有采用全局式的集中化設計和隨時間空間動態(tài)調度有效手段。以骨干網為例,運營商的骨干網利用率普遍在30%左右,而過去傳統的流量調優(yōu),基于專家規(guī)則確定調優(yōu)策略(如調優(yōu)觸發(fā)閾值、遷移流量的選取等),不能根據應用及網絡的流量狀態(tài)做動態(tài)調整,因而也就不能獲得持續(xù)負載均衡,這一水平與多家互聯網90%左右利用率形成巨大差距。
最后,從客戶體驗來看,在運營活動中仍存在大量傳統的路測、鄰區(qū)參數優(yōu)化等人工活動。抽樣式測試不能全面客觀反映客戶體驗,尚未系統引入終端、應用、時空等多源動態(tài)數據,同時還不能完全驅動網絡的自動化調整。
解決方案:用架構性創(chuàng)新解決結構化問題
用架構性創(chuàng)新解決電信行業(yè)的結構化問題,顧名思義,即是通過商業(yè)模式級創(chuàng)新和系統方案級創(chuàng)新來結合產品級創(chuàng)新,以實現自動、自愈、自優(yōu)、自治的自動駕駛網絡和業(yè)務數字化運營,并在運維效率、能源效率、資源利用率、業(yè)務體驗等方向上取得突破性結果。
在業(yè)務場景上,基于運營商業(yè)務流程,首先沿“規(guī)劃、設計、部署、開通、運維、優(yōu)化”的業(yè)務流程,分析活動分布、成本分布、人力分布,并以自動化為目標進行架構性的創(chuàng)新。針對線纜、電力、環(huán)境等無源設備故障率高的情況,提出有源管理無源的突破目標,即用有源設備實現無源設備可預測、可管理。針對無流量時網絡大量能源消耗的情況,提出比特決定瓦特的突破目標,有比特流動時才有瓦特消耗。針對流量在時空和空間的不均衡情況,提出時間空間復用目標,最大程度復用網絡容量。針對終端應用豐富化和體驗全流程的特點,提出應用驅動體驗改進,引入更多終端應用要素,并用體驗結果直接驅動網絡自動調整。上述突破從Use Case開始,如同一粒粒珍珠,基于重構的業(yè)務流程,我們可以將珍珠一一串起形成業(yè)務場景改進。
在訓練平臺上,華為將著力構建面向電信領域的AI訓練平臺,訓練平臺用公有云+Stack模式部署,其中Stack模式可延伸至運營商網絡部署,在數據不出網絡前提下完成訓練。訓練平臺提供電信領域AI工具鏈,并提供電信領域通用模型服務;诰W絡產品基礎數據、實驗室測試數據、外場數據、在服務作業(yè)過程中形成的標注數據,和脫敏的典型樣板網絡設備運行數據一起,形成電信數據湖用于持續(xù)訓練。網絡領域“服務2.0”,目標是提供在線數字化的“智慧服務”,提供基于人工智能的在線服務,這種服務基于持續(xù)迭代原則,依據業(yè)界慣例,構建起“模型即服務”模式,永遠處于Beta階段,不斷自我更新和完善。電信模型不斷發(fā)布到模型市場上迭代更新和優(yōu)化。
在網絡與設備層面,目標是構建一個敏捷的自動化和智能化網絡。把下層設備和云基礎設施、中間層的網絡管理和控制,以及上層全流程系統,分別引入三方面能力達到網絡自動駕駛目標:一是設備數字化能力,在大容量、低時延、高可用的基礎上,增強動態(tài)感知環(huán)境的數據采集解析能力,包括對網絡周邊環(huán)境與啞設備的感知,典型如無線領域對天饋狀態(tài)的感知,網絡領域對光纖、信號、路由的感知,IP領域動態(tài)按需對大規(guī)模分布式流式數據的處理,對網絡拓撲的實時動態(tài)還原能力,這些網絡與設備的感知與數字化能力是自動化、智能化的基礎。二是根據AI模型進行推理執(zhí)行的能力,網絡及設備能夠利用AI模型進行推理執(zhí)行,包括數據預處理、AI模型管理等能力,推理執(zhí)行的過程要保證網絡安全性與魯棒性,部署上可分為嵌入式、網絡管控集成、獨立部署或以公有云服務形式部署。三是業(yè)務流程編排能力,電信領域模型與運營商本地商業(yè)流程結合發(fā)揮作用,利用模型驅動、流程編排、數據分析、AI等數字技術,逐步實現業(yè)務的自動開通與基于業(yè)務/網絡運維自動化,并使能ROADS體驗的實現。
以光網絡為例,我們可以了解到AI如何使能全流程的業(yè)務發(fā)展:從業(yè)務場景看,需通過 “開通零等待、運維零接觸、體驗零差評”的目標牽引,找到開局自動檢查光纖、業(yè)務發(fā)放、網絡優(yōu)化、故障定位以及資源自動調度等具體場景并確定突破目標。訓練平臺提供電信領域適應的數據及人工智能算法,包括光模塊數據、實驗室光纖彎折、松動、染灰等測試數據、光網現網運行故障數據等,算法包括基礎的數據清洗、信息整合、機器學習建模、深度學習等,共同訓練出光纖故障模型、濾波器模型等。通過管控平臺與現網相結合,進而實現快速發(fā)放、極簡運維和智能運營。而這一切的基礎就是網絡設備層面新增數據采集與解析能力,包括光纖數據、光信號數據、路由數據等的采集能力,同時設備需要具備可靠的推理執(zhí)行能力。
目標:運維效率、能源效率、資源利用率和業(yè)務體驗大幅提升
在運維效率層面,運維水平分為三個發(fā)展階段。第一個階段稱為R2F(Run-to-Failure),即網絡在運行中突發(fā)故障后,運維人員迅速趕去處理,這是最低層級的水平;第二個階段是PvM(Preventive Maintenance),即例行巡檢,也就是對每臺設備進行檢查來預防故障發(fā)生,但這種做法效率十分低下;第三個階段是PdM(Predictable Maintenance),我們稱之為可預測性維護,即能夠實現預測某設備未來有多大概率發(fā)生故障,再基于狀態(tài)進行針對性的維護。
自治網絡與服務2.0一方面通過網絡簡化實現設備收編站點,減少電源、連接器、線纜等啞設備問題,另一方面通過“有源管理無源”,促使線纜、連接器、動力環(huán)境等問題能夠通過有源設備實現管理,如針對光纖實現路由可視、光纖可視、信號可視,從而可以基于狀態(tài)對光纖老化、過度彎曲、接口松動、路由過長等問題做出預測和定位。通過智能故障預測及網絡智能設計,網絡負荷被有效分擔,搶修和巡檢工作也可以因而轉換為基于狀態(tài)的預測性維護,從而將人工開環(huán)處理問題,轉換為設備閉環(huán)處理,實現非物理故障恢復自動化,助力運維效率倍增。
在能源效率上,我們用“比特決定瓦特”的目標作為牽引,即以網絡流量大小決定能耗多少。在沒有流量的時候降低能耗,通過AI 來基于流量做出預測、實時調整運營商站點和數據中心能源效率,達到節(jié)能目的。從站點配套設施收編到設備柜,實現站點能效比最大化;準確預測業(yè)務流量,讓設備做到深度休眠快速啟動,在保證客戶體驗的前提下,實現設備比特決定瓦特的能耗管理。
在數據中心機房或者站點,每個系統都有數十個參數。通過AI訓練,自治網絡與服務2.0可以生成散熱、環(huán)境及業(yè)務負荷模型,使得日照、溫度和配套設施油機、太陽能和電池等達到最佳能效,為制冷設備的數十個參數尋找最佳模型;在設備層面,可以根據業(yè)務負載進行動態(tài)能量投放,在沒有流量時利用時隙關斷、RF深度休眠、載頻關斷等減少耗電量,同時實現數據中心對象(如服務器組件)的動態(tài)節(jié)能管理;在網絡系統層面,可以構建準確的業(yè)務負荷預測模型,達到整網流量最優(yōu),從而實現能耗效率優(yōu)化。
在資源利用率上,自治網絡與服務2.0可準確預測長周期流量規(guī)律,實現站點、管線、機房等設施的最佳利用;根據用戶、終端和業(yè)務分布,結合時空數據預測,實現空口頻譜最大程度利用;通過業(yè)務與流量臨近性、周期性、趨勢性、事件性特征識別、趨勢預測、路徑性能預測,來動態(tài)合理的分配流量、錯峰填谷,大幅度提升網絡利用率。同時在不犧牲 QoS 或 SLA的情況下,可讓流量路徑幾乎實時改動,達到最優(yōu)化。
在客戶體驗上,對于個人用戶可引入終端和應用數據,結合網絡的自動閉環(huán),實現基于用戶、業(yè)務、位置最佳體驗。企業(yè)用戶可分鐘級構建云網協同業(yè)務,統籌多地域全球網絡,全網路由基于自動轉發(fā)和學習,實現用戶無感知的調度和路由。家庭用戶端實現云協同,解決家寬品質,用戶體驗提升由此可被延伸至家庭網絡。
自治網絡與服務2.0實現路徑
實現網絡的自動駕駛必將是一個長期的過程,既要有明確的長期目標作為牽引,又不能一蹴而就,需要以終為始、沿途下蛋、逐步落地。我們可以將網絡自治分為五個層級,0級為人工運維;1級為輔助運維,系統可持續(xù)執(zhí)行控制某一子任務,如單板倒換與自動重路由;2級為部分自治網絡,在適用的設計范圍下,系統可根據AI模型或規(guī)則完成部分單元控制任務,如根據訓練模型數據中心可自動調節(jié)水冷設備單元的參數,從而達到提升能源效率降低PUE的目標,但這種動態(tài)的預測和調整限制在某一單元內;3級有條件自治網絡,可持續(xù)執(zhí)行完整的子系統級全周級閉環(huán)自動化,以無線領域為例,能夠做到從用戶流量的洞察與預測、無線空口資源調度及參數調整、網絡調整后的的評估,從感知、決策、執(zhí)行和后評估都能做到自動化。4級高度自治網絡,系統可做到單業(yè)務跨領域全生命周期自動化,如Cloud VPN業(yè)務設計、部署發(fā)放、動態(tài)調度、故障自愈實現自動化;5級完全自治網絡可在所有網絡環(huán)境下執(zhí)行完整動態(tài)任務,并能對例外做出合適處理。
網絡自治從易到難,依次是重復性執(zhí)行動作的替代、對網絡環(huán)境與網絡設備自身狀態(tài)的感知與監(jiān)控、綜合多種要素和策略的分析決策、對最終客戶體驗的有效感知。系統能力也從某些業(yè)務場景起步,最終覆蓋全業(yè)務場景。
等級 | 名稱 | 概念界定 | 執(zhí)行 | 感知 | 決策 | 體驗 | 系統 能力 |
0 | 人工運維 | 即便有輔助工具,仍由運維人員執(zhí)行全部的動態(tài)任務。 | 人 | 人 | 人 | 人 | n/a |
1 | 輔助運維 | 在適用的設計范圍下,系統基于規(guī)則可重復執(zhí)行某一子任務。 | 人和系統 | 人 | 人 | 人 | 某些業(yè)務場景 |
2 | 部分自治網絡 | 在適用的設計范圍下,系統基于模型持續(xù)完成某一單元的控制任務。 | 系統 | 人 | 人 | 人 | 某些業(yè)務場景 |
3 | 有條件自治網絡 | 在適用的設計范圍下,系統可以持續(xù)執(zhí)行完整的單域場景的閉環(huán)自動化,用戶在系統失效時接受干預請求及時做出響應。 | 系統 | 系統 | 人 | 人 | 某些業(yè)務場景 |
4 | 高度自治網絡 | 在適用的設計范圍下,系統可以自動分析執(zhí)行跨域及業(yè)務的閉環(huán)自動化。 | 系統 | 系統 | 系統 | 人 | 某些業(yè)務場景 |
5 | 完全自治網絡 | 系統能在所有網絡環(huán)境,執(zhí)行完整動態(tài)任務和例外處理,運維人員無需介入。 | 系統 | 系統 | 系統 | 系統 | 全部業(yè)務場景 |
網絡自治與服務2.0模式道阻且長,還需歷經長期的實踐摸索,華為推出SoftCOM AI,依托于華為對All Intelligence長期而堅決的戰(zhàn)略投入,依托于對網絡及設備數字化、智能化的體系化投入,依托于在服務領域持續(xù)的數字化實踐和平臺建設投入,打造自治網絡方案并實現服務模式升級,發(fā)布系列化解決。網絡自治如同自動駕駛,同時需要全業(yè)界同仁將運營維護經驗不斷注入系統,共同努力實現網絡自動、自愈、自優(yōu)、自治和業(yè)務數字化運營。

請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞