超大規模數據中心網絡無論是在架構、技術還是運維上都發生了巨大的變革,有效地支持了互聯網和云計算過去10年的繁榮。展望未來,在人工智能、大數據、物聯網、云原生等技術和業務的驅動下,數據中心網絡該向何處發展是專業人士們必須考慮和面對的問題。該文結合行業發展測未來超大規模數據中心網絡的發展趨勢如下:
一 網絡帶寬持續演進,芯片是核心競爭力
在人工智能、大數據、機器學習,以及高清視頻、AR、VR等技術和業務的驅動下數據中心對網絡的帶寬需求將繼續呈加速發展的趨勢。數據中心交換機芯片在未來5年依然會處在加速迭代之中,芯片技術的摩爾定律會依舊有效,大概每隔2年交換機芯片的容量就會增長一倍。SerDe技術也在從10Gbit/s、25Gbit/s向50Gbit/s、100Gbit/s快速迭代,相應的光模塊技術也逐漸從25Gbit/s、50Gbit/s、100Gbit/s向400Gbit/s、800Gbit/s和Tbit/s級發展。交換機芯片技術和光芯片技術的持續迭代將有力保障數據中心網絡對帶寬的增長需求,而網絡帶寬的演進必然會牽引計算存儲架構的演進。
除了容量持續演進,芯片具備可編程能力將逐漸成為主流,對網絡可視化支持的力度將會成為芯片的核心競爭力之一。
二 硬件白盒化、OS開源、軟件自主掌控
SDN理念帶來設備解耦生態逐漸成熟,芯片商業化、硬件白盒化和定制化、軟件自主掌控將進一步普及。自主研發交換機設備不僅是為了節省成本,更是通過自主把控軟件、定制化硬件,做到軟硬件的一體化,這不僅可以快速迭代網絡功能來支持業務發展的需要,更能做到對網絡的靈活高效監控,并最終把網絡變得更穩定和智能,讓網絡真正成為核心競爭力。
目前,基于開源的開放生態已經逐漸成熟,交換機操作系統可以依賴生態的力量,而互聯網公司可以專注在上層的軟件和運營管理系統。自主研發交換機設備將不再僅僅局限于幾個少數超大規模的互聯網和云計算公司,越來越多的公司將加入這一陣營。
在當下的開放生態環境下,開源操作系統更加有利于芯片、硬件和軟件的標準化和兼容性,有利于生態的良性發展,開源操作系統將會成為互聯網云計算公司的首選。值得一提的是,由微軟公司倡導,阿里巴巴作為主力成員推動的開源SONiC系統得到了業界的廣泛關注和支持。
三 軟硬件一體化的高性能網絡轉發:網卡硬件卸載和可編程芯片
眾所周知,CPU的摩爾定律已入暮年,而云服務和機器學習規模卻在呈指數級增長。虛擬交換機是云數據中心網絡不可分割的一部分,但是基于服務器的網絡處理方案也并非一帆風順,40GbE甚至100GbE網絡架構的快速采用、服務器外部吞吐量大幅提升、網絡安全等附加功能的堆疊、大量虛擬機的增加,導致CPU資源被大量用于內外部網絡和附加功能,使數據中心陷入了無休止的“機海戰術”,從而帶來了部署規模、應用效率、CapEx等多方面的挑戰。如何提升基于傳統x86服務器的虛擬網絡性能將變得至關重要。面對單服務器內部的轉發能力的性能瓶頸,業界諸多的供應商試圖在FPGA、多核處理器及傳統網絡處理器上開發智能網卡(SmartNIC)解決方案。通俗地說,智能網卡是把服務器的網絡功能,包括vSwitch、vRouter等網絡組件從x86卸載到智能網卡上,實現對x86服務器處理器資源的釋放,提供更高性能的網絡處理性能。
SDN發展的第一波浪潮打破了管理平面、控制平面和數據平面的封閉集成,突出了軟件的作用,給網絡行業帶來了變革。但隨著SDN應用的進一步普及,純軟件的限制愈發明顯,如何更簡單有效地控制底層硬件和芯片層變得愈發重要。P4(Programming Protocol-Independent Packet Processors)正是在這一背景下應運而生的。對底層芯片開放的可編程的能力將會掀起下一波的SDN行業發展潮流,在軟硬件一體化、網絡可視化方面必然會再產生一次變革。
四 網絡融合成為一體化數據中心的 I/O:低延時網絡
網絡的功能不再是僅僅提供連接,網絡會變成計算機I/O的延伸。超高帶寬和超低延時的網絡正在將本地存儲和網絡存儲的界限變得模糊,為計算存儲分離和資源池化的數據中心一體化架構奠定基礎。網絡是數據中心一體化中的核心組件,成為下一代高性能計算和存儲的強大驅動力。如何降低網絡延時會是一個長期的過程,RDMA及同類技術將會逐漸成規模部署,在應用遇到瓶頸時,將會催生革命性的新技術或架構變革。
隨著人工智能、大數據的逐漸普及,數據中心對計算力的需求越來越高,超高密度異構計算集群將會成為基礎設施的核心競爭力。如何把計算芯片和高效存儲介質高效地互聯在一起,并能夠大規模擴展是需要解決的問題。數據中心網絡將不僅僅局限于交換機網絡,將進一步延伸到主機內部,把主機內各種計算芯片和存儲介質部件高性能地互聯在一起,并和交換機網絡融合為一體。傳統的以CPU為中心的服務器架構將會逐漸演變為以數據互聯1/0為中心的架構。網卡將突破傳統IO功能,充當硬件虛擬化載體,以及交換機網絡互聯和主機內組件互聯的橋梁?;谟布母咚倬W絡轉發、網絡QoS、網絡可視化等功能將被拓展到主機網卡上。
五 網絡可視化技術,基于大數據和人工智能的智能化運維
自動駕駛已經變成可能,大規模應用只是一個時間問題。大規模網絡運維的自動化也必然是業界的趨勢,要達到自動駕駛或自動化運維都需要兩個共同的條件:一是有足夠有效的數據,二是要有對數據的智能分析和處理能力。有效數據的獲取必然要通過網絡設備來實現,交換機芯片的可視化功能將起著至關重要的作用。
傳統上我們對交換機設備的監控和數據的獲取顆粒度很粗,一般停留在設備級別的運行狀態,包括CPU、Memory、端口、各種表項的監控等;對這些信息的獲取也只是SNMP、CLI等原始方式,獲取數據的效率很低。這些都無法滿足自動化運維的需求。新型的交換機芯片在網絡可視化方面已經邁出了堅實可喜的一步,目前在市場上售賣的部分交換機芯片已經能夠提供更豐富的信息,比如支持INT(In-bandNetwork Telemetry)功能,可以獲取特定用戶流的物理路徑、延時、交換機緩存水位等信息;MoD(Mirror on Drop)功能可以截取由于交換機管道或者緩存擁塞而導致的丟包信息。這些豐富的網絡數據通過人工智能分析系統將會把網絡運維提升到前所未有的智能化高度一一自驅式網絡(Self-driving Networks)。除了信息內容,交換機獲取信息的方式和效率也有大幅度的提升,流遙測(Streaming Telemetry)功能可以通過軟件或者直接通過芯片把監控數據高效地傳到網絡監控系統中,對于關鍵信息的監控顆粒度可以精確到微秒級。
六 光互聯趨勢
在10GbE速率之前,服務器與交換機比較經濟的互聯方式是RJ45雙絞線互聯隨著速率的演進,對傳輸信號衰減要求愈發嚴苛,到25GbE 時代已經全部統一到光纖或銅纜互聯,到了下一代50GbE 或100GbE,銅纜的應用距離、范圍將進一步被壓縮;再往后演進,不僅設備間互聯銅纜將難以勝任,甚至設備內部,從芯片到端口.都不得不采用光互聯。光互聯必將越來越普遍,光互聯技術的發展已經成為影響網絡速率演進的重要因素之一。目前,數據中心內設備間互聯模塊及線纜成本已經遠高于。設備本身,如何控制、優化光互聯成本對往后數據中心網絡成本影響巨大。
七 綠色網絡
隨著人工智能、大數據的逐漸普及,數據中心對計算力的需求越來越高,超高密度異構計算集群將會成為基礎設施的核心競爭力。計算力的大幅提升必然帶來對功耗需求的大幅上升,功耗和制冷是必須要解決的問題,是保障超大規模數據中心可持續發展的關鍵一環。
評論