云HPC時代已至 NVIDIA如何驅(qū)動數(shù)據(jù)中心網(wǎng)絡(luò)運作
云計算、AI、5G等技術(shù)的發(fā)展正在改變整個世界的面貌,作為承載這些新興技術(shù)的基礎(chǔ)設(shè)施,數(shù)據(jù)中心也在面臨來自各個維度的壓力,微觀角度來看,近幾年摩爾定律的失速正使得CPU性能增長的邊際成本急劇上升。有數(shù)據(jù)表明,CPU性能的年化增長率已不足每年5%,但人們對于計算性能的需求依然居高不下,這使得云和通信服務(wù)商必須不斷耗費高昂的成本來對基礎(chǔ)設(shè)施進行升級和維護,以滿足算力需求。而從宏觀角度來看,隨著AI的惠普,超級計算中心也正在為越來越多的用戶開放,如何為數(shù)以百萬計的客戶提供高效的超級計算服務(wù)也成為了云服務(wù)提供商需要考慮的問題。
在此背景下,為CPU減負成為了降本增效,提高效率的有效手段。要知道,現(xiàn)在除了主內(nèi)存和輔助內(nèi)存之外的所有計算都是在CPU上完成的,面對超大規(guī)模數(shù)據(jù)處理的需求,CPU的算力已經(jīng)達到瓶頸,盡可能地從CPU內(nèi)核中卸載虛擬化、容器化、安全化工作負載的繁瑣開銷,一方面是對CPU性能價值的充分釋放,另一方面也是對數(shù)據(jù)處理與存儲等工作負載的更好平衡。
芯片巨頭們都看到了這樣的需求和趨勢,近幾年來在數(shù)據(jù)中心領(lǐng)域占據(jù)較大優(yōu)勢的NVIDIA先是在前年發(fā)布了首代DPU BlueField-2,然后又在去年的GTC21宣布了NVIDIA的芯片戰(zhàn)略正式升級為CPU+GPU+DPU,足見NVIDIA對DPU市場的重視。
但DPU的作用,絕不僅僅是替CPU減負這么簡單。當下的數(shù)據(jù)中心雖然足夠靈活,但其基礎(chǔ)架構(gòu)就會對CPU造成極大的開銷,過去以CPU為中心的數(shù)據(jù)中心已經(jīng)無法滿足靈活性與高性能的雙重需求,換言之,過去在計算規(guī)模和數(shù)據(jù)量較小的情況下,僅憑馮諾依曼架構(gòu)就能解決提高性能的問題,而在當下數(shù)據(jù)量越來越大,云計算、AI火熱發(fā)展的情況下,傳統(tǒng)的計算模型十分容易造成網(wǎng)絡(luò)擁塞,反而加重數(shù)據(jù)中心的負擔。
因此,DPU一方面能針對安全、存儲、網(wǎng)絡(luò)、AI、HPC等業(yè)務(wù)進行加速,為以后迫在眉睫的E級計算鋪平了道路,另一方面則為數(shù)據(jù)中心的計算架構(gòu)提供了全新的思路,以實現(xiàn)過去無法實現(xiàn)的功能。
今年的GTC大會上,NVIDIA則帶來了新一代InfiniBand網(wǎng)絡(luò)平臺Quantum-2和全新升級的DOCA 1.2。前者是迄今為止最先進的端到端高性能網(wǎng)絡(luò)平臺,憑借其云原生技術(shù),可提供每秒400Gb/s的高吞吐量和先進的多租戶支持功能,可滿足眾多企業(yè)的要求;后者則支持了云原生架構(gòu),開發(fā)者可借助DOCA將加速安全作為一項服務(wù)進行部署。
NVIDIA Quantum-2平臺即新一代400Gbps InfiniBand網(wǎng)絡(luò)平臺,包括NVIDIA Quantum-2交換機、ConnectX-7網(wǎng)卡、BlueField-3數(shù)據(jù)處理器(DPU)和支持新架構(gòu)的軟件,可為云計算提供商和超級計算中心提供極致的性能、廣泛的接入能力和強大的安全性,助力AI、數(shù)據(jù)分析和高性能計算應(yīng)用,并提供安全性和QoS 保證。
整體來看,憑借每端口高達400Gbps的吞吐量,NVIDIA Quantum-2 InfiniBand可在增加三倍網(wǎng)絡(luò)端口數(shù)量的基礎(chǔ)上將網(wǎng)速提高一倍,并把數(shù)據(jù)中心網(wǎng)絡(luò)所需的交換機減少了6倍,降低了數(shù)據(jù)中心7%的能耗與空間;此外,NVIDIA Quantum-2平臺可實現(xiàn)多租戶之間的性能隔離,因此一個租戶的行為并不會影響到其他租戶,同時通過利用主動遙測和支持云原生的擁塞控制機制,可確保可靠的數(shù)據(jù)吞吐量,且不受用戶或應(yīng)用需求高峰的影響。
不僅如此,NVIDIA Quantum-2內(nèi)置的SHARPv3網(wǎng)絡(luò)計算技術(shù)可為AI應(yīng)用提供超出上一代產(chǎn)品32倍的加速引擎能力,借助NVIDIA UFM Cyber-AI平臺,NVIDIA Quantum-2可為數(shù)據(jù)中心提供包括預(yù)測性維護在內(nèi)的InfiniBand網(wǎng)絡(luò)管理功能;同時NVIDIA Quantum-2也集成了納秒級精度的時鐘系統(tǒng)以同步分布式應(yīng)用,有助于減少數(shù)據(jù)庫處理等操作的等待時間,在納秒時鐘同步的加持下,云數(shù)據(jù)中心可成為電信網(wǎng)絡(luò)的一部分,用來托管軟件定義的5G服務(wù)。
目前,包括Atos、DataDirectNetworks(DDN)、戴爾、Excelero、惠普、IBM、浪潮、聯(lián)想、Penguin Computing、QCT、超微、VAST Data和WekaIO在內(nèi)的基礎(chǔ)架構(gòu)和系統(tǒng)廠商已支持NVIDIA Quantum-2平臺。
未來的超級計算機既要提供出色性能,又需要具備多租戶安全性,云原生超級計算平臺正是一個理想的解決方案。為了提供卓越的裸機性能和原生支持多節(jié)點租戶隔離,NVIDIA Quantum-2交換機的重要性不言而喻,它也是NVIDIA Quantum-2平臺的核心,其主芯片采用7nm制程,包含570億個晶體管,數(shù)量甚至要比NVIDIAA100 GPU還要再多一些,此外,NVIDIA Quantum-2交換機擁有64個400Gbps端口或128個200Gbps接口,并可提供最高可達2048個端口數(shù)的模塊式交換機系統(tǒng),交換能力超出上一代Quantum-1約5倍。憑借著在網(wǎng)絡(luò)速度、交換能力和擴展性方面的優(yōu)勢,NVIDIA Quantum-2交換機成為了構(gòu)建下一代高性能計算機系統(tǒng)的理想選擇。
實現(xiàn)云原生超級計算平臺架構(gòu)升級的關(guān)鍵要素是DPU,而此次NVIDIA Quantum-2平臺在主機端則提供了兩個網(wǎng)絡(luò)選項,分別是NVIDIA BlueField-3 DPU InfiniBand和NVIDIA ConectX-7智能網(wǎng)卡。
BlueField-3作為首款為AI和加速計算而設(shè)計的DPU,可助力各企業(yè)在任何規(guī)模的應(yīng)用上實現(xiàn)領(lǐng)先的性能和數(shù)據(jù)中心的安全性。這款DPU針對多租戶、云原生環(huán)境進行了優(yōu)化,提供數(shù)據(jù)中心級的軟件定義和硬件加速的網(wǎng)絡(luò)、存儲、安全和管理等服務(wù)。
BlueField-3 DPU可以從業(yè)務(wù)應(yīng)用中將數(shù)據(jù)中心的基礎(chǔ)設(shè)施服務(wù)卸載和隔離出來,實現(xiàn)了由傳統(tǒng)基礎(chǔ)設(shè)施到現(xiàn)代基于“零信任”環(huán)境的轉(zhuǎn)型,可對數(shù)據(jù)中心的每個用戶進行身份認證,保障了企業(yè)從云到核心數(shù)據(jù)中心,再到邊緣的安全性,同時在效率和性能上有了更大的提升。
技術(shù)細節(jié)方面,BlueField-3 InfiniBand采用7nm工藝,包含220億個晶體管,提供16個64位Arm CPU,以卸載和隔離各種數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù),樣片將于明年5月問世。
而NVIDIA ConectX-7網(wǎng)卡提供多達4 個連接端口和高達400Gb/s 的吞吐量,可為云、電信、AI和企業(yè)工作負載提供數(shù)據(jù)中心規(guī)模的硬件加速網(wǎng)絡(luò)、存儲、安全和管理服務(wù)。ConnectX-7具有加速交換和數(shù)據(jù)包處理(ASAP2)、高級RoCE、GPUDirect Storage,以及用于TLS、IPsec和 MACsec加密與解密的in-line 硬件加速等功能,能夠為敏捷、高性能的網(wǎng)絡(luò)解決方案提供助力。ConnectX-7讓客戶能夠在高帶寬和高密度環(huán)境中滿足目前和未來的網(wǎng)絡(luò)需求。
與BlueField-3 InfiniBand相同,NVIDIA ConectX-7同樣基于7nm工藝設(shè)計,包含80億個晶體管,其數(shù)據(jù)傳輸速率是目前世界領(lǐng)先的高性能計算網(wǎng)絡(luò)芯片NVIDIAConectX-6的兩倍,還使RDMA、GPUDirect Storage、GPUDirectRDMA和網(wǎng)絡(luò)計算的性能翻倍,其樣片也將于明年1月問世。
除了硬件之外,NVIDIA片上數(shù)據(jù)中心基礎(chǔ)架構(gòu)(DOCA)使基礎(chǔ)設(shè)施開發(fā)者能夠利用行業(yè)標準API,在NVIDIA BlueField DPU上快速創(chuàng)建網(wǎng)絡(luò)、存儲、安全、管理、AI和 HPC等各種應(yīng)用和服務(wù)。借助DOCA,開發(fā)者可以通過創(chuàng)建高性能、軟件定義和云原生DPU加速的服務(wù),對未來的超級計算基礎(chǔ)設(shè)施進行編程,現(xiàn)在它也迎來了1.2版本。
現(xiàn)如今,數(shù)據(jù)中心需要處理日益增長的用戶、應(yīng)用和流量,在缺乏零信任保護模式的情況下,企業(yè)極易受到攻擊,這也是NVIDIA DOCA 1.2產(chǎn)生的背景,開發(fā)者可借助DOCA1.2零信任安全框架,實現(xiàn)網(wǎng)絡(luò)安全即服務(wù),包括建立量化的云服務(wù)控制資源訪問、驗證每個應(yīng)用和用戶、隔離可能受到影響的機器并保護數(shù)據(jù)免遭竊取等,涵蓋應(yīng)用、數(shù)據(jù)、設(shè)備、存儲、基礎(chǔ)架構(gòu)等每個關(guān)鍵點。
此外,DOCA1.2提供了軟件和硬件認證、硬件加速的線速數(shù)據(jù)加密、對分布式防火墻和智能遙測的支持,以及租戶之間的安全隔離等策略,所有功能都可作為容器部署。
除了DOCA1.2之外,NVIDIA也帶來了基于NVIDIA RAPIDS的零信任AI應(yīng)用框架Morpheus,可以分析來自網(wǎng)絡(luò)流量日志、應(yīng)用日志和云日志的數(shù)據(jù),并提醒安全運營團隊注意潛在的安全漏洞。
目前NVDIA Morpheus已上市,而NVIDIA DOCA 1.2將于11月30日開放搶先體驗,BlueField DPU則即將隨華碩、Atos、思科、戴爾、新華三、浪潮、聯(lián)想、寧暢、Quanta/QCT和超微等廠商推出的系統(tǒng)而推出。
從傳統(tǒng)的高性能計算到新型的加速計算,再到現(xiàn)如今超級計算中心與公有云的融合,下一代超級計算中心將為HPC、AI與數(shù)分析提供盡可能高的性能,并提供安全隔離應(yīng)用,同時響應(yīng)用戶對流量的不同需求。現(xiàn)如今,NVIDIA正在用3U(CPU、GPU、DPU)一體的架構(gòu)使得未來數(shù)據(jù)中心的管理程序與調(diào)度程序變得更加簡單,以實現(xiàn)從邊緣到數(shù)據(jù)中心的統(tǒng)一架構(gòu)、統(tǒng)一管理和統(tǒng)一調(diào)度。而全新的NVIDIA Quantum InfiniBand平臺,正是NVIDIA邁向云HPC的重要一步。
華碩ROG-STRIX-RTX3060-O12G-V2-GAMING NVIDIA Ampere流式多處理器,軸流風(fēng)扇設(shè)計,GPU Tweak II
進入購買
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
2022-01-12 16:50:28
2022-01-12 14:16:53
營業(yè)執(zhí)照公示信息
相關(guān)新聞