數據中心面臨千倍算力增長 英特爾XPU戰略如何破局?
這是一個充滿想象力的時代,也是一個可以用科技實現夢想的時代。不可否認的是,現代社會正迎來一場全面的技術進步,無論是計算機視覺的飛速發展,還是虛擬現實概念的深入人心,亦或是人工智能的惠普,都讓我們看到了科技的無限可能與潛力。
以數字化技術為支撐的整個數字世界正逐漸成為社會經濟價值的數字基建,而數據中心就是這些數字基建的重要基石,根據Gartner公布的數據顯示,2020年中國IT支出達到2.84萬億,其中數據中心系統支出2508億元,占IT支出比重達8.85%。數據中心在當今數字時代所扮演的角色,已經不言而喻。
但科技發展的速度之快,也使得數據中心要面臨更加現實的問題:成倍增長的數據需要計算與存儲,自然也就對數據中心的算力提出更加苛刻的要求,不但要滿足當下的計算需求,還要有足夠應對未來千倍算力增長的能力。
作為一家半導體領域的“元老”級公司,英特爾的產品涵蓋通訊、存儲、通用計算等各個方面,自然也注意到了這個問題,于是從2018年起,英特爾便提出了以制程、架構、存儲、互聯、安全、軟件為基礎的六大戰略支柱,并在之后明確了無所不在的計算、從云到邊緣的基礎設施、無處不在的連接和人工智能這四大超級技術,以及以XPU戰略為核心的發展方向。這一切,似乎都是在為未來算力增長所做的鋪墊。
今年的英特爾On技術創新峰會(IntelInnovation)上,英特爾也讓所有人都看到了自己對XPU戰略的投入:
Sapphire Rapids:為下一代數據中心樹立標準
去年4月份,英特爾正式發布第三代至強可擴展處理器,整體性能相比上一代提升了46%。半年之后,阿里巴巴、AWS、百度、谷歌、微軟、Oracle和騰訊這樣的云應用開發者都已經在主要的云服務提供商中使用了最新的第三代英特爾至強可擴展處理器。據英特爾公司市場營銷集團副總裁兼中國區數據中心銷售總經理陳葆立介紹,“到今年年底,在大客戶中,已有40%-50%客戶切換到第三代至強,我們相信這是一個過程,到明年第三代至強就是市場主流產品了。”
但第三代至強可擴展處理器明顯也只是英特爾在服務器CPU產業上的又一個深刻有力的腳印,而這個腳印的下一步便是基于Intel 7制程工藝技術的全新數據中心架構Sapphire Rapids,它最早由英特爾在今年的架構日活動上對外提出,采用了英特爾性能核與全新加速器引擎,被稱作樹立了下一代數據中心處理器的標準。其核心是一個分區塊、模塊化的SoC架構,采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,支持加速器接口架構指令集、高級矩陣擴展,以及數據流加速器,能夠提供更高的整體工作負載性能,在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據。
嵌入式多芯片互連橋接(EMIB)封裝技術帶來的好處是顯而易見的,隨著制程工藝越來越小,芯片越來越復雜,制作難度也越來越高,良率也有可能越來越低,而EMIB就可以將4個芯片連成1個芯片,這樣既可以保持高速互聯,也可以實現更高的內核和更好的內存,并分享同樣的內存和帶寬。從軟件上來看沒有任何差異,但從制造工藝上講,集成了Intel 7制程工藝的Sapphire Rapids則代表著更高性能和更低產品的產品。
當然,Sapphire Rapids的潛力不止如此,業界已經在第三代至強可擴展處理器上看到了AI的無限潛力,Sapphire Rapids則更進一步,通過集成英特爾高級矩陣擴展AMX加速IP模塊,可以為深度學習算法核心的Tensor處理提供大幅加速。具體來看,AMX矩陣擴展與之前的AVX-512指令集的一大區別就是可以通過類似GPU的處理方式快速推理和學習,使得人工智能深度學習推理可以再提升4-5倍。
以ResNet模型為例,使用Sapphire Rapids可以達到每秒1.3萬張(單核)或者是2.6萬張(雙核)的處理速度,要比當下流行的GPU的約1.5萬張的處理速度是快很多的,對于服務器而言,從性價比角度考慮,Sapphire Rapids可以帶來加量不加價的效果,為整個服務器帶來更強的AI能力,當然,對于高端的訓練與推理,仍舊是需要GPU發揮作用的,Sapphire Rapids起到的是錦上添花的效果,可以在如小區卡口這樣的需要低成本部署AI的場景下發揮最大的作用。
Sapphire Rapids的另一個重要特性是集成了英特爾DSA數據流加速器,DSA可以卸載最常見的數據移動任務,改進對這些開銷任務的處理,以提供更高的整體工作負載性能,并可以在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據。從而為云服務廠商和企業帶來更高的性價比。
不難看出,Sapphire Rapids正是基礎設施建設革命中,提供源源不斷算力,實現卓越的性能和利用率,提供從邊緣到云的計算能力的重要組成部分。
IPU:為提升數據中心運算效率而生
對數據中心而言,為服務器CPU實現降本增效的重要手段是給CPU減負,畢竟現在除了主內存和輔助內存之外的所有計算都是在CPU上完成的,面對超大規模數據處理的需求,CPU的算力已經達到瓶頸,但隨著摩爾定律的進步正在放緩,而且CPU內核價格昂貴,盡可能地從CPU內核中卸載虛擬化、容器化、安全化工作負載的繁瑣開銷,一方面是對CPU性能價值的充分釋放,另一方面也是對數據處理與存儲等工作負載的更好平衡。
而英特爾在今年6月份推出的全新的基礎設施處理器IPU就是為此而生的,它可以對數據中心內的基礎設施功能進行安全加速,從而使系統級資源的管理更加智能,通過IPU,云運營商可以轉向完全虛擬化的存儲和網絡架構,在減少CPU方面開銷的同時保持超高的性能、以及強大的可預測性與可控性。
“如今大部分云服務廠商都采用CPU來實現管理功能,CPU是通用計算,本來也可以用來實現這個功能,但它會消耗掉CPU 20%-30%的算力,而這只是純粹在做管理功能,還沒有算上用戶的運算。所以英特爾把它獨立出來,做一個叫IPU的獨立芯片來實現所謂的管理功能。把這部分獨立出來后,可以釋放CPU 100%的算力來實現真正最終用戶想要運行的功能,不管是數據庫還是大數據,或者人工智能運算。”陳葆立補充道。
目前,基于ASIC的IPU(代號為“MountEvans”)已在谷歌云中得到應用,英特爾宣布與谷歌云展開深度合作,設計和開發這一首個由行業標準編程語言和開源基礎設施程序員開發工具包所支持的開放式解決方案,以簡化開發者在谷歌云數據中心對該技術的訪問。
Ponte Vecchio:面向高性能計算和人工智能工作負載的大殺器
在去年的架構日上,英特爾宣布了Xe架構的顯卡會包括LP、HP、HPG和HPC四個領域,而Ponte Vecchio就是英特爾迄今為止最復雜的Xe-HPC GPU,它包含了多達1000億個晶體管,提供領先的浮點運算和計算密度,以加速AI、HPC和高級分析工作負載。其ResNet推理性能超過每秒43000張圖像和超過每秒3400張圖像的ResNet訓練。
Ponte Vecchio的復雜設計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展,其中計算單元是一個密集的多個Xe內核,是Ponte Vecchio的核心,一塊單元有8個Xe內核,總共有4MB的一級緩存,是提供高效計算的關鍵,而基礎單元是Ponte Vecchio的連接組織,Xe鏈路單元則提供了GPU之間的連接。
陳葆立表示,目前美國的一些大型實驗室和歐洲的客戶已經決定使用這款產品,英特爾也在與國內的客戶進行積極的溝通。
除了XPU的硬件戰略之外,軟件作為硬件發展的土壤也同樣重要,現在oneAPI迎來了全新的版本oneAPI 2022,擁有900項新功能。此次發布的新版本首次通過統一的C++/SYCL/Fortran編譯器和Data Parallel Python為CPU和GPU增加了跨架構的軟件開發能力,并提升了Advisor加速器性能建模能力,包括使用VTune Flame Graph將性能熱點可視化,并通過擴展Microsoft Visual Studio Code集成和Microsoft WSL2支持,以提高生產力。
當然,面對數字化時代的數據爆發,僅僅靠英特爾的力量可能還是略顯單薄,生態一直都是英特爾重要的一環。軟件方面,oneAPI作為一個開放、規范、跨架構和跨廠商的統一軟件棧,提供了跨架構的兼容性,讓開發者能夠擺脫專有語言和編程模型的束縛。而通過精選解決方案的模式,可以更深入地與合作伙伴進行聯系,將第三代至強、第二代傲騰可持久內存、網卡進行部署和調優,而針對未來的創新產品,也需要跟行業頭部用戶一起把軟件和硬件調優,做成一個可以讓眾多企業都用得比較好的軟件包,然后再擴散到一些其他行業用戶身上。
“中國在創新方面會在有一些技術方面是領先的,但技術本身是沒有國界的,好的創意到處都有,每個人側重不同,我們希望我們是一個好的硬件或者是開發平臺,能夠把所有好的創新都加速,然后把這個創意分享到所有地方,這是我們一直以來在做的事情。英特爾將一如既往地深耕生態,包括跟軟件商、ISV、方案商一起合作,為廣大企業提供穩定可靠的創新產品,當然,這個過程肯定是漸進式的。”陳葆立總結道。
從XPU的硬件戰略到開放的oneAPI軟件棧,從IDM 2.0戰略再到“水利萬物而不爭”的生態路線,英特爾近幾年來的布局,無一不在彰顯著自己在軟件、芯片和平臺方面的深度與廣度,在封裝和制程工藝方面的技術,以及在大規模制造上的實力,這一切都在說明,英特爾已經為千倍算力增長的數字化時代做好了準備。
技術是人類智慧的產物,而創新則會在開放境中茁壯成長,在這樣的環境下,開發者們能自由地聯系、溝通和協作。英特爾基于在開放平臺和大量基礎軟件技術方面的深厚積淀的努力,為業界提供的創新技術與架構,無疑會成為驅動數字化時代的重要源動力之一。
Intel 酷睿i7 10700 8核心/16線程,睿頻至高可達4.8GHz,睿頻加速Max技術3.0
進入購買
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
2022-01-12 16:50:28
2022-01-12 14:16:53
營業執照公示信息
相關新聞