国产乱人偷精品人妻,嫩草亚洲小泬久久夂,久热大香蕉

從浪潮“源1.0”看巨量模型并非一味比大

來源：中關村在線 2021-11-10 06:37:38

分享到：

人工智能在算法領域的不斷突破，不同數值精度帶來了跨度更大的計算類型，對計算芯片指令集、架構的要求更加細分。圖靈獎獲得者John Hennessy和David Patterson共同發表的《計算機架構的新黃金時代》中提出：當摩爾定律不再適用，一種更加以硬件為中心的DSA（Domain Specific Architecture）架構設計會成為主導，這種設計的核心在于針對特定問題或特定領域來定義計算架構。基于DSA思想設計的AI芯片，在特定AI工作負載上表現出遠超通用芯片的處理能力，大大推動了AI芯片的多元化發展。

從浪潮“源1.0”看巨量模型并非一味比大（圖片來自itpro.co.uk）

“人工智能如何發展出像人類具備邏輯、意識和推理的認知能力，是人工智能研究一直在探索的方向。目前來看，通過大規模數據訓練超大參數量的巨量模型，被認為是非常有希望實現通用人工智能的一個重要方向。”在AICC 2021上，中國工程院院士、浪潮首席科學家王恩東認為，隨著巨量模型的興起，巨量化已成為未來人工智能發展非常重要的一個趨勢。

目前，全球知名的AI領先公司在巨量模型上都予以重兵投入，谷歌、微軟、英偉達、浪潮、智源研究院、百度、阿里等公司相繼推出了各自的巨量模型。

巨量化的一個核心特征就是模型參數多、訓練數據量大。以浪潮人工智能研究院開發的全球最大規模的中文AI巨量模型“源1.0”為例，其參數量高達2457億，訓練數據集規模達到5000GB。相比GPT3模型的1750億參數量和570GB訓練數據集，“源1.0”的參數規模增加了40%，訓練數據集規模增加近10倍。

此外，巨量化也表現在模型應用規模大。互聯網頭部公司的AI開放平臺已經吸引了超百萬的AI開發者，這些AI開放平臺每天承載著數萬億次的調用量，數百萬小時的語音識別，超過百億張圖像識別，超過萬億句自然語言理解等等。如此巨量的調用對算力中心的應用支撐能力帶來了極大的挑戰。

差異化的場景需求為AI發展指出了一條新道路，泛化能力成為AI在各行各業應用時實現規模化創新的基礎，而這離不開超大參數量模型對大規模數據的訓練。事實上，包括谷歌、微軟、英偉達、浪潮、阿里在內的企業都相繼推出了各自的巨量模型。2020年，OpenAI發布了GPT-3深度學習模型，GPT-3模型憑借1750億個參數，在文本分析、機器翻譯、機器寫作等自然語言處理領域表現出色。前不久，浪潮人工智能研究院開發出了全球最大規模的中文AI巨量模型“源1.0”，參數量達到2457億，訓練數據集規模達到5000GB。相比GPT-3模型的1750億參數量和570GB訓練數據集，“源1.0”的參數規模增加了40%，訓練數據集規模增加近10倍。

OpenAI的GPT-3帶來了較好的小樣本學習和泛化能力，前者的小樣本甚至是零樣本的學習能力，可以削弱預訓練階段基礎模型的復雜性，以及針對不同場景進行模型調整所引發的大量工作，后者可以使得模型訓練一次后得到的大模型用于支持各類任務，具有更好的普適性。因此，大模型的特性更符合人們對于通用智能的期待。相比此前GPT-3完成訓練需要1萬塊GPU，源1.0只需要2000多塊GPU即可完成。為了訓練源1.0，浪潮研發了業界最大規模的中文高質量數據集5TB，為此清洗了近860TB的互聯網數據。在精度上，源1.0在自然語言處理任務CLUE零樣本學習和小樣本學習的榜單中排名第一，在中文問答任務如WebQA上也大幅提升了性能。

當然，模型并不是一味的在比大。斯坦福大學計算機科學系教授李飛飛曾指出，對于均質和突現來說，均質就是有更好的泛化能力，突現就是表現出來的零樣本學習和小樣本學習的能力，這些能力是模型參數量較小時看不到的，只有當參數量變大之后，才會出現一些獨特的性質。“大不是目的。AI的下一步是從系統1到系統2、從感知到認知，從專用智能走向通用智能。”浪潮人工智能研究院首席科學家吳韶華稱，“我們研究過不同尺寸的模型結構，發現隨著模型參數量的增大，尤其是小樣本學習的能力會持續改進，‘大’能帶來在算法、結構等方面的改進，加速對于前沿技術的探索。”

不過，大模型也有一些局限性，有些問題同樣困擾著深度學習相關的幾乎所有模型，例如不可解釋性，難度會隨著模型參數量的增長而加大。除此之外，概率的不可控性，以及約束推理（在受限的條件下/給定的條件下對模型進行推理）等問題也需要被解決。在落地實踐的過程中，模型的針對性、精準性都會根據行業應用場景而改善，這就離不開模型的開放性，要與合作伙伴共同優化。自源1.0上線以來，已經接收到很多來自產業各界的企業和機構申請使用。

吳韶華認為，任何技術的發展都會有從興起到成熟再到落地的階段，“從這個規律來看，大模型正處于興起的階段，大家正在圍繞模型的體量，以及模型體量帶來的精度效應開展持續探索，當大模型探索走向成熟之后，一定會考慮應用等具體問題，比如響應化，運用響應化、高性能的推理部署等等，會有一個比較科學的曲線。”

當模型算法進入到“巨量時代”，單靠任何一家企業或機構都難以完成大模型的研發、訓練、交互，生態的重要性被提升到了更高的優先級。埃森哲的一份調研報告顯示，70%以上有技術的研究機構、科技公司缺少需求場景、領域知識和數據，70%以上的行業用戶缺少技術人才、AI平臺和實踐能力。因此，只有將AI算法、芯片等領域的前沿技術與行業場景連接起來，才能向客戶交付整體解決方案。

聯想ThinkSystem SR650(Xeon Silver 4210R/32GB/1.2TB*4)

[經銷商]京東商城

[產品售價]32062元

進入購買

華為5G CPE Pro 2

[經銷商]京東商城

[產品售價]7899元

進入購買

浪潮英信NF5280M5 2U機架式服務器主機：銀牌4210*2/16G*4內存/4TSATA*3硬盤/PM8204 2G緩存/導軌/550W雙電

[經銷商]京東商城

[產品售價]30299元

進入購買