從浪潮“源1.0”看巨量模型并非一味比大
人工智能在算法領域的不斷突破,不同數值精度帶來了跨度更大的計算類型,對計算芯片指令集、架構的要求更加細分。圖靈獎獲得者John Hennessy和David Patterson共同發表的《計算機架構的新黃金時代》中提出:當摩爾定律不再適用,一種更加以硬件為中心的DSA(Domain Specific Architecture)架構設計會成為主導,這種設計的核心在于針對特定問題或特定領域來定義計算架構。基于DSA思想設計的AI芯片,在特定AI工作負載上表現出遠超通用芯片的處理能力,大大推動了AI芯片的多元化發展。
從浪潮“源1.0”看巨量模型并非一味比大(圖片來自itpro.co.uk)
“人工智能如何發展出像人類具備邏輯、意識和推理的認知能力,是人工智能研究一直在探索的方向。目前來看,通過大規模數據訓練超大參數量的巨量模型,被認為是非常有希望實現通用人工智能的一個重要方向。”在AICC 2021上,中國工程院院士、浪潮首席科學家王恩東認為,隨著巨量模型的興起,巨量化已成為未來人工智能發展非常重要的一個趨勢。
目前,全球知名的AI領先公司在巨量模型上都予以重兵投入,谷歌、微軟、英偉達、浪潮、智源研究院、百度、阿里等公司相繼推出了各自的巨量模型。
巨量化的一個核心特征就是模型參數多、訓練數據量大。以浪潮人工智能研究院開發的全球最大規模的中文AI巨量模型“源1.0”為例,其參數量高達2457億,訓練數據集規模達到5000GB。相比GPT3模型的1750億參數量和570GB訓練數據集,“源1.0”的參數規模增加了40%,訓練數據集規模增加近10倍。
此外,巨量化也表現在模型應用規模大。互聯網頭部公司的AI開放平臺已經吸引了超百萬的AI開發者,這些AI開放平臺每天承載著數萬億次的調用量,數百萬小時的語音識別,超過百億張圖像識別,超過萬億句自然語言理解等等。如此巨量的調用對算力中心的應用支撐能力帶來了極大的挑戰。
差異化的場景需求為AI發展指出了一條新道路,泛化能力成為AI在各行各業應用時實現規模化創新的基礎,而這離不開超大參數量模型對大規模數據的訓練。事實上,包括谷歌、微軟、英偉達、浪潮、阿里在內的企業都相繼推出了各自的巨量模型。2020年,OpenAI發布了GPT-3深度學習模型,GPT-3模型憑借1750億個參數,在文本分析、機器翻譯、機器寫作等自然語言處理領域表現出色。前不久,浪潮人工智能研究院開發出了全球最大規模的中文AI巨量模型“源1.0”,參數量達到2457億,訓練數據集規模達到5000GB。相比GPT-3模型的1750億參數量和570GB訓練數據集,“源1.0”的參數規模增加了40%,訓練數據集規模增加近10倍。
OpenAI的GPT-3帶來了較好的小樣本學習和泛化能力,前者的小樣本甚至是零樣本的學習能力,可以削弱預訓練階段基礎模型的復雜性,以及針對不同場景進行模型調整所引發的大量工作,后者可以使得模型訓練一次后得到的大模型用于支持各類任務,具有更好的普適性。因此,大模型的特性更符合人們對于通用智能的期待。相比此前GPT-3完成訓練需要1萬塊GPU,源1.0只需要2000多塊GPU即可完成。為了訓練源1.0,浪潮研發了業界最大規模的中文高質量數據集5TB,為此清洗了近860TB的互聯網數據。在精度上,源1.0在自然語言處理任務CLUE零樣本學習和小樣本學習的榜單中排名第一,在中文問答任務如WebQA上也大幅提升了性能。
當然,模型并不是一味的在比大。斯坦福大學計算機科學系教授李飛飛曾指出,對于均質和突現來說,均質就是有更好的泛化能力,突現就是表現出來的零樣本學習和小樣本學習的能力,這些能力是模型參數量較小時看不到的,只有當參數量變大之后,才會出現一些獨特的性質。“大不是目的。AI的下一步是從系統1到系統2、從感知到認知,從專用智能走向通用智能。”浪潮人工智能研究院首席科學家吳韶華稱,“我們研究過不同尺寸的模型結構,發現隨著模型參數量的增大,尤其是小樣本學習的能力會持續改進,‘大’能帶來在算法、結構等方面的改進,加速對于前沿技術的探索。”
不過,大模型也有一些局限性,有些問題同樣困擾著深度學習相關的幾乎所有模型,例如不可解釋性,難度會隨著模型參數量的增長而加大。除此之外,概率的不可控性,以及約束推理(在受限的條件下/給定的條件下對模型進行推理)等問題也需要被解決。在落地實踐的過程中,模型的針對性、精準性都會根據行業應用場景而改善,這就離不開模型的開放性,要與合作伙伴共同優化。自源1.0上線以來,已經接收到很多來自產業各界的企業和機構申請使用。
吳韶華認為,任何技術的發展都會有從興起到成熟再到落地的階段,“從這個規律來看,大模型正處于興起的階段,大家正在圍繞模型的體量,以及模型體量帶來的精度效應開展持續探索,當大模型探索走向成熟之后,一定會考慮應用等具體問題,比如響應化,運用響應化、高性能的推理部署等等,會有一個比較科學的曲線。”
當模型算法進入到“巨量時代”,單靠任何一家企業或機構都難以完成大模型的研發、訓練、交互,生態的重要性被提升到了更高的優先級。埃森哲的一份調研報告顯示,70%以上有技術的研究機構、科技公司缺少需求場景、領域知識和數據,70%以上的行業用戶缺少技術人才、AI平臺和實踐能力。因此,只有將AI算法、芯片等領域的前沿技術與行業場景連接起來,才能向客戶交付整體解決方案。
聯想ThinkSystem SR650(Xeon Silver 4210R/32GB/1.2TB*4)
進入購買
華為5G CPE Pro 2
進入購買
浪潮英信NF5280M5 2U機架式服務器主機:銀牌4210*2/16G*4內存/4TSATA*3硬盤/PM8204 2G緩存/導軌/550W雙電
進入購買
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
2022-01-12 16:50:28
2022-01-12 14:16:53
營業執照公示信息
相關新聞