国产精品一二三区成毛片视频,久久久久久久久久99精品,久久综合久久网,a级大片免费观看,亚洲第一狼色综合区,夫妻91视频,麻豆免费在线观看,www色午夜
0537- 6808158
網站首頁 >> 新聞中心 >>科技動態 >> 生成式AI時代,Intel處理器還是主角嗎?
详细内容

生成式AI時代,Intel處理器還是主角嗎?

时间:2023-08-22     【转载】

生成式AI現在這么熱,以往總以提供算力底座為己任的Intel在這個時代扮演著怎樣的角色?

前不久Intel NEX事業部的活動上,有幾個現場demo讓我們印象挺深刻的:主要是CV(計算機視覺)類行業應用(部分是基于AI),靠CPU單打獨斗(或搭配核顯)就行,不需要外部加速器。

比如說海康機器人視覺方案VC3000X用于PL光伏檢測,最新一代方案用了12代酷睿CPU,替換掉了上一代方案選配的酷睿i7-9700 + RTX 3060的方案。據說不僅功耗和成本都更低,而且性能還更好了。是不是還挺反直覺的?

還有Intel自己展示了一臺OCES架構服務器,作為邊緣服務器,用于智慧社區——比如說小區里有孩子走丟了,給這套系統輸入孩子的照片,它就能從監控數據庫里,通過特征比對和搜索的優化算法,來給出孩子最后出現的時間、地點。這個方案是在至強CPU上完成的,完全沒有借助獨立GPU或者別的加速器。


此類展示還不少,感覺還是挺突破我們對于這種規模的CV或者AI應用,需要加速器參與的認知的。前不久Intel在大灣區科技創新中心,給我們現場展示了用輕薄本來推理LLM大語言模型和Stable Diffusion文生圖與圖生圖,速度也還挺快——CPU或者核顯,在這其中就是算力擔當。當然,和大功率獨顯或加速器相比,模型肯定不是一個量級,但起碼讓我們見識了,并不是所有邊緣的AI、CV都得用GPU和AI芯片。

“很多客戶用CPU的時間很多,他們也可能需要運行AI工作負載。”宋繼強(英特爾研究院副總裁、英特爾中國研究院院長)在前不久的Intel中國學術峰會上接受采訪時說,“有些并不需要單獨購置加速器,不管是AI加速器還是GPU,直接就在CPU上去做。這對他們而言,不僅節省了部署成本,也減少了傳輸、存儲等成本。”

我們從今年這場學術峰會上,聽到最多的恐怕就是AI和生成式AI了——畢竟這是現在的大熱門。可能大部分讀者聽到生成式AI就會立刻想到英偉達。而同樣提供算力的Intel似乎在這股洪流下,就顯得沒那么耀眼。但從這場學術峰會幾名大佬的演講,我們還是能夠從中窺見Intel在這個時代下的AI哲學。

借此,我們來談談Intel的AI布局。其實AI并非本場學術大會的唯一主題,比如宋繼強還給出了Intel在半導體制造、封裝,乃至新計算范式方面的前沿技術介紹,我們也聽到了一些新料:比如不同NA的EUV設備對晶體管scaling down的具體影響,以及Loihi神經擬態計算的潛在價值、量子計算的階段成果等等——不過這些,我們放到后續單獨的文章里再談。本文就談談Intel和AI,即便基于本場活動的探討,大概只能算是管中窺豹。

 

AI時代,CPU扮演這樣的角色

大部分關注Intel處理器的同學應該知道,Intel在Sunny Cove/Cypress Cove(10代酷睿,2代至強)這代CPU核心上新增AVX-512支持,同時實現針對AI/ML加速的Deep Learning Boost,支持VNNI指令(Vector Neural Network Instructions,專用于INT8量化)。換句話說,就是CPU某個模塊的AI加速——這已經是幾年前了。

當時我們認為,加速計算發展大背景下,這類工作顯然最終都會落到GPU或者專用AI加速處理器上,CPU做出這番支持價值真的會有多大嗎?而且早在2020年前后,就已經有數據統計機構在唱衰CPU未來的市場價值會被加速器壓縮了。

后續統稱作“Intel AMX(Advanced Matrix Extensions)”的這一思路仍然得到了延續,包括現在的4代至強(Sapphire Rapids),AMX的INT8量化又再度大幅提升了模型性能。戴金權(英特爾院士、大數據技術全球CTO)在主題演講中說Sapphire Rapids“提供了更大的2D寄存器支持,通過最新的矩陣計算指令,大大提升了BF16和INT8方面的AI能力。”表明Intel還是很堅持他們對于CPU的這一決策的。

這應該是今年Intel最早在Computex上就演示輕薄本具備生成式AI推理能力的實現基礎之一。而且就NEX業務在邊緣端部署的那些案例來看,對于很多具體的應用而言,CPU可能真的是最優選。我們在2023英特爾網絡與邊緣產業高層論壇上,和做零售AI解決方案的一家企業負責人聊了聊,他就強調說零售客戶對成本很敏感,所以他們的AI Box里面就只配了酷睿i5處理器,再無其他加速器——況且效果也很不錯。

“雖然我沒有具體的數字,但我可以說在推理方面,Intel CPU是市場占有率第一。”戴金權所說的“占有率第一”應該是指在所有處理器類型里的第一。他在這次的Intel中國學術峰會上展示了好幾個用輕薄本做生成式AI模型推理的例子,“這些應用在客戶端設備上有更廣泛的應用場景。”

技術分享會上,Intel給我們現場展示了用一臺采用酷睿i7-13700H處理器的輕薄本來推理ChatGLM-6b、Llama 2-13b,AI回應的token生成速度是顯著快于人的閱讀速度的。據說ChatGLM-6b入門級規模的模型,只需要4個Golden Cove核(12代酷睿的P-core),就能快速跑起來;“13b規模翻一倍,現在我們也能做到很好的體驗”。

戴金權另外在主題演講里給出了跑StarCoder-15.5b模型的展示,同樣是輕薄本。Intel宣傳中是說,16GB RAM的酷睿處理器輕薄本跑160億參數級別的模型本地推理都是沒問題的。

“Intel的一個愿景是AI everywhere。其實Intel今天的硬件,某種意義上已經是無處不在的了。大家都需要用筆記本或者邊緣端的一些設備。”戴金權談到,“要做到AI無處不在,那就必須做到生成式AI得在這些客戶端上跑起來——這些客戶端可能只有很輕量的CPU,但卻要求做到對生成式AI的高效支撐。”

也不光是酷睿CPU,田新民(英特爾院士、首席編譯器性能架構師)提到借著至強CPU(Sapphire Rapids)自身對AI推理的“平衡”設計,在諸如蛋白質折疊預測、變異檢測這類小型AI模型上,靠CPU一己之力就實現相比CPU+GPU更強的性能和效率。“這也說明了第四代至強對小規模科學研究就能起到很好的支撐作用。”這就是至強CPU應用AI的典型案例了吧。

 

XPU加持下的AI之路

如果你對酷睿處理器真的了解就會發現,現在的酷睿CPU并不單純是“CPU”——它是一顆包含了CPU、核顯、VPU等關鍵組成部分的SoC芯片。其實在今年Computex上,Intel首次展示用Meteor Lake(下一代酷睿處理器)在推理Diffusion模型,就同時用到了CPU、核顯和VPU資源。

當時Intel對外展示的是輸入提示語“月亮上,宇航員騎著一只馬”,20秒出圖。Intel解釋說這個演示“是將不同層放在不同的IP上,比如VPU承載VNET模塊的運行,GPU承載encoder模塊的運行”,“整體是將整個模型分散到不同的IP上。”另外最終還有個將出圖執行AI超分的流程,是完全基于VPU加速。值得一提的是,這個調度過程由OpenVINO完成。

“現在筆記本里面的Intel芯片就是很強大的XPU了。”戴金權談到,另一方面當然也可以用性能更強大的Arc GPU,也就是Intel面向PC設備的獨立顯卡。他在學術峰會上展示基于Arc GPU來跑ChatGLM2-6b:“當然這樣就能支撐更多更大的模型。這方面的工作,我們現在還在開展中——前兩周我們剛剛把這兩個模型帶到Arc獨立顯卡上。”

技術分享會上,Intel也展示了Arc GPU加速的能力。而關鍵信息是,Intel告訴我們這次用Arc GPU跑Stable Diffusion相比2個月之前有了非常明確的進步;甚至說如今的Arc A770在生成式AI推理能力上,完全能夠達到隔壁RTX 4080的水平。這些其實都是軟件團隊努力的結果。有關軟件的部分,后文也會談到。

由此,我們可以擴展開去,看到就AI支持——包括生成式AI的支持,Intel的底層硬件實則涵蓋了前文談到的酷睿、至強CPU,Arc GPU,以及面向數據中心的Flex GPU,還有下文會談到的Max(Ponte Vecchio);和峰會上被多次提及的AI芯片Habana Gaudi2——特別面向中國市場的,以及在Intel XPU策略版圖中的FPGA等芯片類型。

這些芯片構成了Intel整個AI王國的算力底座。據說目前主流的LLM都已經能夠跑在Intel的GPU上了,“下一步我們要聚焦到性能的提高上。”田新民說。李映(英特爾公司副總裁、英特爾中國軟件生態事業部總經理)還明確提到不同處理器面向不同應用,比如說“Arc可能更多集中在汽車、客戶端上,數據中心我們有Max系列,還有前一段時間剛剛發布的AI加速器Gaudi2”,“根據模型本身的特點,以及部署環境,找到最適合的選擇”。

那么Intel作為一家傳統意義上的芯片企業,用于AI的芯片產品線布局就已經相對完備了。而且要說算力水平,Intel對于Gaudi2的宣傳(與Ampere架構GPU的對比,如上圖)是前些日子還挺熱門的新聞,不需要我們多做贅述。但實際上,基于我們對英偉達AI基礎設施的了解,硬件基礎設施層面光有芯片、板卡也還是不行的。尤其當AI算力需要做規模化擴展,或者說要上升到大語言模型training時,封裝、互聯、networking之類的問題都需要去解決。

“在Gaudi2之前,已經有了Gaudi1。目前Gaudi1已經應用到了AWS上。這塊的工作Intel一直在進行中,包括和我們的很多合作伙伴,像浪潮、華勤等。生態這塊我們始終是很有信心的。”戴金權說。不知道是英偉達太過擅長做包括互聯、networking在內基礎設施技術的營銷,還是Intel在這方面太低調或成效不顯——也可能和Intel在HPC AI生態上,現階段選擇了更開放的標準和技術有關,所以我們就不大能聽得到這方面更具體的商業宣傳概念。

從包含系統、互聯的大規模集群層面要看Intel的實力,不有個現成的Aurora超算嗎?今年ISC上,Intel更新了Aurora的更多信息——這是個ExaFLOPS算力級別的超算系統。

 

當真正上升到HPC AI

既然是AI everywhere,那也不能光是端側和邊緣側的everywhere——核心部分真正的HPC AI,或者起碼也是SuperPOD互聯、跨節點的大規模集群,才是Intel這種在高性能計算市場摸爬滾打多年應該展示的水平。

Aurora是Intel和HPE Cray設計,為美國阿貢國家實驗室準備的。既然是國家實驗室,應用無外乎數據分析、AI、模擬仿真之類——戴金權在主題演講中提到針對不同科學領域,跑在Aurora系統上的,“我們構建達到萬億級別數量級參數規模的大模型,構建面向科學領域的生成式AI大模型”。

“萬億”級別參數是個什么概念呢?現在很火的GPT-4也在這個參數量級水平上。所以Aurora應該是這個時代下,Intel親自捉刀最具代表性的HPC系統了。這里特別談到Aurora,也是因為田新民在學術峰會上花了較多篇幅去談Aurora——雖然其實主要是軟件,包括編程模型等。這應該表明Aurora是Intel當前產業應用的HPC前沿代表了。

目前我們所知有關Aurora系統的相關數據包括,總重量600噸,使用光纜總長度300英里,占地面積10000平方英尺,230PB DAOS存儲,以及ExaFLOPS級別算力。感覺這些數字對一般人還是挺抽象的。從系統構成來看,Aurora總共10624個節點,每個節點2顆CPU——即總共21248顆CPU;而GPU Max配了63744張,也就是每個節點6張顯卡。有興趣的同學可以將其與英偉達前不久剛剛發布的GH200完整系統做個對比。

其他參數看上面這張圖,包括存儲容量、互聯帶寬等。因為時間關系,目前我們還無法完全理清這套系統所用的互聯技術、存儲技術,及可能存在的系統瓶頸;或者說當它和競品的超算系統比較,尤其是如果考慮生成式AI這種對存儲與帶寬有極高需求,甚至要求networking交換系統都做重新設計的應用場景下,Aurora的系統構建方式有沒有特別的創新。

無論如何,Aurora的存在,及Intel官方給出的應用示例(包括"clean fusion", "catalysts research", 神經科學研究之類的)都表明Intel在這種能給普通人秀肌肉的HPC場景也并未懈怠。

這里我們比較關心的,戴金權所說達到萬億量級參數的生成式AI模型叫genAI——也是Intel在ISC23上提到的。Aurora genAI模型基礎是Megatron和DeepSpeed。genAI模型會基于通用文本、科學文本、科學數據和相關領域的代碼做訓練,所以就是個純粹科學向的生成式AI,潛在應用領域涵蓋了癌癥研究、氣候科學、宇宙學、系統生物學、聚合物化學與材料等。

Aurora當然并非Intel于HPC、AI領域的唯一產品或方案,這部分主要給了解HPC、超算系統的讀者提供個參考和索引。

其實由這個系統展開去,田新民談到了挺多Intel在AI上的研究和努力的。比如說GPU Max的memory hierarchy為什么做這樣的設計,諸如L2 cache為什么設定在最大408MB...

“這些平衡性設計對我們來說沒有理論依據,完全是基于大量application,通過很多模擬實驗來決定memory hierarchy的設計,包括register file、L1 cache、L2 cache,什么樣的ratio滿足應用、系統需求,以及做各方面的平衡——die size、放多少晶體管進去,可靠性、功耗等。”

 

AI軟件生態進度是這樣...

現在去看每年英偉達GTC開發者大會,都會發現英偉達很早就開始說自己“不是一家芯片公司”這句話有多么正確;其實圖形加速卡這種硬件的發展歷史,由早年群雄割據進入到雙寡頭時代,最重要的一個原因就是GPU的逐步標準化和走向通用化,致使后來的GPU企業有了傳說中“1硬件工程師 :10個軟件工程師”的配比。

在企業規模日益擴大,而市場又容納不下那么大的體量時,必然有一眾參與者要退出,并最終走向市場的寡頭化。這里面軟件的地位一點都不比芯片和硬件低,或者在某些時候軟件甚至更重要。

李映提到現如今Intel的轉變,其中最大的就是“軟件優先”的轉變。這其實不光是因為Intel現如今的CEO、CTO都有軟件背景,還在于Intel的XPU策略,面臨的競爭對手是異常彪悍,而且在軟件生態方面的建設完善度令人咋舌的存在。

軟件部分我們不打算花太多筆墨去談,這是現階段Intel在芯片產品布局完備后,最需要努力的部分。這次Intel中國學術峰會,有兩個關鍵點,還是令我們印象很深刻。

其一是BigDL-LLM,這是前文提及在輕薄本上跑生成式AI的關鍵要素——這個點雖然很具體,但應該能看到Intel發展AI的思路。BigDL-LLM是個開源的LLM推理庫,面向LLM其一大職能就是簡化在端側PC上的LLM推理工作,“通過BigDL-LLM庫,我們可以對跑在本地的各種LLM做優化和支持。”對主流的transformers模型做量化,降低本地硬件資源需求。“利用低精度比如INT4, INT3等進行高效的大規模推理”。

所以前文談用酷睿CPU跑各種LLM,其實是BigDL-LLM的demo,真正展示的是Intel在軟件方面的工作進度;包括用Arc GPU來跑ChatGLM2-6b——即便戴金權說這個demo目前所處的階段還比較早期。“我們還有很大的進步空間,但現在的確是能夠把Intel客戶端XPU的能力都運用起來了。”加上社區標準API兼容,包括LangChain這種將多個模型工作流串起來的API支持,也都是為了簡化開發、快速擴展生態。

據說Intel此前去上海交大做了個針對BigDL-LLM不到半天的培訓,就有幾名學生幾天內依托租到的4核服務器instance,把基于ChatGLM的service搭起來了。“把AI大模型搬到輕薄本上,或者其他客戶端、設備端的場景,我們還能做些什么?我覺得這是非常重要、可以探索的方向。”

換一個視角,除了開源和開放這條常規思路,Intel顯然是期望依托自家CPU的廣泛用戶基礎,來拓展自己的AI生態,而且聽起來是十分有效的。接下來應該就是田新民所說的,要逐漸從支持大模型,轉變為聚焦在性能提升上。所以才有了前后2個月的時間,Stable Diffusion在Intel輕薄本上推理性能的顯著提升這回事——想必Intel的AI相關軟件團隊的加班,一點也不必圖形卡驅動團隊的加班少,更新都是如此緊湊密集...

其二是“開放戰略”——這一點可能未必只是AI軟件,甚至在涉及芯片、系統層面的標準,以及各類應用的工具、框架、庫上都采用開放的思路。對外宣傳自然是說技術創新和服務社區——包括幾個月前成立的中國開源技術委員會,但其實就現階段的Intel而言,這也是在我們看來要壯大生態的必行之策。Intel現在不大可能像英偉達那樣打造一堆自有技術,構成完整、自洽、排他又環環相扣的生態。

比如說在AI應用開發不同階段(如下圖),Intel所布局的技術是嘗試融入到各種開源框架里的。這對Intel現階段的發展至關重要。

甚至原本僅針對自家不同XPU設備統一編程的oneAPI,現在倡導為用戶在不同硬件環境、不同廠商架構中,在同一編程模型上,提供支持。田新民說在oneAPI最初設計理念的基礎上,“要讓oneAPI有很強的可擴展性,不只是針對Intel的硬件架構,也包括非Intel的硬件架構”:Intel新收購的Codeplay不就有oneAPI for CUDA這種讓開發者能用oneAPI面向Intel和英偉達處理器,使用統一的工具鏈來開發么...

從面向媒體的溝通來看,Intel現在也開始主動去談軟件了,這其實是個非常積極的轉變——因為現在Intel最缺的大概就是這一部分,至少在AI領域相比英偉達是這樣。不過我們覺得,談得還是不夠——要知道英偉達針對不同軟件工具、庫的宣傳和市場概念之豐富,絕對會讓人感覺什么Ampere, Hopper都不過是配角。

還是很高興聽到,田新民在談oneAPI時最后一張PPT展示了oneAPI的現狀(下圖),“通過幾年的努力,包括我們和工業界、學術界、國家實驗室、服務供應商、云服務提供商、終端用戶等等角色的合作,現在已經初具規模了”。“初具規模”這個評價在我們看來真的是相當貼切,內里飽含的既有成果的來之不易,也有對未來生態發展潛力的期待。

最后給一張Intel的端到端AI pipeline,一方面助于理清Intel不同產品所處的位置,包括前文提到的BigDL、OpenVINO、oneAPI,以及各類芯片產品。雖說就一期學術峰會,我們還是很難把這家公司的AI布局全貌給搞清楚,但顯然Intel的這張藍圖正變得越來越清晰,AI各方面的工作開展也在有序進行。

    郵箱2032156294@qq.com           電話:0537- 6808158   17686138996     郵編:272400
公眾號
手機網站
版權所有:山東盈和電子科技有限公司
技术支持: 山東水木科技 | 管理登录
seo seo
主站蜘蛛池模板: 锡林浩特市| 元江| 体育| 绿春县| 沂源县| 桐庐县| 松原市| 临朐县| 卓尼县| 吉水县| 桐庐县| 茶陵县| 金山区| 罗山县| 文昌市| 麻城市| 祁门县| 敖汉旗| 温泉县| 武鸣县| 丰县| 江源县| 马公市| 香河县| 澎湖县| 泰来县| 锦屏县| 长春市| 宁津县| 荥经县| 临洮县| 开江县| 赤壁市| 正镶白旗| 晋中市| 中方县| 怀仁县| 腾冲县| 莫力| 荔波县| 玉田县| 广东省| 青铜峡市| 红安县| 德兴市| 青岛市| 郎溪县| 万全县| 麟游县| 上饶县| 惠州市| 栖霞市| 奉贤区| 镇康县| 宣城市| 城市| 从江县| 周口市| 石泉县| 松潘县| 福鼎市| 霸州市| 临朐县| 五大连池市| 巫山县| 安顺市| 新野县| 宁远县| 勃利县| 宜章县| 驻马店市| 土默特右旗| 铁力市| 龙泉市| 龙岩市| 桂林市| 太康县| 丹阳市| 嵊州市| 五莲县| 凌云县| 嘉善县|