|
|
功率半導(dǎo)體的創(chuàng)新驅(qū)動下一代能源網(wǎng)絡(luò)建設(shè),構(gòu)建可持續(xù)發(fā)展的未來时间:2022-04-22 【转载】 作為一個新興的半導(dǎo)體市場,AI芯片的產(chǎn)業(yè)鏈涉及多個價值節(jié)點,其中有一些是高性能處理器芯片所共用的,但也有AI芯片所獨有的價值鏈節(jié)點。從半導(dǎo)體產(chǎn)業(yè)的角度來看,AI芯片價值鏈包括風(fēng)險投資(VC)、技術(shù)人才(Talent)、芯片設(shè)計工具(EDA)、IP/Chiplet、晶圓代工(Foundry)以及封裝測試(OSAT) 自從上世紀50年代人工智能(AI)出現(xiàn)以來,AI的發(fā)展已經(jīng)取得了極大的進步,但真正的技術(shù)突破和AI應(yīng)用爆發(fā)還是最近10年的事。從2012年開始,AI開發(fā)者開發(fā)出復(fù)雜的機器學(xué)習(xí)(ML)算法,尤其是深度學(xué)習(xí)(DL)算法,借助GPU及AI硬件來處理大量的數(shù)據(jù)集,處理效率和準確度都得到了極大提升。 根據(jù)麥肯錫的一份有關(guān)AI技術(shù)及半導(dǎo)體價值的報告,要實現(xiàn)高效而準確的AI訓(xùn)練和推理,需要九層AI技術(shù)堆棧(見下圖),其中最底層的硬件加速器可以實現(xiàn)高能效的并行處理,涉及處理器、內(nèi)存、儲存和網(wǎng)絡(luò)方面的芯片。目前,執(zhí)行AI加速的處理器仍然以GPU為主,雖然CPU、FPGA和ASIC也有各自特定的AI應(yīng)用優(yōu)勢。 廣告
九層AI技術(shù)堆棧,其中硬件加速器提供AI訓(xùn)練和推理所需要的算力。(來源:McKinsey) 據(jù)麥肯錫研究報告預(yù)測,AI 芯片將是半導(dǎo)體產(chǎn)業(yè)在未來20 年內(nèi)最佳的應(yīng)用市場機遇。在其它科技領(lǐng)域,芯片通常只占整個技術(shù)價值鏈10%的價值。但在AI領(lǐng)域,芯片將從整體人工智能的技術(shù)價值鏈中獲得40~50%的價值。AI芯片已經(jīng)成為半導(dǎo)體增速最快的細分市場之一,預(yù)計到2025年全球AI芯片市場將達到100億美元的規(guī)模,現(xiàn)已成為國際芯片廠商、互聯(lián)網(wǎng)巨頭和初創(chuàng)公司爭相角逐的前沿陣地。 作為一個新興的半導(dǎo)體市場,AI芯片的產(chǎn)業(yè)鏈涉及多個價值節(jié)點,其中有一些是高性能處理器芯片所共用的,但也有AI芯片所獨有的價值鏈節(jié)點。從半導(dǎo)體產(chǎn)業(yè)的角度來看,AI芯片價值鏈包括風(fēng)險投資(VC)、技術(shù)人才(Talent)、芯片設(shè)計工具(EDA)、IP/Chiplet、晶圓代工(Foundry),以及封裝測試(OSAT)。下面我們將逐一闡述每個環(huán)節(jié)的價值。 VC從AI爆發(fā)中獲益最大的當數(shù)英偉達,其GPU至今仍是全世界絕大多數(shù)數(shù)據(jù)中心AI加速的首選。英特爾和并購賽靈思之后的AMD也都在加大數(shù)據(jù)中心AI訓(xùn)練/推理及邊緣計算AI推理方面的資源投入。作為云端AI加速最大的應(yīng)用場合,云計算平臺服務(wù)商都在開發(fā)和部署各自的AI芯片和AI加速器。Google基于特定域(DSA)架構(gòu)的TPU已經(jīng)發(fā)展到第四代,據(jù)稱其第五代TPU將能夠利用AI自動進行芯片布局設(shè)計。AWS自研的高性能機器學(xué)習(xí)推理AI芯片Inferentia也已經(jīng)批量部署到AWS EC2中。 再看國內(nèi)AI芯片市場,阿里平頭哥于2019年發(fā)布的數(shù)據(jù)中心AI推理芯片含光800基于自研架構(gòu),采用12nm工藝,集成170億晶體管,性能峰值算力達820 TOPS,主要應(yīng)用于阿里云服務(wù)平臺。從百度獨立出來的昆侖芯科技開發(fā)的R系列昆侖芯2代芯片是第二代云端通用AI推理處理器,基于Arm處理器平臺,采用XPU-R架構(gòu)和7nm先進工藝,算力達到256 TOPS@INT8;128 TFLOPS@ XFP16/FP16。該芯片及加速卡已經(jīng)在百度搜索引擎等廣告等業(yè)務(wù)平臺中部署超過2萬片。 除了半導(dǎo)體和互聯(lián)網(wǎng)巨頭外,風(fēng)險投資也紛紛在AI芯片賽道布局。據(jù)統(tǒng)計,截止2022年1月,2021年國內(nèi)AI芯片相關(guān)領(lǐng)域的融資共計92起,總金額約300億人民幣。下表列出了2021年國產(chǎn)AI芯片初創(chuàng)公司的融資情況。
2021年中國AI芯片公司VC投資情況。(來源:億歐智庫) 獲得融資的AI芯片公司超過25家,其中多家公司獲得多輪融資,比如專注于云端AI推理芯片的瀚博半導(dǎo)體分別在4月和12月完成A輪和B輪融資,累積融資金額超過21億元;地平線從1月到6月完成從C1輪到C7輪的融資,總額高達15億美元;昆侖芯融資金額20億元;燧原科技融資金額18億元;芯馳科技融資金額近10億元。 技術(shù)人才工信部人才交流中心發(fā)布的數(shù)據(jù)顯示,人工智能不同技術(shù)方向崗位的人才供需比均低于0.4(人才供需比=進入該崗位的人才意向數(shù)量/崗位需求數(shù)量),其中AI芯片崗位人才供需比為0.32;機器學(xué)習(xí)、自然語言處理等技術(shù)人才供需僅0.2;而更為專業(yè)細分的智能語音、計算機視覺的人才供需比低至0.09。
AI領(lǐng)域和半導(dǎo)體領(lǐng)域的人才都比較短缺,而融合AI和芯片設(shè)計的分支領(lǐng)域更是急缺技術(shù)和設(shè)計人才。我們以“中國AI芯片第一股—寒武紀”為例,來看一下AI芯片設(shè)計公司都需要哪類技術(shù)人才。
國內(nèi)AI芯片設(shè)計初創(chuàng)公司的創(chuàng)始團隊大都擁有英偉達、AMD和英特爾等全球高性能處理芯片巨頭的工作經(jīng)歷,而一家融資過億元的AI芯片公司的錢主要就是花費在技術(shù)研發(fā)人才的工資和福利待遇上,雖然芯片流片也花費不菲。經(jīng)常有媒體報道芯片設(shè)計工程師的工資高達百萬元,就連剛出校門的畢業(yè)生工資都達到40多萬。這么高的工資待遇是不正常的,但市場供需就是這樣也不得不接受。 國內(nèi)大學(xué)開始設(shè)立集成電路學(xué)院和學(xué)科,但從頭培養(yǎng)需要時間,有經(jīng)驗的研發(fā)工程師更需要實際設(shè)計的實踐才行。芯片設(shè)計公司融資難,但拿到錢后招人更難。國內(nèi)AI芯片公司去臺灣、美國和歐洲招人,去國際芯片公司挖人,以及相互之間挖墻腳,自然也就不足為怪了。 EDA芯片的前端設(shè)計、驗證和仿真,以及后端的物理設(shè)計,都離不開EDA工具。據(jù)Global Industry Analysts(GIA)最新發(fā)布的EDA工具報告統(tǒng)計預(yù)測,全球EDA工具市場規(guī)模2020年約有91億美元,2021年約為99億美元,預(yù)計到2026年將增長到149億美元,從2020到2026的年復(fù)合增長率(CAGR)為8.7%。2021年,美國市場約有18億美元,占全球EDA市場的19.5%。中國市場的增長率為9.8%,預(yù)計到2026年將達到28億美元。 多年來,全球EDA市場一直被EDA三巨頭所統(tǒng)治,中國市場也不例外。EDA可謂是半導(dǎo)體這個皇冠上的明珠,只有100億美元規(guī)模的EDA卻驅(qū)動著5000億美元規(guī)模的全球半導(dǎo)體產(chǎn)業(yè)。鑒于其高度集中的技術(shù)和智力含量,以及其重要的“咽喉要塞”地位,EDA也成了美國限制中國先進半導(dǎo)體發(fā)展的“卡脖子”武器。 半導(dǎo)體業(yè)界人士都知道EDA全流程的重要性,但國內(nèi)EDA公司很少能夠覆蓋設(shè)計和驗證全流程,大部分還是在“點工具”上突破,然后再往外拓展。像華大九天、概倫電子、國微思爾芯,以及芯和半導(dǎo)體等國產(chǎn)EDA廠商都在各自擅長的EDA流程上深耕多年,同時開始借助資本市場融資或上市,以便為快速增長和長遠發(fā)展奠定堅實的基礎(chǔ)。 最近幾年有50多家本土EDA初創(chuàng)公司進入市場,我們以“合見工軟”為例來看一下國產(chǎn)EDA的技術(shù)水平、解決棘手問題的能力及未來發(fā)展?jié)摿Α?021年3月投入運營的合見工軟由武岳峰資本創(chuàng)始人潘建岳擔(dān)任董事長,原Cadence 副總裁、中國及東南亞區(qū)總經(jīng)理徐昀和原Synopsys Fellow、研發(fā)副總裁郭立阜擔(dān)任聯(lián)席總裁,員工超過400人。合見工軟擁有強大的投資人團隊,除了武岳峰科創(chuàng)、國家集成電路產(chǎn)業(yè)投資基金(“國家大基金”)、紅杉資本、中國互聯(lián)網(wǎng)投資基金外,合見工軟的股東還包括聯(lián)發(fā)科、韋爾股份、聞泰科技、瀾起科技、瑞芯微、卓勝微、中興通訊、華勤通訊等領(lǐng)先的芯片設(shè)計公司及其關(guān)聯(lián)基金。到目前為止,合見工軟融資近20億元。 AI芯片大都采用先進工藝節(jié)點(16nm以下至5nm,甚至3nm)。隨著芯片規(guī)模、集成度及設(shè)計復(fù)雜度的大幅提升,芯片設(shè)計、封裝設(shè)計到系統(tǒng)設(shè)計的各個環(huán)節(jié)都對EDA工具提出了更高的要求。因此,先進的EDA解決方案是確保并加速AI芯片成功實現(xiàn)的強大支撐。合見工軟著眼于數(shù)字驗證全流程覆蓋和系統(tǒng)級電子設(shè)計的EDA解決方案布局,已經(jīng)陸續(xù)發(fā)布和規(guī)劃了多款EDA產(chǎn)品以滿足AI芯片的開發(fā)需求,其中包含原型驗證系統(tǒng)、數(shù)字仿真器、驗證效率提升平臺、協(xié)同設(shè)計環(huán)境,以及設(shè)計數(shù)據(jù)管理平臺等。
除了合見工軟外,很多國產(chǎn)EDA公司的產(chǎn)品也都獲得了市場認可和客戶驗證,比如杭州行芯的Signoff工具鏈,鴻芯微納的布局布線工具軟件。EDA這一利基市場的本土廠商將對中國半導(dǎo)體產(chǎn)業(yè)的長遠發(fā)展創(chuàng)造巨大價值。 IP/Chiplet現(xiàn)在的高性能AI芯片大都是采用異構(gòu)集成、芯粒(Chiplet)和先進封裝的系統(tǒng)級芯片。除了微處理器內(nèi)核、GPU、高速網(wǎng)絡(luò)互聯(lián)NiC和eFPGA等高性能IP外,AI芯片設(shè)計越來越多開始集成類似樂高積木的Chiplet。英特爾、AMD、TSMC、三星、Arm等最近聯(lián)合發(fā)布統(tǒng)一的Chiplet接口標準Universal Chiplet Interconnect Express (UCIe)。 UCIe是一種開放的行業(yè)標準互連,可在芯粒(Chiplet)之間提供高帶寬、低延遲、高能效且具有成本效益的封裝連接,它解決了跨越云端、邊緣、企業(yè)、5G、汽車、高性能計算和移動設(shè)備的整個計算領(lǐng)域?qū)τ嬎恪?nèi)存、存儲和連接的增長需求。UCIe 可支持來自不同廠家芯片的集成,包括不同的晶圓廠、不同的設(shè)計和不同的封裝技術(shù)。
芯粒的封裝集成能夠以快速且經(jīng)濟高效的方式提供定制解決方案。例如,不同的應(yīng)用可能需要不同的算力,但卻采用相同的內(nèi)核、內(nèi)存和I/O,如上圖所示。芯粒技術(shù)還可以根據(jù)功能需求選擇最適合的芯粒進行封裝,比如內(nèi)存、邏輯、模擬和一起封裝的光學(xué)器件都需要不同的工藝,這些不同工藝的芯?梢苑庋b在一起。由于封裝走線較短并可以提供密集布線,高帶寬存儲器(HBM)訪問等應(yīng)用就可以實現(xiàn)封裝集成。 Chiplet對于AI芯片的發(fā)展會有積極的影響,主要體現(xiàn)在以下幾個方面:
Chiplet封裝模式的最大優(yōu)勢之一就是在一個系統(tǒng)里可以集成多個工藝節(jié)點的芯片,因此可以支持AI芯片的快速開發(fā),并降低設(shè)計實現(xiàn)成本。在目前的單芯片設(shè)計模式下,系統(tǒng)只能在一個工藝節(jié)點上實現(xiàn)。而對于很多功能來說,使用成本高、風(fēng)險大的最新工藝即沒有必要又非常困難,比如一些專用加速功能和模擬設(shè)計。采用Chiplet模式,AI芯片開發(fā)商在做整體系統(tǒng)設(shè)計的時候則有了更多的選擇。對于追求性能極致的功能模塊,比如高性能CPU,可以使用最新工藝。而其它特殊的功能模塊,比如存儲器、模擬接口和一些專用加速器,則可以按照需求選擇性價比最高的方案。 Chiplet對于AI芯片初創(chuàng)公司的快速發(fā)展尤其有利。AI加速本身就是一個DSA(專用域架構(gòu)),其架構(gòu)本身就是專門為特定運算定制的,具有很高的效率,即使選擇差一兩代的工藝也可以滿足很多應(yīng)用場景的要求。但目前大多初創(chuàng)公司都面臨工藝選擇的困境,如果選擇先進工藝,可能一次投片就需要數(shù)千萬元。如果不選最新工藝,好像就輸在了起跑線上。如果Chiplet模式可行,工藝選擇就會更加理性,工藝雖不是最新但性價比最好的Chiplet會讓所開發(fā)的AI芯片更有競爭力。
以Chiplet構(gòu)成的系統(tǒng)可以說是一個“超級”異構(gòu)系統(tǒng),可以為傳統(tǒng)異構(gòu)集成SoC增加新的維度,至少包括空間維度和工藝選擇的維度。首先,先進的集成技術(shù)在3D空間的擴展可以極大提高芯片規(guī)模,這對AI算力的擴展和成本的降低有很大好處。第二,結(jié)合工藝靈活性,可以在架構(gòu)設(shè)計上有更合理的功能/工藝權(quán)衡,有利于AI SoC或者AIoT芯片更好的適應(yīng)特定應(yīng)用場景的需求。第三,系統(tǒng)的架構(gòu)設(shè)計,特別是功能模塊間的互聯(lián),有更多優(yōu)化的空間。在當前的AI芯片架構(gòu)中,數(shù)據(jù)流動是主要瓶頸。雖然HBM可以在一定程度上解決處理器和DRAM之間的數(shù)據(jù)流動問題,但價格過于昂貴。對于云端AI加速,Host CPU和AI加速芯片之間,以及多片加速芯片之間的互聯(lián),目前主要通過PCIe、NvLink或者直接用SerDes等。如果采用Chiplet方式,則是裸片之間的互聯(lián),帶寬、延時和功耗都會有很大的改善。最后,目前的片上網(wǎng)絡(luò)NoC是在一個硅片(2D)上的,而未來的NoC則可以擴展到硅片之間,特別是和Active Interposer結(jié)合,就可能構(gòu)成一個3D網(wǎng)絡(luò),其路由、拓撲及QoS都可以有更大優(yōu)化空間。
在傳統(tǒng)的IP供應(yīng)商和芯片開發(fā)商之外,Chiplet提供了一個新的選擇。對于目前的AI芯片廠商來說,要么聚焦在AI加速部分,以IP形式或者外接硬件加速芯片的形式提供產(chǎn)品,要么走垂直領(lǐng)域,做集成AI加速功能的SoC。對于前者來說,Chiplet可以提供一個新的產(chǎn)品形式,增加潛在的市場應(yīng)用,或者拉長一代產(chǎn)品(工藝)的生命周期。對后者來說,可以直接集成合適的AI chiplet而不是IP,從而大大節(jié)省項目開發(fā)的時間。因此,可以預(yù)見,AI Chiplet會成為AI硬件復(fù)用和集成的重要形式。 采用芯片設(shè)計平臺即服務(wù)(Silicon Platform as a Service, SiPaaS)模式的芯原微電子提出芯粒平臺服務(wù)(Chiplet as a Platform)的理念,從實現(xiàn)IP芯; (IP as a Chiplet)進一步提升至實現(xiàn)芯粒平臺化 (Chiplet as a Platform),將為客戶提供更加完備的基于Chiplet的平臺化芯片定制解決方案。該公司去年開發(fā)的高端應(yīng)用處理器平臺采用Chiplet架構(gòu)設(shè)計,從定義到流片返回僅用了12個月的時間。此外,這個高端應(yīng)用處理器平臺還集成了芯原的很多IP,包括神經(jīng)網(wǎng)絡(luò)處理器NPU、圖像信號處理器ISP、視頻處理器VPU、音頻數(shù)字信號處理器和顯示控制器等。芯原計劃今年在其高端應(yīng)用處理器平臺的基礎(chǔ)上,進一步推進Chiplet技術(shù)和項目的產(chǎn)業(yè)化,主要面向手機、平板電腦、筆記本電腦等應(yīng)用,同時還適用于自動駕駛應(yīng)用。 在微處理器內(nèi)核IP方面,AI芯片大都采用高性能的Arm Cortex A系列處理器內(nèi)核,最近兩年基于RSIC-V內(nèi)核的AI芯片設(shè)計也開始多起來(特別是邊緣AI)。針對中國市場和客戶,安謀科技除了繼續(xù)提供Arm微處理器系列IP外,還自主研發(fā)推出了XPU系列智能數(shù)據(jù)流計算平臺,包括“周易”NPU、“星辰”CPU、“山!盨PU以及“玲瓏”ISP和VPU處理器產(chǎn)品線。安謀科技董事長兼總經(jīng)理吳雄昂表示,該公司將采用兼容Arm架構(gòu)CPU +自研架構(gòu)XPU的‘雙輪驅(qū)動’戰(zhàn)略,繼續(xù)在自研架構(gòu)智能數(shù)據(jù)流處理器和自主高性能處理器上充分發(fā)力,在智能汽車、邊緣計算、數(shù)據(jù)中心、智能物聯(lián)網(wǎng)、移動設(shè)備等各個領(lǐng)域全面支持中國半導(dǎo)體和科技產(chǎn)業(yè)的未來發(fā)展。這些應(yīng)用領(lǐng)域都跟AI息息相關(guān),自然AI芯片的設(shè)計也離不開XPU系列IP。 晶圓代工(Foundry)和封裝測試(ATP)AI芯片大都采用16nm或跟更為先進的晶圓工藝。2021年有多家國產(chǎn)AI芯片公司發(fā)布了采用7nm工藝的AI芯片,其中包括:昆侖芯2、寒武紀思元290、天數(shù)智芯GPGPU芯片BI、芯擎科技“龍鷹一號”智能座艙芯片SE1000,以及瀚博半導(dǎo)體SV102等。7nm工藝芯片的流片成本高達數(shù)億元,而芯片能否量產(chǎn)及未來應(yīng)用前景尚不明確,為什么這些AI芯片初創(chuàng)公司仍趨之若鶩呢?難道只是拿著投資人的錢玩競跑游戲嗎? 美國喬治城大學(xué)發(fā)布的一份AI芯片研究報告對采用不同工藝節(jié)點的AI芯片進行了經(jīng)濟效益分析,通過量化模型揭示出先進工藝芯片相比舊的工藝節(jié)點的性能、效率和成本收益。
具有5nm芯片相對數(shù)量晶體管的不同工藝節(jié)點芯片的成本對比。(來源:CSET at Georgetown University) 該分析模型基于這樣的假設(shè):一顆跟英偉達16nm Tesla P100 GPU裸片尺寸類似的服務(wù)器級別5nm芯片包含約907億個晶體管(P100裸片面積為610平方毫米,集成了150億個晶體管)。假如從7nm往前直到90nm工藝節(jié)點的芯片都包含跟5nm芯片同樣的晶體管數(shù)量,每個工藝節(jié)點的芯片在設(shè)計、晶圓代工、封裝測試和工作運行階段的不同成本有什么差別呢?
研究人員從該成本分析模型得出兩個結(jié)論:第一,在正常運營兩年內(nèi),先進工藝(7/5nm)芯片的能耗成本就超過了其生產(chǎn)成本,采用舊工藝的芯片(10nm及以上)能耗成本增長更快。若綜合考慮生產(chǎn)成本和運營成本,先進工藝芯片的成本效益是舊工藝芯片的33倍。 第二,對比7nm和5nm芯片,當正常運營使用8.8年時,二者的成本相當。這意味著,如果在8.8年以內(nèi)更換芯片,7nm更劃算。鑒于數(shù)據(jù)中心AI訓(xùn)練和推理所用的AI加速器大都是3年更換一次,單從成本效益來看7nm芯片比5nm更劃算。 以上分析也許適用于面向數(shù)據(jù)中心AI訓(xùn)練和推理的高性能AI芯片,但對面向邊緣計算和終端設(shè)備的AI芯片來說,未必合適。針對高性能計算和云端AI的國產(chǎn)AI芯片設(shè)計公司為數(shù)不多,大部分AI芯片公司都是面向邊緣和終端應(yīng)用市場,尤其是AIoT和智能安防應(yīng)用場景。 |








