只有阿里騰訊才懂的芯片秘密 | |
發布時間:2022-02-21 16:43:13 | 瀏覽次數: | |
虎嗅APP | 宇多田
就在上周,中國內存廠商長鑫存儲(便是睿力集成),其悄然變更的股東信息引發了一些媒體和產業騷動。
因為在新增的19位股東中,“阿里巴巴”“騰訊”這兩個名字極為引人矚目。
合肥長鑫,這家成立于2016年,但注冊資金高達485.7億人民幣的“創業公司”,是目前大陸唯一一家擁有Dram內存自主生產能力的芯片廠,背負著眾多期望。而毫不意外,這個作為服務器“三大物理硬件”之一的內存芯片類型,對云計算巨頭有多重要,自然不必多說。
易失性存儲器 Dram,與NAND閃存同為存儲產業最為流行的芯片類型,是一個全球規模約為900億美元的市場(數據來自TrendForce)。這個數字看起來雖然并不龐大,但幾乎被三星、海力士以及美光三巨頭瓜分完畢。
因此,從供需穩定來看,正是由于真正Dram制造廠在國內的稀缺性等原因,讓管理著龐大服務器機群的云計算廠商,需要提高對N種采購備選方案的掌控力。
作為超大數據中心的運營者,云廠商們都是Dram芯片的巨大消耗者。舉個例子,亞馬遜曾在2019年因三星Dram產品在設計層面存在底層缺陷而取消訂單,對后者當季營業利潤打擊很大。
另一方面,權威市場分析機構Digitime整合業內消息來源認為,2022年云服務器和數據中心應用將成為Dram芯片市場主要增長動力,恢復大量出貨勢頭,預計整體市場需求將增長15-20%;此外,美光在2022第一財季的數據重心業務增幅高達70%,主要貢獻來自Dram與SSD產品。
而消息人士告訴虎嗅,業內預計從2022年第二季度開始,數據中心需求才能更加明顯。
云巨頭的硬件掌控力野心
另一邊,毋庸置疑,與CPU、GPU及各類加速器一樣,存儲芯片對服務器架構創新與性能的顛覆同樣具有極其重要的影響。
對于云廠商,巨大的計算并行處理量與神經網絡規模巨幅增長,必然要求處理器更快從內存獲取數據(這一點在文章《干掉英偉達?》里曾多次提及)。但寧暢信息技術專家告訴虎嗅,當前計算機是馮諾依曼架構,計算數據必須放在Dram內才可計算。所以,程序的大小決定了內存的大小。
“因此,單個程序和數據占用內存空間不斷增加,導致內存容量持續擴張。為保持性能不下降,內存速率需與計算核數量同步增加。但實際已經快做不到了。”
去年,IEEE研究員兼3D存儲芯片專家Joungho Kim也曾喊話,內存與處理器之間的性能差距比任何時候都要大,馮諾依曼架構現在應該叫“馮諾依曼瓶頸”。
因此,更多內存技術創新,在近年來,便圍繞“怎樣減少數據在芯片間的移動”展開了。
在阿里云開發者社區,數據專家曾詳細科普過HBM(高帶寬內存)、HBC(混合存儲立方)等新型服務器內存。這一技術路徑的思路比較直接好懂——讓內存盡可能靠近CPU或GPU。
(經提醒,這里需要著重強調一下:這里指的是HBM技術在內存產品上的創新,早在2016年AMD等企業就已經提出過HBM方面的創新點)
更具體一點,就是將處理器與內存堆疊成一個3D矩陣,然后鑿在服務器主板上。
它的最大優勢,理論上,便是可以在極低頻率與能耗下帶來大帶寬。
這一技術路徑反應在產品上,便是2021年8月三星發布的內存處理芯片——HBM2-PIM。三星技術專家用一種叫做硅穿孔(TSV)的互聯線把Dram垂直連在一起,放在邏輯芯片上。
通俗一點講,就是讓一堆Dram簇擁著計算單元,齊心協力做跟AI任務相關的神經網絡計算。
這一技術在2021年曾引起過存儲產業內的轟動,但還尚停留在實驗階段。不過,頭部存儲企業已紛紛聞風而動。譬如,美光悄然為一種3D Dram技術提交了專利申請,而半導體材料巨頭應用材料也迅速發布了一套3D Dram材料工程方案。
正如,EEtimes所說,這可能需要好幾年,但 Dram 很可能會追隨NAND的腳步,走向3D。
而阿里前段時間也曾發布過基于Dram 的3D 堆疊存算一體芯片,相關論文還被ISSCC 2022收錄。當然,此為研究,并未投產,但這也是一個非常重要的信號。
很顯然,對于服務器基礎架構一直十分重視的云巨頭,在以肉眼可見的方式,逐步“吞噬”服務器架構中的各個核心關鍵點——
以亞馬遜AWS為例,在2015年收購以色列的安納普爾納峰實驗室后,便從2017年開始,陸續推出了DPU芯片Nitro、Arm服務器CPU Graviton、Graviton2及Graviton3,以及機器學習訓練加速器 Trainium 和機器學習推理加速器 Inferentia。
而阿里等中國云巨頭在芯片研發上獲得啟發的時間,恰好是在AWS發布Nitro DPU前后。如今,基本也完成了從服務器CPU到AI加速器的“同等類別裝備”。
基本可以明確的是,自亞馬遜開了先河后,不斷垂直整合云計算從底層到上層業務,把服務器架構自研能力掌握在自己手里,如今在頂級云廠商間已經達成了共識。
“阿里的野心,或者說魄力很大。”
一位不具名的服務器專家告訴虎嗅,阿里基礎架構事業群AIS,在服務器架構自研與創新走的挺快,只是因為比較底層所以外界不太了解,知乎上甚至有人直接把他們歸為“做運維的”。
由于這個事業群相當于整個阿里云軟硬基礎設施的“管家”,所以,各類技術專家集結在一起,必須在服務器、內核、容器、JVM、調度、數據庫、存儲、中間件等多個數據中心“節點”上做迭代與創新,當然,它也在采購和銷售上有KPI指標。
“在存儲這一塊,他們是有一些想法的。基本是兩條路, 第一個當然是買現成的三星海力士美光,另一個是從前年開始吧,阿里自己買‘顆粒’(內存芯片),來自己做DIMM。” 他說,AIS在實驗室水平上應該沒問題,量產可能會有挑戰。
“更重要的是看他們的整合思路——加速卡(AI, 存儲)、網路(DPU/SmartNIC)。芯片是平頭哥或其他部門來做,但需求方則是AIS、阿里云以及螞蟻金服。需求方也非常重要,決定了用什么、怎么用,以及怎么用能夠讓效能發揮到最大。”
他提醒我們要關注英特爾 IDM2.0開放戰略,特別是不久前“要對外授權X86的策略和猜測”——“我想,很多人應該很快會有動作的”。
此外,根據虎嗅近一兩年來從多方了解到的信息顯示,阿里在云基礎設施硬件創新和戰略速度層面,雖然存在部分爭議,但在國內的確要勝其他云廠商兩三籌。
很明顯,對國內存儲市場的重視和投資,無論是保證供應鏈穩定還是技術創新,都極為有必要。
只有云廠商才能推動的存儲芯片進步
在2020年寫臺積電時,我們就曾提過,如果說蘋果、高通、英偉達們高端產品的成功,臺積電的先進制程工藝必然是最大助力之一;那么臺積電總是能占領最小制程高地的原因,前者也必然功不可沒——
最好的下游技術與產品給你“導航”和試錯,才能跟競爭對手打出一個漂亮的時間差。
那么云計算與半導體的關系同樣如此。
譬如谷歌推出TPU時被普遍叫好,并使得GPU廠商產生警惕。很大原因便是,作為成千上萬塊芯片并行運算的使用者,云廠商太清楚芯片的問題到底出在哪兒了,畢竟樣本實在是豐富。
早在幾年前,多倫多大學曾做過一個關于“Dram致命缺陷”的重要課題。
他們經過多方周旋,終于從阿貢等大型國家實驗室、谷歌和Facebook的大型數據中心取得了大量寶貴樣本。讓他們感到震驚的是,關于Dram的錯誤很常見,而一些數據中心的重大宕機事故更是源自Dram失常。
以谷歌為例,他們發現12% 到45% 的谷歌機器每年至少會遇到一次 DRAM 錯誤,有0.2%到4% 的機器由于 DRAM 錯誤無法糾正而意外關閉。
而在以往,無論是大型數據中心還是個人電腦中,產業內都會把Dram錯誤更多歸咎于“軟性問題”——根據IEEE雜志的解釋,當物理設備在完全正常工作下,會受到某種短暫干擾(如宇宙射線產生的粒子)因而破壞了存儲數據。
但這個想法此前幾乎沒有充分的實驗支撐,某種程度上就是缺乏樣本。沒錯,企業數據中心不愿透露,而實驗室的樣本量又少。實際上,經過他們的調查,結果令人震驚,其實大多數錯誤來自“硬性錯誤”。
沒錯,就是Dram芯片本身存在的問題。
調查者獲得了谷歌某些數據中心的權限,在調查后發現,是一小部分機器造成了大部分錯誤。也就是說,錯誤傾向于一次又一次地出現在相同的內存模塊上。
那么我們試想一下,如果是軟性錯誤,譬如某個射線粒子導致Dram失常,那么應該被擊中的幾率是相同的。這就意味著,以前的論斷都是錯誤的。
IEEE最后給出的解決方法偏向于云計算廠商,譬如,利用計算機操作系統來刪除和預測內存錯誤地址或內存頁。
但從硬件角度來思考,云廠商恰恰能發現那些實驗室和消費端產品測試不出的硬件錯誤,極有利于半導體廠商改進和升級下一代硬件。
這可能也是云廠商一個個被戲稱為“已變成CPU或存儲器公司”的最大原因之一。
但無論如何,從設計、制造、量產等綜合難度上,硬件需求量龐大的云廠商依然需要強依賴于半導體廠商。而云廠商的自我底層革新,以及與半導體巨頭的緊密合作,或許在3~5年里,會對我們國內尚未壯大起來的存儲等其他方面的自研能力,有一些實質性的幫助。
|
|
|
|
上一篇:互聯網醫療給VC/PE關上了大門 下一篇:動力電池之后,上市公司、車企、機構都盯上了這塊萬億肥肉 |