深度神經網絡就像遙遠地平線上的海嘯一樣涌來。
鑒于該技術仍在演變的算法和應用,目前還不清楚深度神經網絡(DNNs)最終會帶來什么變化。但是,迄今為止,它們在翻譯文本、識別圖像和語言方面所取得的成就,清楚地表明他們將重塑計算機設計,而這種變化正在半導體設計和制造方面發生同樣深刻的變化。
量身定制的第一批商用芯片將于今年上市。由于訓練新的神經網絡模型可能需要幾周或幾個月的時間,因此這些芯片可能是迄今為止制造的最大的,因此也是最昂貴的大規模商用集成電路芯片。
今年的行業可能會看到來自創業公司Graphcore的一款微處理器,該公司不使用DRAM,而是來自競爭對手Cerebras Systems的晶圓級集成開拓先鋒。英特爾收購的2.5-D Nervana芯片已經在生產樣片,其他十幾個處理器正在開發中。同時,從Arm到西部數據(Western Digital)的芯片公司正在研究內核,以加速深層神經網絡的推理部分。
“我認為(2018年)將是一場即將到來的派對?!奔又荽髮W伯克利分校名譽教授大衛·帕特森(David Patterson)表示:“我們剛剛開始看到許多公司正在評估一些想法。”
這個趨勢非常明顯,帕特森和合著者約翰·亨尼西(John Hennessey)在上個月發表的關于計算機的開創性文本的最新版本中,為它寫了一個新的篇章。作者對內部設計提供了深入的見解,例如Patterson為其貢獻的Google TensorFlow處理器(TPU),以及最新Apple和Google智能手機芯片中的Microsoft Catapult FPGA和推理模塊。
“這是計算機體系結構和封裝的復興。” Patterson說:“明年我們會看到比過去十年更有趣的電腦?!?/p>
深度神經網絡的興起在過去幾年里把風險投資的資金帶回到了半導體領域。 “EE Times(電子工程專輯美國版)”最新推出的初創公司評選項目“Silicon 60”中,列舉了七家初創公司,其中包括兩個鮮為人知的名稱:寒武紀科技Cambricon Technologies(北京寒武紀科技)和Mythic Inc.(Austin,Texas)。
“我們看到基于新架構的新創公司激增。我自己跟蹤了15到20家......過去10到15年中,在任何一個細分領域中半導體行業都不曾有超過15家的半導體公司同時涌現的事情”,企業家Chris Rowen說。他從Cadence Design Systems離職后,成立了一家公司Cognite Ventures,專注于神經網絡軟件。
“Nvidia由于其強大的軟件地位,將難以與高端服務器進行訓練的競爭。如果你去追求智能手機市場你會覺得自己瘋了,因為你必須在很多方面都做得出色。不過在高端或是低端的智能手機市場,還是會可能有一些機會?!绷_文說。
市場觀察家Linley集團負責人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他們調整了對DNN的速度培訓。 “但我當然不認為這是最好的設計,”Gwennap說。
Gwennap說,Graphcore(英國布里斯托爾)和Cerebras(加利福尼亞州Los Altos)是培訓芯片最多的兩家初創公司,因為他們籌集的資金最多,而且似乎擁有最好的團隊。由Google前芯片設計師創立的初創公司Groq聲稱,它將在2018年推出一款推理芯片,在每秒的總操作和推論中都會以四倍的優勢擊敗競爭對手。
英特爾的Nervana是一個大型線性代數加速器,位于硅中介層上,緊鄰四個8-GB HBM2存儲器堆棧。消息來源:Hennessy和Patterson著寫的《計算機體系結構:一種定量方法》
Intel的Nervana,被稱為Lake Crest(上圖),是最受關注的定制設計之一。它執行16位矩陣操作,數據共享指令集中提供的單個5位指數。
與Nvidia的Volta一樣,Lake Crest邏輯器件位于TSMC的CoWoS(襯底上芯片上芯片)中介層上,緊鄰著四個HBM2高帶寬存儲器堆棧。這些芯片被設計成網狀,提供五到十倍于Volta的性能。
雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對這種方法持懷疑態度。 “你為(FPGA)的靈活性付出了很多代價。編程真的很難,”他說。
Gwennap在去年年底的一項分析中指出,DSP也將發揮作用。 Cadence、Ceva和Synopsys都提供面向神經網絡的DSP內核,他說。
雖然芯片即將問世,但是架構師們還沒有決定如何去評估它們。
就像RISC處理器的早期,Patterson回憶說,“每個公司都會說,'你不能相信別人的基準,但是你可以相信我的',那不太好。
那時,RISC供應商在SPEC基準測試中進行了合作?,F在,DNN加速器需要自己定義的測試套件,涵蓋各種數據類型的訓練和推理以及獨立的或是集群的芯片。
聽取了這個呼吁,交易處理性能委員會(TPC)是一個由20多個頂級服務器和軟件制造商組成的小組,12月12日宣布已經組建了一個工作組來定義機器學習的硬件和軟件基準。 TPC-AI委員會主席Raghu Nambiar表示,目標是創建與加速器是CPU還是GPU的測試。但是,這個團隊的成員名單和時間框架還處于不斷變化之中。
百度公司于2016年9月發布了一個基于其深度學習工作負載的開放源代碼基準測試工具,使用32位浮點數學進行訓練任務。它在六月份更新了DeepBench以涵蓋推理工作和16位數學的使用。
哈佛研究人員發表的Fathom套件中定義的八個AI工作負載支持整數和浮點數據。帕特森說:“這是一個開始,但是要獲得一個讓人感覺舒適的全面基準測試套件,還需要更多的工作?!?/p>
“如果我們把努力做成一個好的基準,那么所有投入工程的錢都會花得值得。”他說。
除了基準之外,工程師需要跟蹤仍在演變的神經網絡算法,以確保他們的設計不會被束之高閣。
高通公司下一代核心研發總監Karam Chatha表示:“軟件總是在變化,但是你需要盡早把硬件拿出來,因為它會影響軟件- 你不得不催促讓它發生。到目前為止,移動芯片供應商正在驍龍SoC的DSP和GPU內核上運行神經網絡工作,但一些觀察家預計,它將為機器學習定制一個新的模塊, 放在2019年7納米驍龍SoC里。
Patterson說:“市場決定哪種芯片最好。 “這是殘酷的,但這是設計電腦讓人興奮之處。 ”
早期進入的玩家已經有機會進入到游戲中。
例如,Facebook最近證明,通過大幅增加打包到所謂批量大小的功能數量,可以將培訓時間從一天縮短到一小時。對于試圖在本地SRAM中運行所有操作的Graphcore來說這可能是個壞消息,消除了外部DRAM訪問的延遲,同時也限制了它的內存占用。
“他們為小批量數據包而設計的,但幾個月前的軟件結果表明你想要一個大批量數據包。這表明事情變化的速度有多快,“帕特森說。
另一方面,雷克斯電腦(Rex Computing)認為正在迎來一個有利的機遇。該初創公司的SoC最初是為高性能服務器設計的,它使用了一種新穎的暫存器內存。 Rex的方法消除了在虛擬頁面表中緩存數據的需求,這是GPU使用的一種技術,增加了他們的延遲,聯合創始人Thomas Sohmers說。
因此,Rex芯片比現在的GPU要好得多,特別是在處理流行的矩陣/矢量運算神經網絡時,他說。新創公司計劃6月份推出16納米的256核的SoC,希望能提供256 Gflops / watt的運算能力。
與此同時,研究人員正在嘗試從32位到單位浮點和整數數學的一切可能,以找到最有效的方法來計算神經網絡結果。他們似乎同意的一點是,最好不要在精確度級別之間轉換。
編譯:Mike Zhang
文章來源: eMedia Asia Ltd.
關注行業動態,了解產業信息,以實現與時俱進,開拓創新,穩步發展。
標簽:   人工智能 芯片