【Linux & OSS Award 2018 回顧】最佳企業 AI 平台 IBM Power Systems

市場需求

人工智能 (AI) 無處不在,金融顧問能在一個安全且合規的環境中,把交易數據與結構化、非結構化的數據相結合,從中發現過去無法察覺的模式,打造出全新的金融產品。面對跨越數千英里、數十個國家的全球供應鏈,物流經理能準確預測其中可能發生的問題,及時協調交易,降低成本,並提高可預測性和效率。市場研究機構 IDC 預測到 2021 年,全球對人工智能和深度學習的支出,將會達到 576 億美元。

國際商業機器中國香港有限公司認知系統及伺服器方案經理張智恆。
國際商業機器中國香港有限公司認知系統及伺服器方案經理張智恆。

得獎方案

IBM Power Systems 有超過 25 年的歷史,今天很多客戶都採用 IBM Power Systems 執行核心的關鍵應用,包括資料庫應用、企業資源管理應用、大數據分析應用或者是中間件等等。IBM Power Systems 採用了最新設計的 POWER9 處理器,其中 AC922 便是 IBM 首個針對企業級 AI 市場發佈的 POWER9 伺服器產品。該系統專門為人工智能、加速計算而設計,根據其內部測試數據,相比 x86 系統,可在深度學習框架下將訓練時間,縮短至原來的四分之一。

得獎原因

技術創新
1. 強化的硬體架構
IBM Power Systems 有清晰的發展路線圖,POWER9 有 32 個核心,最多支援達 40 個核心,支援最多 16 條 DDR4 的 DIMM 插槽,可安裝單片 16GB、32GB 和 64GB 記憶體,最高可支援 1TB 記憶體。「AC922 的每個 CPU,可支援三個 GPU,可安裝 2 片、4 片或 6 片 NVIDIA Tesla V100 GPU 顯示卡。相比 POWER8 單個 CPU 只支援用 NVLink 連接兩片顯示卡,是個了不起的進步。」國際商業機器中國香港有限公司認知系統及伺服器方案經理張智恆說。AC922 有三種 I/O 連接技術,數據傳輸速度比單純的 PCIe 3.0 快了近十倍,其中 PCIe 4.0 取代 PCIe 3.0,使 CPU 和顯示卡之間的通訊速度快了一倍,PCIe 4.0 的傳輸速度,最高能達到 32GB/s。」CPU 和 GPU 互聯技術 NVLink 2.0 不但支援 GPU 與 GPU 之間高速互連,還支援 CPU 和 GPU 雙向通訊、記憶體共享。這是跟 NVIDIA 合作的產物之一,亦是 IBM 獨有的設計。NVLink 的出現,為被稱為顛覆性技術的 GPU 資料庫做了準備。

2. 專門為 AI 而設計的平台
AI 專用的系統,和一般系統有何分別?「過去 IBM 很多產品,都是針對傳統的工作負載的。傳統交易是有次序的,為了保證數據一致性,這些處理不可能以並列方式進行。AI 的處理是並列的,例如在店舖的串流片段要實時識別客人數量,不可能從左邊開始算到右邊,而是會同時去辦認這些人。這取決於 GPU 的能力,GPU 的數量越多,能力就越強。IBM 的 AC922,可在一台 2U 的設備中安裝 6 個 GPU,使識別速度大幅提高。」張智恆說。「新一代的 NVLink 把 CPU 和 GPU 連接,當進行高清識別時,當 GPU 記憶體不夠,便可存取主記憶體,這是非常大的優勢。因為一般情況下,GPU 記憶體會犧牲速度增加質量,或者犧牲質量增加速度,但 AC922 卻不用這樣做。」

3. 開放技術令廠商各展所長
從 POWER8 發展到 POWER9,CAPI 也從 1.0 升級到了 2.0,CAPI(Coherent Accelerator Processor Interface) 使用的是 PCIe 4.0 I/O 插槽,速度翻了一倍,達到單通道 16Gb/s。它原本也是 IBM 獨有的技術,其核心理念是讓 I/O 加速器與 CPU 共享記憶體和快取緩存,將 CPU 的能力外放,讓板卡廠商能各展所長。「Intel 多年來一直努力地把很多功能整合到 CPU,但我們認為這對創新和發展是不利的,是以 IBM 反其道而行,把 CAPI 開放出來,稱為 OpenCAPI,還拉著 AMD、Google、Micron 和 Mellanox 成立了OpenCAPI 聯盟。用 OpenCAPI 的方式連接專有的設備,比 CAPI 2.0 更快,單通道傳輸速度可達 25Gb/s,例如 Xilinx 的 FPGA、SCM 和 ASIC 等等。」張智恆說。

POWER9 的 I/O 連接技術,NVLink 可將 CPU 和 GPU 連接。
POWER9 的 I/O 連接技術,NVLink 可將 CPU 和 GPU 連接。

商業效益
1. 企業級的 AI 工具配套
此次發佈的 AC922 單台計算能力很強大,而且是為 AI 而設計的,具體就是可以加速 Chainer、TensorFlow 和 Caffe 的處理。「這種調整對企業級用戶是有必要的,用戶雖然可以直接自己下載開源的 AI 工具,但卻不一定有能力驗證程式碼有沒有問題。IBM 可以為用戶提供多一層驗證,令用戶使用時更為安心。IBM 發佈的 PowerAI,是一個 AI 工具的企業級版本,提供的正是上述幾個開源工具。這些工具原本可能在 POWER 架構下運行的版本也沒有,IBM 不但代用戶編譯了 POWER 架構專用的版本,而且已經為POWER 架構進行了優化。所以 IBM 提供的是從底層硬體到上層 AI 環境的整套平台,用戶只要集中資源做應用層就可以了。」張智恆說。

2. 縱橫向擴展
儘管單台計算能力已經很強大,但張智恆表示,POWER9 的第一炮的 AC922 是橫向擴展的架構,2018 年還會推出縱向擴展架構的伺服器。張智恆解釋說,如今很多開源的軟體,都僅局限在一台伺服器上,AC922 打破了這種侷限。通過 Spectrum Conductor Deep Learning Impact,IBM 可以把人工智能的框架,放到多台機器上運行。Spectrum Conductor 不是新事物,是個原本 IBM 用在超級運算環境下的東西,它可以把一台伺服器上的計算數據,分享給多個節點。配合 POWER9 自帶的多種連接技術,從而達到橫向擴展的效果。

IBM Power Systems AC922,提供最佳的企業 AI 平台。
IBM Power Systems AC922,提供最佳的企業 AI 平台。

3. 兼容 POWER8
對於從 POWER8 升級的用戶,IBM 可以提供什麼保障?「IBM POWER 一直保留了兼容性,POWER8 的應用程式是可以遷移到 POWER9 的,不會有任何兼容性問題。」張智恆說。「同時 POWER9 亦帶來更強大的功能,例如剛才提到的 GPU 採用最新一代的 V 系列的晶片,也有一些新的算法上的優化。加上新一代的 NVLink、CAPI、PCIe 4.0 等標準,這些都是原來 POWER8 上所沒有的。如果用戶需要體現這些新功能,就需要在新的平台上為現有的應用程式作出一些優化,然後重新編譯。這次發佈是 AC922,突顯的是 IBM 對 AI 領域的重視,但並不是說我們只有這一款產品。這是 POWER9 的第一個開始,我們將有針對商業化、針對橫向及縱向擴展的產品,也會陸續發布。」

IBM PowerAI Platform 架構。
IBM PowerAI Platform 架構。

客戶評價

其中一個全面轉用 POWER 架構的企業正是 Google。當時為了說明 POWER9 在 AI 負載方面的性能優勢,IBM 曾進行了深度學習測試。做法是用同樣的 GPU,同樣採用來自 ImageNet 的數據,都用一樣的 AI 範本 GoogleNet。結果發現,POWER9 系統比 x86 系統快了 3.7 倍,意味著 POWER9 系統的訓練時間只是 x86 系統的四分之一。目前大部分 AI 的應用案例都發生在美國,在香港有沒有應用 AI 的例子?「我們的客戶中不少是金融機構和生物科技公司,前者通常用 IBM PowerAI 平台偵測虛假交易,後者則會用來找出核磁共振圖片中的癌細胞。當中大部分的 AI 負載,是在用戶私有環境下運行的。很多客戶的關鍵數據圖像,都放在自己的防火牆內,因為很多用戶需要架設屬於自己的人工智能平台。」張智恆表示。

IBM 認知系統及伺服器方案
網址:http://www.ibm.com/hk
電話:+852 2825 6351

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *