當前位置: 主頁 > 新聞 >
 

英特爾公布CPU、GPU和IPU最重大的世代架構轉換

本文作者:英特爾       點擊: 2021-08-20 10:28
前言:
英特爾致力驅動新世代資料中心、邊緣、PC用戶的工作負載,以迎接未來的運算挑戰
英特爾加速運算系統及圖形產品事業群總經理 Raja Koduri 和英特爾架構師們,於2021年英特爾架構日提供關於兩款全新x86核心架構的細節;英特爾首款混合式架構,代號「Alder Lake」,配備智慧型Intel® Thread Director工作負載排程器;「Sapphire Rapids」,下一世代資料中心的Intel® Xeon®可擴充處理器;全新基礎設施處理器 (IPU);以及即將推出的圖形架構,包含Xe HPG和Xe HPC微架構,以及Alchemist和Ponte Vecchio SoC。

 
這些新架構為即將推出的高效能產品注入動力,並成為英特爾下個創新時代的基石,藉以滿足全球對於更多運算能力不斷增長的需求。

Raja Koduri 特別表示架構進步對於滿足此需求的重要性,說道:「架構就像是硬體和軟體的煉金術一般。它為某個引擎融合了絕佳的電晶體,並整合高頻寬、低功耗的快取,它們更為混合式運算叢集,配備大容量記憶體與低延遲可擴充互連至單一封裝之中,透過先進封裝結合起來,並同時確保所有軟體均能無縫加速。隨著從桌面到資料中心的工作負載,變得更大、更多、更複雜和更多元,我們在架構日所揭曉的突破更加顯現出,優秀的架構將如何滿足更多運算效能的迫切需求。」 

x86核心

效率核心
英特爾的全新效率核心微架構,先前代號稱為「Gracemont」,專為吞吐量效率而設計,為現代多工開啟一道可擴充的多執行緒效能大門。這是英特爾最具效率的x86微架構,追求極小化的晶片面積,讓多核心工作負載效能能夠隨著核心數量成長。它也提供相當廣泛的運作頻率範圍。這款微架構與細心設計成果,允許效率核心於低電壓下運作,降低電力消耗,並為高頻率運作預留功耗餘裕。這讓效率核心能夠為更高需求的工作負載提升效能。

效率核心採用多種先進技術對工作負載排出優先順序,而不浪費其運算資源,並透過提升每週期指令數量(IPC)直接強化效能,包含:
5,000條分支目標快取,達成更為精確的分支預測
64 KB指令快取,將有用的指令放在距離較近之處,避免額外產生記憶體子系統的功耗
英特爾首款隨選型指令長度解碼器,負責產生預解碼資訊
英特爾的叢集亂序解碼器,於維持電力效率的同時,每週期最高能夠解碼6條指令
寬廣的後端每週期支援5條分派(five-wide allocation)和8條引退(eight-wide retire),256條目亂序視窗和17個執行埠
強式安全功能支援Intel® Control-Flow Enforcement Technology 以及 Intel®  Virtualization Technology Redirection Protection
導入AVX指令集架構,以及支援整數人工智慧(AI)運算的新延伸指令集

與英特爾最為豐富的中央處理器(CPU)微架構 – Skylake CPU核心相互比較,效率核心於單執行緒條件下,相同功耗可多出40%效能,或是降低40%功耗並提供相同效能表現1。多核心處理下,4個效率核心相較以4條執行緒方式運作的Skylake雙核心,能夠提供多出80%效能並降低功耗,或是減少80%功耗並維持相同的效能1。

效能核心
英特爾的全新效能核心微架構,先前代號稱為「Golden Cove」,專為速度、將低延遲推向極限、單執行緒應用程式效能所設計。當工作負載的程式碼數量正不斷增長,並且要求更多的執行能力。資料也同步大幅度地成長,隨之而來的是資料頻寬需求。英特爾全新效能核心微架構提供顯著的效能提升,對於蘊含大量程式碼的應用程式也有更好的支援。

效能核心具備更寬、更深、更聰明的架構:
更寬:6個解碼器(先前為4個);微指令(µop)快取每週期輸出8條(先前為6條);每週期6條分派(先前為5條);12個執行埠(先前為10個)
更深:更多的實體暫存器檔案;更深的512條目重排序緩衝區
更聰明:改善分支預測精準度;降低有效L1延遲;L2全快取寫入預測及頻寬最佳化
 
效能核心是英特爾迄今最高效能的CPU核心,並將低延遲和單執行緒應用程式效能推向極限,例如:
於相同運作頻率之下,相較目前的第11代Intel® Core™架構(Cypress Cove),在廣泛及多樣的工作負載能夠提供幾何平均約19%的改善1
更寬、更深的設計顯露出更高的平行度,同時提升執行的平行度
Intel® Advanced Matrix Extensions,針對下一世代深度學習和訓練效能,而發展的內建AI加速。包含專用硬體和新款指令集架構,能夠顯著地提升矩陣乘法運算速度
降低延遲並提升大量資料與大型程式碼應用程式的支援性

PC客戶端

Alder Lake客戶端SoC
英特爾下一代的PC客戶端架構,代號Alder Lake,為英特爾首款混合式架構,第一次整合兩種核心類型-效能核心和效率核心,於多種工作負載種類均可顯著提升效能。Alder Lake採用 Intel 7 製程打造,並支援最新的記憶體和最快的I/O。

Alder Lake藉由利用單一、高度可擴充的系統單晶片(SoC)架構,支援超輕薄筆記型電腦,再到狂熱玩家和商用桌上型電腦的全系列PC客戶端市場,將可提供令人難以置信的效能,有三種設計:
以最大化效能為前提,採用兩顆晶片打造平台,具CPU插座的桌上型電腦,提供領先群倫的效能、能源效率、記憶體和I/O
高效能行動電腦晶片採BGA封裝,增加影像處理、更大的Xe 圖形核心和Thunderbolt™ 4連接性
輕薄,低功耗、高密度封裝,I/O與電力供應最佳化

建造如此高度可擴充架構的挑戰,在於如何不犧牲功耗表現的情況下,滿足運算以及各種I/O令人難以置信的頻寬需求。為解決這項挑戰,英特爾已設計出3種獨立的交織結構(fabric),每種均具備即時、隨選式啟發演算法:
運算交織結構每秒最高能夠支援1000 GB(GBps),表示每叢集或是每核心可分得100GBps,並透過末級快取將核心與圖形銜接至記憶體
o 具備高動態頻率範圍,能夠根據交織結構的實際負載,動態選擇路徑,以達成延遲與頻寬最佳化
o 基於使用率狀態,動態調整末級快取策略-包含式(inclusive)或非包含式(non-inclusive) 
I/O交織結構最高支援64 GBps,將不同類型的I/O和內部裝置相互連結,並能夠無縫切換速度而不影響裝置的正常運作,選擇適合資料傳輸量所要求的交織結構速度
記憶體交織結構能夠提供最高204 GBps的資料,並動態調整匯流排寬度與速度,支援高頻寬、低延遲或低功耗等多個運作點

Intel Thread Director
為了讓效能核心、效率核心能夠和作業系統無縫接軌工作,英特爾已開發一款稱為Intel Thread Director的改良版排程器。直接內建於硬體之中,Thread Director提供核心狀態的低階遙測資訊,以及執行緒的指令混合比例,讓作業系統有能力在對的時間,將對的執行緒放在對的核心。Thread Director相對於簡易、靜態條件式做法,可動態且適應性的依據電腦即時需求,調整排程決策。

傳統上,作業系統根據有限的狀態資訊做出決策,例如前景或是背景任務。Thread Director透過下列作法加入新的思維考量:
使用硬體遙測資訊,當下立即引導需要更高效能的執行緒至效能核心
十分詳盡地監測指令混合比例、核心狀態以及其它微架構相關的遙測資訊,協助作業系統做出更聰明的排程決策
與Microsoft合作最佳化Thread Director,於Windows 11獲得最佳效能
擴大延伸PowerThrottling API,讓開發者能夠明確辨別執行緒的服務品質屬性
應用全新EcoQoS分級,讓排程器能夠得知適合該執行緒的電源效率(例如將執行緒排程移至效率核心)

Xe HPG微架構和Alchemist SoC
Xe HPG是一款全新獨立式圖形微架構,針對極致玩家級遊戲效能和內容創作工作負載而設計。Alchemist SoC產品線是基於Xe HPG微架構設計,首款相關產品將使用Intel® Arc™品牌,並於2022年第一季問世。Xe HPG微架構具備新款Xe-core,是款專注於運算的可程式化和可擴充的元件。

PC客戶端圖形產品規劃包含Alchemist(先前名為DG2)、Battlemage、Celestial以及Druid等SoC。在這個線上活動上,英特爾提供微架構的介紹,並分享於早期 Alchemist 晶片 所執行的相關展示,共計展示實際遊戲過程、Unreal Engine 5 測試展示,以及全新以類神經為基礎的超取樣技術,稱之為XeSS。
 
基於Xe HPG微架構的Alchemist SoC,專為提供良好的可擴充性和運算效率所打造,具備下列多項特色:
最高具備8個render slice,以及為DirectX 12 Ultimate打造的固定功能單元
新款Xe-core具有16個向量引擎和16個矩陣引擎(也就是Xe Matrix eXtensions、XMX),快取以及分享式區域記憶體
全新光線追蹤單元支援DirectX Raytracing(DXR)和Vulkan Ray Tracing 
藉由一系列的架構、邏輯設計、電路設計、製程技術與軟體最佳化,相較Xe LP微架構提升1.5倍運作頻率與改善1.5倍的效能功耗比值1
採用TSMC的N6製程節點製造

英特爾圖形工作重點為軟體第一:
Xe架構與開發者密切合作進行設計,以便符合業界標準
英特爾首款高效能遊戲圖形處理器,透過涵蓋整合式和獨立式繪圖產品而設計的統一程式碼庫,將效能與品質擺在首位
英特爾已完成核心驅動程式元件的重新架構作業,特別是記憶體管理器和編譯器,結果讓計算密集型的遊戲大作改善15%的效能(最高可達80%),同時改善遊戲載入時間達25%

XeSS
XeSS利用Alchemist內建XMX AI加速的優勢,提供新穎的畫面提升(upscaling)技術,同時達成高效能和高度逼真視覺影像。它使用深度學習來合成接近原始高解析度渲染品質的影像。有了XeSS,原本只能在低畫質設定或是低解析度遊玩的遊戲,如今能夠於更高畫質和解析度設定順暢地執行。
XeSS透過相鄰像素和前一幀畫面的運動補償,重新建構次像素細節來工作
重新建構工作由專門訓練用來提供高效能和絕佳品質的類神經網路負責,最高效能提升可達2倍1
XeSS也支援DP4a指令集,於包含內建顯示在內的廣泛硬體,提供以AI為基礎的超取樣功能
多家先期遊戲開發者已開始著手XeSS,初期XMX版本軟體開發套件將於本月提供給獨立軟體供應商,DP4a版本將於今年稍後完成

資料中心端

次世代Intel Xeon可擴充處理器(代號Sapphire Rapids)
Sapphire Rapids代表著英特爾最大的資料中心平台進展。該處理器於動態且不斷提升需求的資料中心使用當中,提供可觀的運算效能並為工作負載最佳化,能夠在雲端、微服務和AI等彈性計算模型(elastic compute model)提供高效能。

平舖的(tiled)、模組化的SoC架構位於Sapphire Rapids中心,其利用英特爾嵌入式多晶片互連橋接(EMIB)技術,於提供驚人擴充性的同時,依舊保持單一(monolithic)CPU晶片所享有的優勢。Sapphire Rapids提供單一且平衡的統一記憶體存取架構,每條執行緒均可完全存取所有晶片(tile)的所有資源,包含快取、記憶體和I/O。其結果讓整個SoC均提供一致的低延遲和高跨區頻寬。

Sapphire Rapids採用 Intel 7 製程技術製造,並具備英特爾全新效能核心微架構,專為速度、將低延遲推向極限、並兼顧單執行緒應用程式效能所設計。

Sapphire Rapids提供業界最為廣泛的資料中心相關加速器,包含新款指令集架構和整合IP,以便提升客戶廣泛的工作負載和使用效能。全新內建加速引擎包含:
Intel® Accelerator Interfacing Architecture(AIA)支援有效率地調度、同步、傳遞訊號至加速器和裝置
Intel® Advanced Matrix Extensions(AMX)在Sapphire Rapids所引薦的全新工作負載加速引擎,為深度學習演算法核心的張量運算提供大規模的加速。其透過每週期2K INT8和1K BFP16運算,提供運算能力的提升。使用早期Sapphire Rapids晶片執行最佳化內部矩陣乘法微型測試,對比使用英特爾AVX-512 VNNI延伸指令集版本的同款微型測試,採用全新Intel AMX指令版本的執行速度超過7倍快,為訓練和推論兩種主要的AI工作負載提供顯著的效能提升
Intel® Data Streaming Accelerator(DSA)設計用來卸載常見的資料移動任務,該任務會造成大規模資料中心部署的負擔。Intel DSA改善這些負擔任務的處理方式,提供整體工作負載的效能提升,並能夠在CPU、記憶體和快取,以及所有已連結的記憶體、儲存裝置和網路設備之間移動資料

這些架構上的進展讓Sapphire Rapids為雲端、資料中心、網路和智慧邊緣當中,最為廣泛的工作負載和部署模型,提供絕佳的立即可用效能。該處理器透過先進的記憶體和次世代I/O,包含PCIe 5.0、CXL 1.1、DDR5和HBM技術,驅動產業技術轉型。

基礎設施處理器(IPU)
IPU為一款可程式化的網路裝置,專門為雲端和通訊服務提供者降低額外負擔,以及釋放CPU效能所設計。

英特爾以IPU為基礎的架構擁有多種主要優勢:
基礎設施功能和承租戶(tenant)工作負載之間的強分離,允許承租戶完全控制CPU
雲端營運商可以卸載基礎設施工作任務至IPU,最大化CPU使用率和收益
IPU能夠管理儲存流量,於降低延遲的同時,亦可透過無碟伺服器架構有效率地使用儲存容量。有了IPU,客戶可以透過安全、可程式化和穩定的解決方案,更好地使用資源,讓他們能夠於運算與儲存之間取得平衡

由於意識到一種尺寸並不適合所有情境,英特爾提供IPU架構的深入探討,並引薦下列IPU產品線新成員們-全都是設計用來解決分散於資料中心當中的多元化複雜性情境。

Mount Evans為英特爾首款ASIC IPU。Mount Evans與頂級雲端服務提供者共同架構與開發,並整合從多代FPGA SmartNIC得到的經驗。
為超大規模做好準備,其提供高效能網路與儲存虛擬化卸載,同時維持高度控制
提供同級最佳可程式化封包處理引擎,能夠使用在防火牆和虛擬路由等使用案例
實作硬體加速NVMe儲存介面,從Intel® Optane™技術擴展到模擬(emulate)NVMe裝置
利用高效能Intel® QuickAssist技術,部署先進的加密與壓縮加速
可以使用現有、常見的部署軟體環境進行程式化,包含DPDK、SPDK;並可以使用英特爾Barefoot

Oak Springs Canyon是採用Intel® Xeon® D和Intel® Agilex™ FPGA打造而成的IPU平台,是款於功耗、效率與效能方面均領先業界的FPGA,能夠提供:
卸載如開放虛擬交換器(OVS)的網路虛擬化功能,以及如NVMe over Fabrics和RoCE v2的儲存功能,並提供強化加密區塊,提供更安全的高速2 x 100Gb乙太網路介面
讓英特爾的合作夥伴和客戶能夠透過一個可擴充、可存取原始碼的軟體和硬體基礎設施-Intel® Open FPGA,客製化他們的解決方案
使用現有、常見的部署軟體環境進行程式化,包含DPDK、SPDK,並已為x86最佳化
Intel® N6000加速開發平台,代號「Arrow Creek」,是一款專為以Xeon為基礎的伺服器一同使用所設計的SmartNIC,其特色為:
英特爾的Agilex FPGA,是款於功耗、效率與效能方面均領先業界的FPGA;為高效能100Gb網路加速而生的Intel® Ethernet 800系列控制器
支援多款基礎設施負載,讓通訊服務供應商(CoSP)能夠提供如Juniper Contrail、OVS和SRv6等靈活的加速工作負載,並以已部署於部分世界頂級CoSP的Intel PAC-N3000成功作為基礎

Xe HPC和Ponte Vecchio
Ponte Vecchio基於Xe HPC微架構,提供領先業界的浮點運算效能與運算密度,加速AI、高效能運算(HPC),以及先進分析工作負載。英特爾公開Xe HPC微架構的IP區塊資訊;每個Xe-core包含8個向量和矩陣引擎(也就是Xe Matrix eXtensions、XMX);片段和堆疊資訊;以及包含運算、基底、Xe Link晶片塊的製程節點資訊。在架構日中,英特爾展示早期Ponte Vecchio晶片已可表現出領先效能,於熱門的AI測試上分別在推論與訓練均創下領先業界的紀錄1。英特爾A0版晶片效能表現超過45 TFLOPS的FP32吞吐量,大於5 TBps的記憶體交織結構頻寬,以及突破2 TBps的連接頻寬。英特爾同步分享並展示每秒超過43,000張照片的ResNet推論效能,ResNet訓練每秒也可超過3,400張照片,兩者均有望達成效能領先地位1。

Ponte Vecchio由數個複雜的晶片塊設計所構成,接著透過EMIB晶片塊組裝在一起,於晶片塊之間實現低功耗的高速連結。這些被放進為功率和互連密度所打造的主動式晶片3D堆疊Foveros封裝之中。高速MDFI互連能夠讓1個堆疊擴充至2個堆疊。

密集的Xe-core組成運算晶片塊(Compute Tile),為Ponte Vecchio的核心。
單一晶片塊包含8個Xe-core和合計4MB的L1快取,為提供具能源效率運算的關鍵
採用TSMC先進的製程技術-N5所打造
英特爾已為設計基礎設施裝設和工具流程鋪路,建立能夠為此節點測試和驗證晶片塊的方法
為了Foveros的3D堆疊,晶片塊具有相當緊湊的36微米凸塊

基底晶片塊(Base Tile),是個採用 Intel 7 打造的大型晶片,並為Foveros技術最佳化。
基底晶片塊是所有複雜I/O和高頻寬元件,以及SoC基礎設施-PCIe Gen5、HBM2e記憶體、MDFI連結匯集之處,並將各個晶片塊和EMIB橋接在一起
超高頻寬3D連結和高速2D互連與低延遲,造就這款具有無限連結性的機器
英特爾技術開發團隊致力於滿足頻寬、凸點間距和訊號完整性的要求
Xe Link晶片塊(Xe Link Tile),提供GPU之間的連接性,每個晶片塊支援八條連結。
為HPC和AI效能向上提升(scale-up)的關鍵
以英特爾支援的最快SerDes為目標-達90G 
此晶片塊的加入,是為了實現Aurora百萬兆級浮點運算效能超級電腦的擴充解決方案 

Ponte Vecchio已成功過電開機,正處於驗證階段並開始小量寄送樣品予客戶。Ponte Vecchio將於2022年推出至HPC和AI市場。

oneAPI
oneAPI產業倡議提供一個開放、以標準為基礎的跨架構、跨供應商統一軟體堆疊,允許開發者擺脫專利私有的程式語言和程式設計模型。現在已為Nvidia GPU、AMD GPU和Arm CPU提供Data Parallel C++(DPC++)和oneAPI函式庫實作。oneAPI正被獨立軟體供應商、作業系統供應商、終端使用者和學術界廣泛採用。主要產業領導者正協助發展其規範,以便支援其它使用案例和架構。英特爾也提供包含基本oneAPI基礎工具包的商業產品,加入超越規範程式語言與函式庫的編譯器、分析器、除錯器和移植工具。

oneAPI提供跨架構的相容性,改善開發者生產力和創新:
Intel的oneAPI工具包已有超過20萬的不重複安裝次數
市場上超過300個應用部署使用oneAPI的統一程式設計模型
超過80個HPC和AI應用能夠使用英特爾的oneAPI工具包於Xe HPC微架構運作
5月所發布的1.1版暫訂規範,為深度學習工作負載加入新的圖形介面和先進光線追蹤函式庫,預計將於今年底完成修訂

 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11