英特爾架構日重磅:甩出11大芯片硬科技,推千億晶體管SoC

芯東西8月20日報道,在2021年英特爾架構日上,英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri同多位英特爾架構師一起,全面介紹了在CPU、GPU及IPU架構方面的重大改變與創新。

今年以來,英特爾公佈了相當多的新計劃,包括IDM 2.0戰略、全新製程節點方案、獨顯等等,如今,我們終於能從一系列新品上直觀地看見這些新計劃方案的組合。

首先,英特爾首個性能混合架構Alder Lake將集成新公佈的兩款全新x86內核架構——能效核與性能核,並且是基於英特爾新命名技術節點Intel 7的首款產品。它還採用了新的智能英特爾硬件線程調度器來實現兩款x86的無縫協同。

面向數據中心,英特爾公佈下一代英特爾至強可擴展處理器Sapphire Rapids,這被稱作代表了十多年來行業最大的數據中心平台進步。

另外,英特爾也講解了其備受矚目的全新獨立游戲GPU微架構Xe HPG微架構,基於該微架構、採用台積電N6節點製造的產品Alchemist系列SoC將於明年第一季度上市,這將是英特爾第一款基於台積電N6工藝的GPU。

還有基於Xe HPC微架構的數據中心GPU架構Ponte Vecchio,它具備英特爾迄今為止最高的計算密度,例如A0芯片可提供超過45TFLOPS的FP32吞吐量、超過5TBps的持續內存結構帶寬和超過2TBps的連接帶寬。

最後,圍繞全新基礎設施處理器(IPU),英特爾展示了其首款專用ASIC IPU Mount Evans和基於FPGA的IPU參考平台Oak Springs Canyon。

英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri認為,架構是硬件和軟件的’煉金術’,今年公佈的這些新突破展示了架構將如何滿足對於更高計算性能的迫切需求。

發布的顯卡新品中,我們看到英特爾基本採用台積電N6和N5工藝技術進行代工生產,這正是今年3月公佈的英特爾IDM 2.0戰略的直接體現。

英特爾公司企業規劃事業部高級副總裁Stuart Pann稱,目前英特爾20%的產品是交由外部代工廠生產,英特爾是台積電的頂級客戶之一。目前,為英特爾獨立顯卡產品採用代工廠的製程節點,是恰當之選。

他透露說,未來幾年,外部代工生產的芯片單元會在英特爾的模塊化產品中扮演更重要的角色,包括採用先進製程節點的核心計算功能,以支持客戶端、數據中心和其他領域的新興工作負載。

01 兩款全新x86內核,性能核AI加速提升約8倍

英特爾首先介紹了能效核和性能核,顧名思義,前者主打高能效,後者主打高性能。

1、能效核:能耗不到Skylake的40%

能效核曾用代號“Gracemont”,是一個高度可擴展的x86微架構,旨在提高吞吐量效率並提供可擴展多線程性能,能滿足客戶從低功耗移動應用到多核微服務的全方位計算需求。

借助多種技術進步,能效核可以在不耗費處理器功率的情況下對工作負載進行優先級排序,並通過每週期指令數(IPC)改進功能直接提高性能。

與英特爾迄今最多產的CPU微架構Skylake相比,在提供同樣單線程性能時,能效核的功耗不到Skylake的40%。與運行4個線程的兩個Skylake內核相比,4個能效核在吞吐量性能提升80%的同時,功耗更低。

2、性能核:英特爾迄今性能最高的CPU內核

性能核曾用代號“Golden Cove”,是英特爾迄今性能最高的CPU內核,並且在CPU架構性能方面實現階梯式提升,展現出更高的並行性和執行並行性,還減少時延,幫助支持大數據集和大型代碼體積的應用程序。

它擁有更寬、更深、更智能的架構:解碼器由4個增至6個,6μop緩存增至8μop,分配由5路增至6路,執行端口由10個增至12個;物理寄存器文件更大,擁有512條目的重排序緩沖區;提高了分支預測准確度,降低了有效的一級時延,優化了二級的全寫入預測帶寬。

與第11代酷睿架構(Cypress Cove內核)相比,相同頻率下,性能核在一系列工作負載上平均提升了約19%。此外,性能核搭載了新的英特爾高級矩陣擴展(AMX)來執行矩陣乘法運算,可將AI加速提升約8倍,用於學習推理和訓練。這是為軟件易用性而設計,利用了x86編程模型。

02 硬件線程調度器:讓兩款x86核無縫協作

為了確保性能核、能效核與操作系統無縫協作,英特爾開發了一種改進的調度技術,即英特爾硬件線程調度器。

它具有動態性和自適應性,會根據實時的計算需求,動態、智能地調整調度決策,從而優化系統以在真實場景中實現更高的性能和效率。

硬件線程調度器直接內置於硬件中,可提供對內核狀態和線程指令混合比的低級遙測,讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上,並且更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測,從而幫助操作系統做出更智能的調度決策。

此外,硬件線程調度器通過與微軟合作,優化自身在Windows 11上的極佳性能;並擴展PowerThrottling API,使開發人員能為其線程明確指定服務質量屬性;還應用了全新EcoQoS分類,該分類可讓調度程序獲悉線程是否更傾向於能效(此類線程會被調度到能效核)。

03 首個混合架構Alder Lake:採用Intel 7製程,支持從筆記本到台式機

英特爾SoC客戶端架構Alder Lake重構了多核架構,基於Intel 7製程工藝打造,是英特爾首個搭載全新英特爾硬件線程調度器的性能混合架構。

它採用了單一、高度可擴展的SoC架構,首次集成了能效核和性能核,支持最新內存和最快I/O,功率范圍從9W到125W,適用於從超便攜式筆記本到發燒級、商用台式機的所有客戶端設備,基於Alder Lake的產品將在今年開始出貨。

Alder Lake提供三類產品設計形態:

(1)高性能、雙芯片、插座式的台式機處理器,具有領先性能和能效,擁有8個性能核、8個能效核,支持高規格的內存和I/O。

(2)高性能筆記本處理器,擁有6個性能核、8個能效核,採用BGA封裝,加入圖像單元,採用更大的Xe顯卡和Thunderbolt 4連接。

(3)輕薄、低功耗的筆記本處理器,擁有2個性能核、8個效能核,採用高密度的封裝,配置優化的I/O和電能傳輸。

要構建如此高度可擴展架構,需在不影響功率的情況下滿足計算和I/O代理對帶寬的需求。

英特爾也展示了台式機處理器的I/O信息,總共有最多8個性能核、8個效能核、24個線程和30MB non-inclusive LL緩存。

英特爾設計了三種獨立的內部總線,每一種都採用基於需求的實時啟發式後處理方式:

(1)計算內部總線可支持高達1000GBps,即每個內核或每集群100GBps,通過最後一級緩存將內核和顯卡連接到內存:具有高動態頻率范圍,並且能夠動態選擇數據路徑,根據實際總線結構負載而進行時延和帶寬優化;根據利用率動態調整最後一級緩存策略,也就是“包含”或“不包含”。

(2)I/O內部總線支持可高達64GBps,連接不同類型的I/O和內部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內部總線速度來匹配所需的數據傳輸量。

(3)內存結構可提供高達204GBps的數據,並動態擴展其總線寬度和速度,以支持高帶寬、低時延或低功耗的多個操作點。

04 基於Intel 7節點,性能封頂的數據中心SoC

Sapphire Rapids處理器基於Intel 7製程工藝技術,採用英特爾性能核與全新加速器引擎,被稱作樹立了下一代數據中心處理器的標准。

其核心是一個分區塊、模塊化的SoC架構,採用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術和先進網格架構,具有顯著的可擴展性,同時保持單晶片CPU接口優勢。

該處理器提供了一個單一、平衡的統一內存訪問架構,每個線程均可完全訪問緩存、內存和I/O等所有單元上的全部資源,由此實現整個SoC具有一致的低時延和高橫向帶寬。

Sapphire Rapids提供多種數據中心相關加速器,包括新的指令集架構和集成IP:

(1)英特爾加速器接口架構指令集(AIA):支持對加速器和設備的有效調度、同步和信號傳遞。

(2)英特爾高級矩陣擴展(AMX):可為深度學習算法核心的Tensor處理提供大幅加速。其可以在每個週期內進行2000次 INT8運算和1000次 BFP16運算,大幅提升計算能力。

使用早期的Sapphire Rapids芯片,與使用英特爾AVX-512 VNNI指令的相同微基準測試版本相比,使用新的英特爾AMX指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了7倍以上,顯著提升AI工作負載中的訓練和推理性能。

(3)英特爾數據流加速器(DSA):旨在卸載最常見的數據移動任務,改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,並可以在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據。

這些架構上的改進使Sapphire Rapids能為雲、數據中心、網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。

05 獨立游戲顯卡微架構Xe HPG與其首款SoC

Xe HPG是一款全新的獨立顯卡微架構,專為游戲和創作工作負載提供發燒友級別的性能。

基於Xe HPG架構的英特爾客戶端顯卡路線圖包括Alchemist(此前稱之為DG2)、Battlemage、Celestial和Druid系列SoC。

Alchemist系列SoC基於Xe HPG微架構,採用台積電N6工藝,首批產品將於2022年第一季度上市,並採用新品牌名英特爾銳炫(Intel Arc)。

這款消費級GPU預計將與採用台積電N7工藝的AMD Navi 2x顯卡和採用三星8LPP工藝的英偉達Ampere GA10x顯卡進行較量。

基於Xe HPG微架構的Alchemist SoC通過架構、邏輯設計、電路設計、製程工藝技術和軟件優化,相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升。

此外,Alchemist SoC還擁有多達8個具有固定功能的渲染切片,專為DirectX 12 Ultimate設計;並支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元。

聚焦到微架構Xe HPG,它採用全新Xe內核,聚焦計算、可編程、可擴展,全面支持DirectX 12 Ultimate。

Xe內核中的矩陣引擎(Xe Matrix eXtensions,XMX)能夠加速AI工作負載,比如XeSS,是一項全新升頻技術(upscaling technology),可以實現高性能、高保真游戲體驗。

XeSS能讓那些原本只能在低畫質設置或低分辨率下玩的游戲,也能在更高畫質設置和分辨率下順利運行。該技術利用XMX AI加速,用深度學習來合成非常接近原生高分辨率渲染質量的圖像,可提供高性能和高畫質,同時性能提升高達2倍。

XeSS憑借DP4a指令,在包括集成顯卡在內的各種硬件上提供基於AI的超級采樣。多家早期的游戲開發商已開始使用XeSS,本月將向獨立軟件供應商(ISV)提供XMX初始版本的SDK,DP4a版本將於今年晚些時候推出。

英特爾顯卡設計的核心是軟件優先。英特爾正與開發人員密切合作進行Xe微架構的設計,力求與行業標准保持一致;通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計,英特爾的第一款高性能游戲顯卡將性能和質量放在首位。

英特爾已完成了內核顯卡驅動程序組件的重新架構,特別是內存管理器和編譯器,從而將計算密集型游戲的吞吐量提高了15%(至多80%),游戲加載時間縮短了25%。

06 1000億晶體管!英特爾最復雜SoC與Xe HPC

Ponte Vecchio是英特爾迄今最復雜的SoC,包含1000億個晶體管,提供領先的浮點運算和計算密度,以加速AI、HPC和高級分析工作負載。

這款SoC也是其踐行IDM 2.0戰略的絕佳示例,它基於Xe HPC微架構,採用多種先進的半導體製程工藝、英特爾變革性的EMIB技術以及Foveros 3D封裝技術。

Ponte Vecchio已走下生產線進行上電驗證,並已開始向客戶提供限量樣品。Ponte Vecchio預計將於2022年面向HPC和AI市場發布。

Xe HPC微架構的IP模塊信息被公佈,包括每個Xe核的8個矢量和矩陣引擎(XMX)、切片和堆棧信息,以及包括計算、基礎和Xe Link單元的處理節點的單元信息。

英特爾展示了早期的Ponte Vecchio芯片就已經顯示出領先的性能,在一個流行的AI基準測試上創造了推理和訓練吞吐量的行業紀錄。

其A0芯片已經實現了超過高於45TFLOPS(每秒45萬億次浮點運算)的FP32吞吐量,超過5TBps的持續內存結構帶寬及超過2TBps的連接帶寬。

同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過每秒43000張圖像和超過每秒3400張圖像的ResNet訓練,這兩項性能都有望實現行業領先。

從具體設計來看,Ponte Vecchio由多個復雜的單元設計組成,然後通過EMIB單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成於Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展。

其中,計算單元是一個密集的多個Xe內核,是Ponte Vecchio的核心。該單元基於台積電先進的N5製程工藝技術,一塊單元有8個Xe內核,總共有4MB一級緩存,是提供高效計算的關鍵。

該單元具有極其緊湊的36微米凸點間距,可與Foveros進行3D堆疊。英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路。

基礎單元是Ponte Vecchio的連接組織,基於Intel 7製程工藝,針對Foveros技術進行了優化。

它是所有復雜的I/O和高帶寬組件與SoC基礎設施——PCIe Gen5、HBM2e內存、連接不同單元MDFI鏈路和EMIB橋接。該單元採用高2D互連的超高帶寬3D連接時延很低,使其成為一台無限連接的機器。英特爾技術開發團隊致力於滿足帶寬、凸點間距和信號完整性方面的要求。

Xe鏈路單元採用台積電N7工藝,提供了GPU之間的連接,支持每單元8個Xe鏈路,這對HPC和AI計算的擴展至關重要,旨在實現支持高達90G的更高速SerDes,該單元已被添加到Aurora百億億次級超級計算機的擴展解決方案中。

如Xe架構一樣,Ponte Vecchio將由英特爾統一軟件堆棧oneAPI支持。

07 首款專用ASIC IPU和IPU參考平台

在傳統服務器架構中,一切任務都可以直接跑在CPU上。而在雲端服務器架構中,如果所有計算任務都由CPU來執行,那它就有些力不從心了。

一種可編程的網絡設備正為雲和通信服務提供商減少在CPU方面的開銷,使其充分釋放性能價值,這個設備被稱為基礎設施處理器(IPU)。

具體而言,英特爾基於IPU架構有三大優勢:一是基礎設施功能和客戶工作負載的強分離,使客戶能夠完全控制CPU;二是雲運營商可將基礎設施任務卸載到IPU上,更大化實現CPU利用率和收益;三是IPU可以管理存儲流量,減少時延,同時通過無磁盤服務器架構有效利用存儲容量。借助IPU,客戶可通過一個安全、可編程、穩定的解決方案更好地利用資源,平衡處理與存儲。

應對多樣化數據中心的復雜性,英特爾推出了以下IPU家族的新成員:英特爾首款專用ASIC IPU Mount Evans,以及全新的基於FPGA的IPU參考平台Oak Springs Canyon。

Mount Evans是英特爾與一家一流雲服務提供商共同設計和開發的,它融合了英特爾多代FPGA SmartNIC的經驗,超大規模就緒,提供高性能網絡和存儲虛擬化卸載,同時保持高度控制。

該IPU提供了業界一流的可編程數據包處理引擎,支持防火牆和虛擬路由等用例。它還使用擴展自英特爾傲騰技術、硬件加速的NVMe存儲接口,並採用英特爾高性能Quick Assist技術,部署高級加密和壓縮加速。

在軟件方面,Mount Evans可使用現有普遍部署的DPDK、SPDK等軟件環境進行編程,並能採用英特爾Barefoot Switch部門開創的P4編程語言來配置管線。

Oak Springs Canyon是一個IPU參考平台,基於英特爾至強D處理器和英特爾Agilex FPGA構建:

(1)卸載Open Virtual Switch(OVS)等網絡虛擬化功能以及NVMe over Fabric和RoCE v2等存儲功能,並提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網網絡接口。

(2)讓合作夥伴和客戶能用英特爾開放式FPGA開發堆棧(英特爾OFS)定製其解決方案,這是一款可擴展、開源軟件和硬件基礎設施。

(3)使用現有普遍部署的軟件環境進行編程,包括已在x86上優化的DPDK和SPDK。

英特爾N6000加速開發平台Arrow Creek是專為搭載至強服務器設計的SmartNIC。

它內置英特爾Agilex FPGA和用於高性能100GB網絡加速的英特爾以太網800系列控制器,支持多種基礎設施工作負載,使通信服務提供商(CoSP)能夠提供靈活的加速工作負載,如Juniper Contrail、OVS和SRv6。

08 oneAPI工具包:超過20萬次單獨安裝

英特爾oneAPI是一個開放、規范、跨架構和跨廠商的統一軟件棧,提供了跨架構的兼容性,讓開發者能夠擺脫專有語言和編程模型的束縛。

目前,NVIDIA GPU、AMD GPU、Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。

oneAPI正在被獨立軟件提供商、操作系統供應商、終端用戶和學術界廣泛採用。行業領導者正在協助發展該規范,以支持更多的用例和架構。

同時,英特爾還提供了商業產品,包括基本的oneAPI基礎工具包,它在規范語言和庫之外增加了編譯器、分析器、調試器和移植工具。

英特爾oneAPI工具包擁有超過20萬次單獨安裝,市場上部署的300多個應用程序採用了oneAPI統一編程模型,超過80個HPC和AI應用程序使用英特爾oneAPI工具包在Xe HPC微架構上運行。

另外,oneAPI工具包5月發布的1.1版臨時規范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預計將在年底完成。

09 結語:以架構創新應對千倍算力挑戰

總體來看,英特爾在此次架構日活動中推出兩大x86 CPU內核、兩款獨立GPU、兩大數據中心SoC、IPU新品和首款客戶端多核性能混合架構,並展示了AMX、XeSS、硬件線程調度器等多項融入產品特性的技術創新。

這些創新的架構與平台,均是為了更好地迎接越來越龐大的計算需求所帶來的挑戰。英特爾預計,到2025年算力需求將是1000倍級的提升,而四年內增加1000倍相當於摩爾定律的5次方。

本文來自微信公眾號“芯東西”(ID:aichip001),作者:心緣,編輯:漠影,36氪經授權發布。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪