英特尔锐炫移动级独立显卡解析：剑指高性能GPU领域

2022-03-30 23:00:00 [ 中关村在线原创 ] 作者：Y

北京时间2022年3月30日23点整，英特尔正式发布首款全新的锐炫A系列高性能移动级独立显卡，也就是英特尔锐炫3显卡家族。自去年英特尔宣布推出独立显卡的计划以来，用户对于这一天的到来期待已久。

数十年来，英特尔为PC用户交付了一代又一代高性能CPU，为全球数十亿人提供计算能力。而在独立显卡发布之前，英特尔已经在集成显卡领域打下了坚实基础。尤其是随着图形技术大神Raja Koduri的加入，英特尔向高性能GPU领域迈进势不可挡。

目前，首批搭载英特尔锐炫3独立显卡的笔记本电脑已经上市，而更加强大的锐炫5、锐炫7系列产品将于今年夏天问世。

英特尔锐炫独立显卡将包含通用架构和高级功能集，并且支持DX12 Ultimate以及英特尔最为先进的AI和媒体引擎。从产品定位来看，英特尔锐炫3系列主要立足于Evo轻薄笔记本电脑，为其提供增强的1080P游戏性能和出色的内容创作性能。而锐炫5和锐炫7在提供领先内容创作功能之外，还会提供更高的图形计算能力，以应对高性能游戏需求。

英特尔发布首款锐炫移动级显卡

那么全新的英特尔锐炫3系列显卡有哪些特性呢？

·灵活可拓展的X^e HPG微架构

首先，英特尔锐炫A系列产品全部基于X^e HPG架构打造，它包含了强大的AI引擎和增强的媒体引擎。除此之外，英特尔还为其打造了下一代Xe显示引擎和新的图形管线，用来处理各种不同显示任务。

要想系统性的了解锐炫显卡特性，我们首先从渲染切片（Rendering Slice）开始谈起。渲染切片是英特尔可重用IP的基本构建块，在X^eHPG微架构里，每4个Xe内核组成一个渲染切片。每一个Xe内核中都配备了数量可观的运算单元，如矢量引擎XVE，矩阵引擎XMX。此外X^eHPG也集成了其它主流图形技术，如网格着色，采样器反馈等，同时也能在渲染切片中找到其相应的硬件支持。

X^eHPG架构最大特点就是拥有出色的灵活性。因此，英特尔可以通过叠加渲染切片来构建不同的SoC，目前最少为2个，最大可以做到8个。这样的结构最主要的特点就是可扩展性很强，根据渲染切片数量不同，产品线变得更加丰富，为用户提供更多选择。与此前的X^e LP微架构相比，X^e HPG每瓦性能提升了1.5倍。同时，渲染切片支持DX12 Ultimate，其中包括对所有图形固定功能块的改进，并且还有支持微软DXR和Vulkan RT的专用硬件光追单元。每个切片还配备了4个硬件光追加速器，用来支持实时光线追踪技术，能够显著提升3A大作的游戏画面表现和光影效果。

X^e HPG的核心是X^e-Core，即Xe内核，它是X^e HPG微架构的组成模块，取代了此前集成显卡中EU（执行单元）的概念。因此X^e HPG架构中最基础的执行单元是X^e-Core。它包括16个256位宽的SIMD矢量引擎，为传统图形着色器执行大部分运算。矢量引擎主要负责传统图像处理的计算任务。而由于AI算法核心几乎完全围绕着一系列大型矩阵乘法和累加算法，英特尔在每个Xe内核中构建了专用矩阵引擎来进行硬件加速。Xe内核包含16个矩阵引擎，每个引擎都是1024位宽。矩阵引擎专为加速AI运算而生。同时为了满足矩阵、矢量和光线追踪单元的高带宽需求，英特尔在每个Xe内核中构建了一个192KB的大型本地内存。它可以根据每个工作负载的需要在L1缓存和共享本地内存(SLM) 之间动态分配。

谈到矢量引擎，英特尔为了给浮点运算（FP）提供专用执行端口，对ALU（算术逻辑单元）进行了改进。FP指令现在可以与整数运算(INT)指令同时运行，其中包括DP4a的快速INT8计算。同时英特尔还强化了AI能力，增加了新的XMX矩阵引擎用于高吞吐量矩阵乘法，涵盖最常见的AI数据类型，包括BF16和INT8。

那么矩阵引擎的优势在哪？其规模到底如何呢？

首先，MAC是图形中使用的基本SIMD矢量指令，是锐炫显卡矢量引擎的核心。它执行8次并行运算乘法，然后执行8次并行加法（每个时钟总共16个Ops）。DP4a是针对那些不需32位精度的AI计算所做的优化。它的工作原理是将所有32位输入分成8位块，然后独立的乘以这些块，执行总共32次并行乘法（参考下图中紫色方块显示）。接下来是32次累加或每个周期总共64次操作，这比标准SIMD MAC提高了4倍性能。矩阵引擎通过将乘法累加4深度流水线化，将其提升到一个新的水平。与DP4a一样，每个操作数都被分成4个块，这些块被独立的相乘和累加——每个阶段64个操作（由紫色图块显示）。通过4个阶段，每个时钟产生256次操作——比传统32位SIMD MAC增加了16倍性能。

为了有效提高执行性能和算力，英特尔X^e HPG架构可以同时调度和执行浮点FP、整数INT和 XMX指令，并以锁步形式并行两个引擎和共享资源。

其实，矩阵引擎的一个主要应用是在实时渲染过程中调用AI。英特尔使用这种技术的第一个算法称为XeSS，也就是英特尔自家的超级采样技术。与传统高分辨率渲染相比，XeSS可在游戏中提供更高的性能。它使用神经网络辅助运动矢量，从低分辨率渲染中生成精美的高分辨率图像。

目前，第一时间支持XeSS的游戏总计有14款，未来数月还会有更多游戏实现对XeSS的支持。此外，英特尔与游戏开发者良好的关系，也将帮助其更加快速的拓展XeSS支持。

·强大的Xe媒体引擎首个支持AV1编解码的GPU

除了强大的AI引擎之外，英特尔锐炫显卡还提供了强大的媒体引擎，即Xe媒体引擎，进而构建了领先的媒体加速器。

锐炫显卡所搭载的媒体引擎内置了非常广泛的编解码器，包括H.265/HEVC、H.264/MPEG-4/AVC、VP9等，同时还是首个支持AV1硬件编解码加速的GPU，这也使其在内容创作领域的应用倍受期待。

这里我们重点说说AV1。

从效率比来讲，AV1比最为常见的H.264编解码器高出50%，比HEVC高出20%，因此能够以更低带宽和更小文件提供更高质量的画面。而且AV1是完全开放没有任何授权费用的编解码器。虽然目前还没有被广泛采用，但行业内用户对其前景非常认可。

和以往各类常用的编解码器相比，AV1提供了更好的压缩比和视觉效果。锐炫图形中的AV1编码硬件加速与传统软件实现相比，编码速度提高了50倍。目前，包括FFMPEG、Handbrake、Adobe和XSplit都已集成了对锐炫AV1的支持。

扩展性方面，Xe显示引擎支持HDMI 2.0b和DP1.4a，游戏玩家可享受1080p@360Hz画面，或4台4K@120Hz HDR显示器拓展，虽然没有支持到HDMI 2.1，但整体拓展性已经能够覆盖当下主流用户的需求。

此外，英特尔锐炫显卡支持Adaptive Sync技术，可提供流畅、无撕裂的游戏画面。而在此基础之上，英特尔还打造了全新的Speed Sync技术，它可以适用于任何显示器并解决不同问题。

时下，不少游戏玩家会通过V-Sync以避免在高渲染率下玩电子竞技游戏时的画面撕裂。但由于显示器与游戏画面刷新率不同步，会导致延迟大幅增加。Speed Sync通过关闭V-Sync来改善这一点，通过始终显示最后一个渲染帧的整体，避免类似情况发生。

此外，Smooth Sync也是伴随英特尔锐炫显卡的一项新技术。该技术通过运用模糊化两个撕裂帧之间的边界来减少视觉失真。

·两种尺寸规格满足不同笔记本电脑需求

英特尔锐炫3显卡现阶段主要载体是Evo认证轻薄本，不过考虑到后续拓展需求，英特尔设计了两种不同尺寸的芯片。面积较大的芯片代号为ACM-G10，它包含32个Xe内核和光追单元，拥有16MB L2缓存，256bit GDDR6接口，16路PCIe 4.0接口。面积较小的芯片代号为ACM-G11，包含8个Xe内核和光追单元，4MB L2缓存，96bit显存接口，8路PCIe 4.0。两种芯片设计均包含两个Xe多功能编解码引擎，和4路显示输出引擎。

GPU频率是非常重要的参数，直接影响最终性能表现。频率提高相应就会要求更高的工作电压，会带来更大功耗。英特尔锐炫显卡支持实时监控性能指标，如功耗、温度和占用率，并且通过动态调节时钟频率来与之适配。

通常来说在笔记本设计中，功耗限制会压低频率。如果显卡只是间歇性被占用，由于每时钟内功耗密度较低，时钟频率一般就会趋于上升。反之当显卡负载较重，比如玩游戏的时候，或者图像视频处理等场景下，时钟频率会相应降低，让整体功耗保持在设计范围内。

因此，英特尔锐炫显卡在运行不同负载时，或者同一负载的不同阶段时，其频率、其占用率等指标是不一样的，从而时钟频率会在一个范围内动态调整，而且这个范围的分布也是有规律的，在分布内，一些接近中部的频率出现的概率会高一些。

考虑到这些情况，英特尔制定独立显卡参数时，首先标定了一个有代表性的负载，之后在这个负载运行的时候，全程测量并统计时钟频率的分布，最终在整个负载完成后，把平均时钟频率作为参数配置中的定义。当然，对于不同的平台，有着不同的TDP，即基于散热的设计功耗。如图中所描述的，更宽松的TDP限制下，时钟频率的分布范围也会整体提升。

·Deep Link激发锐炫显卡性能表现

英特尔锐炫独显性能一部分来自于出色的底层架构设计，以及先进的AI、媒体引擎加持。而另一部分则是不得不说的基于整个系统的Deep Link技术。

英特尔Deep Link简单来说就是多种技术的总称，目前包含动态功率共享，超级编码和超级算力三大主要技术。

电脑在实际应用过程当中，CPU和GPU并不都是同时处于高负载状态运行，因此借助动态功率共享技术，就可以在系统功耗的限制范围内，尽可能最大化释放CPU和GPU性能。简单来说，当CPU更加需要功率去处理负载任务时，系统会自动把更多功率分配给CPU，反之对GPU也一样，这样就解决了功率浪费问题。

动态功率共享技术

动态功率共享运行原理是通过循环采集各种系统信息，包括但不限于CPU和GPU的温度，占用率，各自的功耗等等，其中最核心的参数还是利用率。当系统发现GPU负载过高，比如玩游戏的时候，系统会动态调整GPU和CPU的功率配比，将更多功率分配给GPU。反之则将更多功率分配给CPU。

此外，显卡使用率其实是有一段最优区间，此时需要让GPU既“不吃太饱也别饿着”，因此当显卡占用率超过这一区间，就会提升显卡功率配比。当显卡占用率低于这一区间，则提升CPU功率配比。而当显卡占用率非常低时，就会把功率尽可能都分配给CPU。现阶段，所有搭载英特尔12代酷睿和锐炫显卡的笔记本电脑都能够启用这项技术。

超级编码技术

Deep Link里的第二项重要技术就是超级编码技术，如其名，该技术的存在就是为了大大提升编解码效率。而超级编码技术可以同时调用锐炫独显和锐炬核显的硬件编解码能力，可以看做是“显卡交火”。

这种协作是通过OneVPL的API接口来实现的。OneVPL是一个跨平台的开放性框架，应用程序通过接口可以识别并调用平台上多个多媒体引擎，充分利用视频处理能力。当超级编码开始工作时，一组组解码后的原始帧通过特定的API函数被交给oneVPL，进而按组被分配到不同的多媒体引擎上，拷贝到相应的内存中缓存起来。不论每一组有多少帧，相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而OneVPL会完成后续的打包工作，把编码后的帧一组组拼接成最终视频来输出。这种并行处理，编码效率比单一显卡更加显著。

超级算力技术

随着内容创作个人化趋势加剧，算力需求也逐步提高。而GPU本身就是内容创作相关应用最高效的硬件之一，因此，超级算力技术某种程度上来说就是为内容创作而生。不过，英特尔并未忽视CPU在内容创作应用中的计算力，因此超级算力技术主要是通过把负载合理的分配给不同计算引擎，从而实现更加高效的内容创作过程。

为此英特尔设计了MLS，即基于机器学习的服务。

MLS是Open Vino中的一个框架，它能够智能地把负载分配给不同算力模块。根据当前应用或负载特征，例如延迟敏感度，吞吐量，性能要求，功率消耗等等。这些因素帮助MLS做出决策，把负载分配给独立显卡，集成显卡，或者CPU。

以视频处理为例我们来看看MLS的工作原理。比如在对视频进行去噪点，超分，锐化等处理时，导入画面会逐帧传递给MLS框架，每一帧还会拆成若干块，这些块排在工作队列里，MLS启动一个个工作线程，把这些块根据需求自动分配到不同的算力模块中。

如下图所示，MLS将一部分工作线程分配到集显的计算引擎，一部分分配到独显的矩阵引擎。随着显卡完成当前任务，MLS会不断派发新的任务。直到最后完成所有块的处理，打包这些增强后的画面作为最终输出结果。

其实简单来讲，超级算力的实现就是靠CPU、集成GPU、独立GPU协同工作来、并行计算实现算力和效率的增强。

·锐炫3为轻薄本赋予更强的游戏性能

接下来回归到具体产品。英特尔今天正式发布的锐炫3家族，是移动级独立显卡，主要覆盖轻薄型笔记本，后续的锐炫5、锐炫7会覆盖到游戏本。

锐炫3家族首发型号为A350M和A370M两款。其中，A350M包含6个Xe内核，6个光追单元，频率1150MHz，拥有4GB GDDR6显存，64bit位宽，功率为25-35W；A370M包含8个Xe内核和8个光追单元，频率1550MHz，同样拥有4GB GDDR6显存，64bit位宽，功率为35-50W。

功能特性方面前面我们也介绍了，锐炫3系列显卡均支持DirectX12 Ultimate，并且支持光线追踪，可变速率着色，网格着色和采样器反馈。此外，英特尔也放出了一些游戏实测数据，可以看到A370M独显与英特尔锐炬Xe核显相比，在游戏的中或高画质下，画面帧数差异还是相当大的，A370M整体表现还是相当不错的。

其实对于轻薄型笔记本而言，能够在游戏方面有这样的表现已经相当不错。

不过从目前A系列显卡应用适配情况来看，其特性更加契合内容创作需求。在视频编解码方面，以Davinci为例，4K H.264转H.265的性能相比锐炬Xe核显提升多达60%。

随着锐炫3独显发布，英特尔还带来了全新的锐炫控制面板，即Intel ARC Control。它提供了一站式与锐炫显卡相关的设定或者信息接收，包括可以让用户快速升级驱动，及时看到显卡性能的工作负载、虚拟摄像头设定、自动生成游戏高光时刻、提供便捷的直播、串流相关的功能和设置，用户可以快速的开启直播功能将游戏精彩的画面分享到直播平台上。

ARC Control控制面板也将提供便捷的安装和自动更新服务，每当有新游戏上架或游戏发布新驱动时，用户会自动收到通知，如果用户不想要被这些信息打扰，也可以根据自己的需求灵活调整。

此外，ARC Control控制面板还会提供性能检测功能，并以具体的参数和可视化图标提供给用户参考。

目前，ARC Control控制面板已经开放下载，而且即便不是锐炫显卡，它也支持英特尔锐炬核显。另外最为重要的是，它真的不需要登录使用。

·结语

锐炫3系列独立显卡是英特尔重归高性能GPU领域交出的第一张答卷，我们非常期待拿到实际产品后的测试结果究竟如何。不过无论怎样，在NVIDIA和AMD两强相争多年的格局下，英特尔重回GPU市场，无疑会在未来几年内对市场格局带来巨大冲击。而且凭借英特尔的技术力，相信在不久之后，英特尔显卡将爆发出更加强劲的实力。

本文属于原创文章，如若转载，请注明来源：英特尔锐炫移动级独立显卡解析：剑指高性能GPU领域http://nb.zol.com.cn/789/7894269.html