试用:AMD GCN - 推出 Radeon HD 7970 和 HD 7950
终于到了我们介绍AMD GCN(Graphics Core Next)架构及其两个最强大代表Radeon HD 7970和Radeon HD 7950的时候了。
在 HD 7950 中,我们立即向其中两个表示敬意,因此我们也有机会测试 CrossFireX,并且我们还对两张卡进行了调谐测量。 当然,我们还派了一些骑手来对抗这两款新加农炮,看看与上一代 GeForce 和 Radeons 相比,这些卡有多少加速。
在进入参与者和测试之前,我们将仔细研究 GCN 架构并接管 HD 7970 和 HD 7950 的功能。
下一个图形核心
2007 年 2900 月,AMD 推出了 Radeon HD 4000 XT 显卡,该显卡已经建立在统一着色器架构上。 事实证明,该设计存在许多缺陷,但到 Radeon HD 6900 系列时几乎完全消除了这些问题,使该公司在桌面显卡市场上站稳了脚跟。 在这一点上,可以看出现在需要进行彻底的改变。 HD 5“Cayman”系列被认为是第一步。 在这里,之前的 5 路超标量处理器(VLIW4)已经被 4 路处理器(VLIW7900)取代,Cayman 是第一个处理多个独立指令流的芯片。 另一个重大创新是引入了两个“图形引擎”,使三角形设置能力翻了一番——增加了镶嵌能力——以及一些元素的数量(光栅器、分层 Z、镶嵌器)。 他成为我们今天下一级测试的对象。 得益于称为 Graphics Core Next (GCN) 的架构,迄今为止使用 VLIW 指令的着色器阵列已经过时,取而代之的是所谓的计算单元 (CU)。 GCN 是第一个在 Radeon HD XNUMX “Tahiti”系列中首次亮相的产品。
有趣的是,但并不奇怪,由于台积电的 28 纳米带宽制造技术,Tahiti GPU 实现了出色的晶体管密度——它们每 365 平方毫米包含 4,3 亿个晶体管。 一个计算单元包含四个 SIMD 和一个标量单元。 AMD 的旗舰 Radeon HD 7970 “Tahiti XT”可与 32 个活动 CU 配合使用,假设总共有 2048 个着色器处理器(四个 16 路 SIMD,64 个 ALU)。 考虑到现在几代人的进步,乍一看这似乎不是一个突出的价值,但为了更好的效率和利用,我们想声明,不值得偶然地从这个得出深远的结论技术指标。 理论上,一个 CU 的性能相当于一个 Cayman SIMD 单元。 前几代的一个主要问题是数据依赖性(连续指令依赖于数据),这导致利用率波动很大。 GCN 架构也是该领域向前迈出的一步,因为它通过流处理消除了以前经历过的依赖关系。 好处仅在于关键字:调度、调试、估计预期性能和驱动程序开发也变得更加简单和透明。
一个CU不仅包含四个SIMD单元,而且还拥有自己的调度程序、340 KB的临时存储和一个纹理集群。这是 4 × 64 KB 向量寄存器、大小也是 64 KB 的本地数据共享、4 KB 标量寄存器以及容量为 16 KB 的一级缓存之和的结果。在上图中,你还可以看到一个绝对值得一提的组件,这就是所谓的“分支和消息单元”,它起着更有效地控制程序的作用。
掌握了这么多信息,我们再来回顾一下“Tahiti XT”图形处理器的关键参数:32 CU(2048个着色器处理器,128个SIMD),128个纹理单元,512个Load-Store Units,总共8,2MB缓存。 所以女孩的位置马上就不同了,即使我们才刚刚开始“脱衣服”。
前端
在前端方面,我们可以看到与 NVIDIA GF110 的架构相比有显着差异。 管理基本上不是在 CU 级别进行的。 此任务由命令处理器和异步计算引擎 (ACE) 执行。 该芯片配备了两个几何电机,除了 Geometry-Assembler 和 Vertex-Assembler 之外,还可以容纳第九代曲面细分器单元。 全球数据共享 (GDS) 促进了与 CU 的通信,这些单元还可以通过它相互共享数据。 前端部分包含两个光栅化器 - 您可以看到下面的布局。
ROP 和内存接口
AMD Tahiti 包含 8 个 ROP 集群——此时我们找到了与 Cayman 芯片相匹配的。 每个这样的“阵列”包含四个 ROP 单元和 16 个 Z 采样器。 值得一提的是,每个集群都有自己的缓存。 另一个重大变化发生了:不再直接连接到内存控制器。 此举旨在提高灵活性和可用性,我们可能会在 Pitcairn 的上下文中看到这一点...... ROP 可以写入 768 KB L2 缓存,进而可以被多个单元读取。 内存接口接收到一个快乐的图像。 六个 64 位内存控制器的总容量为 384 位。 我们只需为此添加一个词。 最后! 显存的默认大小为 3072 MB,但理论上 1536 MB 和 6 GB 也是可能的。
我们希望我们的读者不要以坏名声,但在这一点上,我们将就后端区域发表我们的个人意见。 表现非常出色的 Barts 与表现相对温和的 Cayman 芯片之间的关系表明,AMD 芯片的“普遍问题”是 ROP 容量紧张。 大溪地也没有取得任何进展,而关于芯片中其他新颖性的页面可能会有些夸张。 ROP 的作用在比赛中尤为突出,在 GPGPU 任务和应用程序中,他们成为第二小提琴手。 也可以肯定的是,这部分消耗了大量的晶体管,这当然也体现在芯片的尺寸上。
到目前为止,AMD 的增强功能在很大程度上满足了游戏玩家的需求。 现在至少有90度的转弯,成为满足专业需求,更广泛地使用GPU的强大十字路口。 当然,这不是问题,因为我们基本上是在谈论非常粗略的性能水平,这肯定会经得起现代游戏几年的考验。 据传,不仅AMD,NVIDIA也在用Kepler狭隘地对待ROP。
扩展内存总线是值得称道的一步。 事实上,设计师别无选择。 时钟不能再显着增加,但芯片正在缺乏数据。 在我们看来,仅此一项举措就可以将游戏中的性能提高多达 15%。
DirectX 11.1 和 PCI Express 3.0
PCI-Express 3.0 标准将速度从 16 GB/秒提高到 32 GB/秒,将 PCIe 2.0 的数据传输速率提高一倍。 主板制造商立即“咬住了这个话题”,但无论他们多么想,目前这种开关都没有提供显着的优势。 PCIe 3.0从营销角度来说是重要武器,是AMD和NVIDIA的强制性标准,也是用户的又一个“金钱陷阱”。
DirectX 11.1 可以从以下 Windows 操作系统开始征服,其中包含小修复和优化。 根据官方资料,我们可以期待新 API 提供原生立体 3D 支持和更高效的光栅化。 不幸的是,讨论如何提高图形硬件的灵活性和广泛可用性的最有趣的点可能尚未详细说明。
Graphics-Core-Next 架构大致如下所示。 当然,芯片不仅服务于玩家的需求,也有完成专业任务的空间。 Tahiti 的理论计算峰值性能(针对双精度计算)为 947 GFLOP,是单精度浮点运算的四倍。 此外,内存支持 ECC,GPU 熟悉 DirectCompute 11.1、OpenCL 1.2 C ++ AMP API。 新功能:零核
总的来说,Radeon HD 7900 级别的顶级掠食者习惯于将消费作为禁忌话题,但 AMD 工程师缺乏匠心。 这个想法很简单但很棒,但并不新鲜。 如果您长时间离开计算机,但出于某种原因不想将其关闭,您可能只想让显示器处于待机模式。 得益于 ZeroCore Power 技术,在显示器关闭的情况下,整个图形控制器可以断电,这种形式不需要主动冷却。 好处是令人信服:零噪音,3 瓦的功耗。 对于许多人来说,这将是一个微不足道的因素,但四路 Crossfire 系统的程序会关闭非主要视频卡,从而显着降低您的电费 - 尽管任何考虑这种组件的人都没有解决能源效率问题。
宽域 2.0
新版本的有趣功能之一是它允许您使用多频段音频进行多显示器会议对话。 该程序的正式名称是离散数字多点 (DDM) 音频。 Radeon HD 7970 可同时连接三台显示器,可接收八声道音频流。 这可能不是家庭用户特别感兴趣的,但它是新加农炮可以用于多少领域的一个很好的例子。 Catalyst 驱动器也在不断发展,例如,可以更轻松地定位托盘,并允许您编译自定义分辨率。 值得一提的是,Full HD 立体 3D 内容也可以在 Eyefinity 模式下观看。
UVD 和 VCE
UVD 3.0 已经为 DivX/Xvid、MPEG-4 Part 2 MVC 内容提供了硬件加速,而视频代码引擎 (VCE) 几乎相当于 AMD 的 Intel Quick Sync Video。 VCE 是独立硬件,仅用于加速 H.264 视频的转码。 该引擎比图形处理器中的着色器处理器慢,但更节能。 有两种模式可供用户使用。 起初,只有 VCE 有效,它本身比大多数 CPU 都快。 在这种情况下,我们不会遇到减速,我们可以毫无问题地加载视频卡或中央单元。 第二种选择是混合模式。 VCE 和 GPU 的算术逻辑单元一起跳转到任务。 这种“联姻”显然对编码速度有很好的影响,但在这种情况下,如果您最喜欢的游戏切换到“幻灯片”模式,请不要感到惊讶。
现在我们已经了解了理论和数字,让我们熟悉测试中的三个 GCN 模型!