选择页面

我们在测试台上测试了推土机:FX-8150 和三块 990FX 主板

我们在测试台上测试了推土机:FX-8150 和三块 990FX 主板

技术

这些芯片是在 GlobalFoundries 的 32nm SHP 节点上制造的。 对于推土机,之前推出的 SOI 已与英特尔的 HKMG(高 K 金属栅极)结合,可以帮助对抗漏电流。 该架构经过精心设计,可实现高时钟速度(“Speed Racer”),这使得该型号系列可能完全没有 3 GHz 以下的产品。 旧语言的所有中心单元都是黑色版,因此现在没有特别标记。

在这一点上,让我们绕道而行,看看硬币的另一面。 最快的四核 Phenom II 处理器的频率为 3,7 GHz,基于 Thuban 芯片的六核 1100T 的频率为 3,3 GHz。 相比之下,32nm AMD FX-8150 的基本镜头几乎令人失望,只有 Turbo Core 的 4,2 GHz “水平”是可以接受的,这立即保证了 10-15% 的功率过剩(否)。 一年前,XbitLabs 表示推土机正在跨越 3,5 GHz 时钟,尽管出现了一系列失误。 假设新大炮的生产和输出仍然存在严重问题,这对性能有重大影响,这似乎是正确的。

amd_bullldozer_hatekonysag
第二个整数只会将模块的大小增加 12%。 [+]

基于多年的经验,甚至诞生了一个基本概念,它基于以下内容:中心单元以平均80%以上的速度进行定点操作。 由此可以看出,浮点计算在“蜈蚣”的生活中是少见的。 因此,在设计中,连接了两个整数内核,它们有自己的一级缓存,但必须共享二级缓存和浮点单元。 AMD 将该单元命名为模块。

amd_bullldozer_one_module
一个模块 [+]

根据内部测量,第二个整数基本上将模块的大小增加到可以忽略不计的程度,相反,它可以理想地使性能提升高达80%。 负责数据的主缓存部分直接连接到处理器(大小为 16 KB,延迟 4 个时钟),但设计用于存储指令的 64 KB 缓存已经在整数之间共享。

1_module_what_which
深入挖掘 [+]

根据测试结果,L1 数据缓存不仅太小,甚至还很慢,这两者结合起来并不是一个很好的组合。 模块内部共享的二级存储大小令人满意,但其延迟较高,25-27个周期。 很容易想象,更大的 L1 缓存和更快的 L2(12-15 个周期)会将处理器性能提高 10-20%。

毫不奇怪,达到 8MB 的 L3 也不是光速(65 个周期)。 综上所述,推土机缓存系统不会是世界第八大奇迹。

指示
在指令集迷宫 [+]

Bulldozer 目前拥有最广泛的指令集支持:MMX、SSE、SSE2、SSE3、SSE4A、SSSE3、SSE4.1、SSE4.2、AVX、AES、FMA4、XOP、PCLMULQDQ,当然还有 64 位扩展。 在这两项创新(FMA4、XOP)中,FMA4 在 HPC 市场中非常重要,而 XOP 相对于多媒体应用程序略有优势。 据我们所知,最新版本的 x264 已经支持新的指令集。 过时的 3DNow! 已经停止支持,我想不会让很多读者夜不能寐。

众所周知,使用 Intel VT 来访问 x86 虚拟内存。 IOMMU 显着提升了系统虚拟化性能,但令人惊讶的是,Intel 的高端解决方案(Core i5-2600K、i7-2600K)并不支持该技术,这个“黑圈”包括当前的 Sandy Bridge E 解决方案。 同样,与直接竞争相比,这是一项额外的服务,尽管它对普通用户的用处值得怀疑。

40
理论上的涡轮核心 [+]

Turbo Core 也得到了进一步的开发,可以与多个时钟门一起工作,甚至可以更好地适应不同程度的使用。 如果所有内核都处于活动状态,但当前未使用浮点单元,则 Turbo Core 2.0 时钟将生效。 该程序会根据负载动态改变内核的时钟信号,可以断开不活动的资源、模块和模块内部的组件,因此在外壳前面的这个区域不会有任何抱怨。 不幸的是,事情的软件方面让您彻底陷入困境。

在实践中
实际实施 [+]

委婉地说,Windows 7 调度程序不是分配任务的最有效方式,因为它经常在内核之间交替分配任务。 操作系统的下一个版本将修复该问题,并且很快就会针对该系统进行修复,因此——在极端情况下,它可能会提高 15-25%——我们很快就会获得 2-10% 的性能提升。 另一个非常好的好处是空闲功耗可以减少 4-5 瓦,因为模块可以更长时间地“节省”。

推土机win8_and_bf3
“不要把你的牙齿当作礼物”[+]

推土机bf3betafx

战地 3 期间的“转变”[+]

战地 3 也很好地展示了一些优化对处理器的帮助。 在这款游戏中,目前最强的FX系列处理器可以达到酷睿i7-2600k的性能。

FX 系列处理器带有 Socket AM3 + 外壳,并安装在 AMD 的 9 系列芯片组主板中。 插座的颜色(主要是黑色)也有助于定位。 为了实现无限音速 Scorpius 平台,我们需要一个 FX 系列处理器、一块带有 9 系列芯片组的主板和一块 Radeon HD 6000 系列显卡。 Bulldozer 具有支持 1866 MHz 模块的双通道 DDR3 内存控制器。

phenomu_folulk

AMD FX-8150 搭配 Phenom II X4 970 BE - 从上方 [+]

总之,我们想添加另一个有趣的补充。 严重的争议引起了这样一个事实,即基于推土机的处理器每小时完成的工作(每个周期的指令)平均而言与其前身相比有所减少。 有些人立即设想建筑的衰落,其他人列出了过去的类似例子。 在这方面,让我们一如既往地以事实为限。 今天的程序员越来越意识到多核优化的好处。 8缸发动机基本上可以提供良好的性能,我们很少考虑它可以用1缸做什么。

现象级

AMD FX-8150 搭配 Phenom II X4 970 BE - 底部 [+]

这个例子不是最好的,但它可能会阐明这一点。 我们并不声称我们会密集地优化使用八个整数内核,但在这种情况下,Turbo Core 2.0 的目标是最高可能的时钟 (4,2 GHz)。 只有在K10.5的情况下才能以“血汗”的价格获得的东西在这里被认为是“基准时钟”。 毫无疑问,AVX、FMA 和 XOP 的实施已经花费了大量的晶体管。 该架构的基础知识用于多个领域(服务器、台式机),因此这似乎是一个强制性步骤,但今天我们看到它的好处更少(尤其是在桌面环境中)。

socket_2k

躺在床上 [+]

理想情况下(FMA4 + AVX),推土机真的感觉非常初级,提供令人惊讶的性能并立即将事物置于不同的角度。 根据德国 HT4U 的测量,在 C-Ray 1.1 渲染应用中,AMD FX-8150 的性能与 Intel Core i15 7X 相同,为 990 秒。 这正好是 AMD Phenom II X6 1100T 处理器完成这项工作所需时间的一半。 我们会在括号中指出,我们还权衡了另一个极端,即超级 PI。