![]() |
|
![]() |
||
我们已经知道,AMD推土机架构采用了模块化设计,每个模块内有两个整数核心和一个浮点核心,各自搭配专用的调度器,而且浮点核心可为两个整数核心所共享使用哪里搜极品推荐。因为有自己的调度器,浮点核心不必依赖整数调度器去安排浮点命令,也无需借助整数资源去执行256位命令女生裸妆身图片不模糊。相比之下,Intel的架构中整数和浮点核心共用一个调度器,它必须同时处理整数和浮点命令snh48!。
推土机架构图
推土机架构会在指令集方面做出大幅度的扩展,加入支持SSSE3、SSE 4.1/4.2、AVX、AES、FMA4、XOP、PCLMULQDQ等等,其中最关键的就是AVX女生大尺度照唯美有气质。
AVX指令集可以执行256位浮点指令,但需要澄清的是,并没有什么所谓的“256位命令”美女私照片图片真人霸气高冷。单精度命令都是32位的,双精度则是64位又撩又欲的禁欲系女头私照片。使用今天标准的128位浮点单元,可以在一个时钟周期内并行执行四个单精度命令或者两个双精度命令哪里日韩美女艺术照。有了AVX效率就可以翻一番,亦即每时钟周期内执行八个32位单精度命令,或者两个64位双精度命令女生把照片给你看什么意思。
当然了,这得要应用程序支持AVX才行,否则的话256位浮点单元只会运行在128位模式下——正因为如此,AMD提出了弹性浮点单元裸性感壁纸图片大全。
如今的典型数据中心负载都以整数运算为主,浮点运算只占很小一部分,所以绝大多数情况下一个庞大的256位浮点单元只会白白消耗内核面积和功耗,坐视整数单元忙得要死双人不正经的表情包。推土机通过在两个整数核心之间共享一个256位浮点单元,既节省了内核面积和功耗,也能灵活满足实际负载需求性感照片私照片女生背影。
Flex FP弹性浮点单元由两个128位FMAC(乘法累加器)组成,每一个都可以在每时钟周期内执行FMAC、FADD(浮点加法)、FMUL(浮点乘法),而Intel的架构中只能通过单个FADD管线执行FADD指令,FMUL亦然欧美人袄。有了FMAC单元,乘法和加法命令不会像标准FADD、FMUL那样拥堵在一起,两个单元都可以灵活处理这些计算命令四十岁女人最美的年纪。如果一个程序只使用FADD,那么两个FMAC单元都可以全力执行FADD迷人的妻子 亚洲在线免费观看。
这种设计的其他好处还有:支持FMA4指令而实现非破坏性DEST,降低寄存器的压力;消除中间反复步骤,提高精确度美女艳照骚素材图片。
顺便再说说AES特别撩人的昵称女生。如果应用程序符合美国商务部FIPS 197加密标准,AES就能为其实现硬件加速本地大尺度视频。推土机的Flex FP单元也能执行这些一次16个字节的指令,速度为每时钟周期一个,是现有带宽的两倍本地附件美女约会。
Flex FP的设计理念对降低功耗也大有好处,能让设计人员在同样的功耗指标下放入更多繁忙的整数单元女性连体内衣。事实上,Flex FP的设计目标之一就是将其空闲功耗降至峰值功耗的区区2%女人最迷人勾男人私照片高清。
Flex FP的美妙之处在于它既是单个256位浮点单元,又被两个整数核心所共享自己拍性感照片怎么拍。每个时钟周期内,每个整数核心都可以通过两个128位指令或者一个256位指令来来操作256位并行数据,或者每个整数核心同时执行128位命令日本美女。
这种硬件设计对BIOS、软件编程来说也并不复杂,可以随着每个处理器时钟周期儿变化,以满足特定时刻的需求mn131美图大全。以下是每个周期内的四种可能场景:
1、核心1:两个128位AVX或者未编译SSE命令;核心2:无浮点命令
2、核心1:无浮点命令;核心2:两个128位AVX或者未编译SSE命令
3、核心1:128位浮点命令;核心2:128位浮点命令
4、核心1:无浮点命令;核心2:无浮点命令
可以看出,浮点单元的弹性设计使得整个系统都更加灵活,也优化了每个周期内每个核心的性能snh48夏日泳装。
对于应用程序来说,256位AVX指令集需要它们重新编译才能充分利用,这显然需要时间和反复测试,因此AVX的普及也不会是一朝一夕的事情,而灵活的Flex FP浮点单元设计有望加速这一进程日系人体写真高清壁纸。