当前位置:首页 » 行业资讯 » 周边资讯 » 正文

服务器 CPU 数量的优化技巧:最大化性能并量的未来:预测即将到来的变化和最佳数量 (服务器cpu和普通cpu的区别)

引言

随着企业数字化转型的不断深入,服务器的需求日益增长。作为服务器的核心,CPU 的数量直接影响了服务器的整体性能和吞吐量。优化服务器 CPU 数量对于最大化性能和为未来做好准备至关重要。

服务器 CPU 与普通 CPU 的区别

服务器 CPU 与普通 CPU 在几个关键方面有所不同:

  • 核心数:服务器 CPU 通常具有更多核心,提供更高的并行处理能力。
  • 缓存:服务器 CPU 具有更大的缓存,

确定最佳 CPU 数量

确定服务器的最佳 CPU 数量取决于几个因素:

  • 应用程序需求:不同的应用程序对 CPU 资源的需求不同。需要仔细分析应用程序的要求。
  • 工作负载类型:工作负载是 CPU 密集型还是 I/O 密集型?不同的工作负载类型需要不同的 CPU 数量。
  • 预算: CPU 成本是需要考虑的一个因素。在性能和成本之间取得平衡非常重要。
  • 可用性要求:对于要求高可用性的应用程序,可能需要具有冗余 CPU 的服务器。

优化技巧

优化服务器 CPU 数量可以采用一些最佳实践:

  • 使用基准测试:在选择 CPU 数量之前,使用基准测试应用程序来确定最佳数量非常重要。
  • 启用超线程:超线程技术可以提高 CPU 利用率,在特定工作负载下提高性能。
  • 使用 NUMA:非统一内存访问 (NUMA) 架构可以优化对不同内存节点的访问,提高性能。
  • 监视 CPU 使用率:使用监视工具来监视 CPU 使用率,并在需要时进行调整。
  • 考虑未来需求:在确定 CPU 数量时,考虑即将到来的变化和应用程序需求的增长非常重要。

结论

优化服务器 CPU 数量对于最大化性能和为未来做好准备至关重要。通过考虑应用程序需求、工作负载类型和即将到来的变化,企业可以确定最佳 CPU 数量并实施优化技巧,从而获得最佳性能和成本效益。


不仅是CPU性能提升 骁龙820性能全解析

【IT168 评测】15年临近尾声,回顾一下今年的手机市场,用两个字:疯狂来形容一点不为过。

举几个简单的例子:小米年初喊出8000万到1亿台的年销量、魅族一年推出近10款新机、华为荣耀提前达标卖“一亿”送“一亿”回馈用户等等的事情让我们大跌眼镜,感叹这个市场变化之快。

进入12月后,新机发布数量明显减少,这其中有一部分原因在于厂商更愿意把新机放在一个全新的财年发布,但同时还有一个更重要的原因,也就是我们常说的“憋大招”。

各家厂商纷纷在年末开始憋大招,蓄力16年初,让我们相信在16年初将会有多款重磅级产品亮相。

而作为众多手机厂商“憋大招”的重要一块拼图——骁龙820 SoC也于上周末正式在京亮相。

好不夸张,一颗好的SoC能够主导整个智能手机产业链发展,而究竟骁龙820好不好?性能如何?哪些新特性将在即将发布的旗舰机型上亮相呢?

数读骁龙820发布背景

今年是Qualcomm公司诞生30周年,也是骁龙以中文名称进入中国市场的第三个半年头,文章的开头我们并不为Qualcomm庆生,只是Qualcomm在此次骁龙820亚洲首秀的媒体沟通会上分享了一些有趣的数据,这些数据既是骁龙820发布的背景,也的确值得我们深思。在文章的一开始,我们先通过这些数据来了解下骁龙820究竟是在怎样一个大背景下发布的?作为一家行业巨头Qualcomm又是怎么理解手机行业未来的?

53%:Qualcomm预计全球手机市场2015年到2019年五年时间内装机量将提升53%。

如果换算下来相当于每年匀速增长10%左右。

虽然这一预测相比于近两年来全球智能手机出货量增长率并没有提升(甚至略有下降),但仍然预测每年10%左右的增速也预示着Qualcomm认为至少在5年内,智能手机市场仍然整体向上、增速迅猛。

85亿:同样,Qualcomm预计2015年到2019年五年间,全球手机市场出货量累计将超越85亿部。

换算下来平均每年售出20亿部智能手机,也就是说全球平均每3个人在一年当中就要换一部手机,平均每人在5年中都要更换一部智能手机。

这一数据仅针对智能手机。

参考14年全球市场手机出货量18.9亿台,其中智能手机12亿台。

从Qualcomm给出的预测我们也可以看出未来五年的全球手机市场将是智能手机从普及到全面覆盖的五年。

9.32亿:在整个2015年,QualcommMSM系列芯片累计出货9.32亿片,相当于每天出货250万片。

我们知道QualcommMSM系列芯片是QualcommSoC芯片,代表产品有QualcommMSM8994(骁龙810)、QualcommMSM8976(骁龙652)等,也就是说今年全年有超过9.32亿台搭载Qualcomm芯片的手机发布。

初步估算今年全球市场超过50%的手机设备都采用了Qualcomm芯片 。

如果保持这一态势,未来四年中将有超过40亿台搭载Qualcomm芯片的智能手机问世。

这一数据除了向我们“炫耀”了Qualcomm在整个智能手机领域的霸主地位,也从侧面印证了我们前面说的:Qualcomm的一举一动的确能够牵动整个智能手机行业的发展方向。

95%:前面我们提到,根据Qualcomm的预测,未来四年将是智能手机从普及到全面覆盖的五年。

而全面覆盖到什么程度?Qualcomm给出的数据是到2019年市面上将有95%的智能手机。

并且2019年智能手机出货量将为PC(包括整机和笔记本)的7倍。

从这个数据中,我们也可以看出在未来的一段时间内,手机将成为电子消费品的处理终端。

5亿:截止2015年底,中国尚有5亿2G用户。

虽然这项数据并不代表目前仍然有5亿人群未能享受到3G/4G网络(一部分2G用户也是双卡用户),但仍然证明国内3G/4G网络普及还需要努力,同时也证明国内4G网络引发的换机潮仍在进行中。

70+:目前基于Qualcomm骁龙820的设计研发中的设备已经超过70款,这还仅仅是骁龙820尚未发布之前的数据,随着骁龙820的正式上市,未来可预见的还有更多的设备采用该产品。

并且Qualcomm也表示目前70款以上设备不仅仅局限于智能手机。

按照惯例一些平板设备、其他智能设备也将采用该旗舰芯片。

通过上述数据总结几个观点:1.到19年仍然是智能手机发展的黄金时期。

2.中国智能手机市场远远没有达到饱和的情况。

3.4G网络的到来仍然是智能手机普及乃至全面覆盖的重要因素。

将在今后几年智能手机市场上起到举足轻重的作用。

5.市场十分看好骁龙820。

在以上大背景下,Qualcomm要把骁龙820打造成为一款什么样的产品?之前我们所说的强大的绝不仅仅是CPU又是怎么回事呢?接下来我们就通过关键字的形式来给大家详细解读骁龙820的性能如何。

性能提升关键字一:三星14nm FinFET LPP工艺

相信很多关注手机性能的网友们都对神马三星、台积电、FinFET等词语谙熟于心,也能随口说出一些关于三星最新工艺和台积电最新工艺之间的优略。

而提到骁龙820的性能,我们首先就要提到此次骁龙820选用的三星14nm FinFET工艺。

简单来说更先进的工艺能够提升单位面积下晶体管数量,提升晶体管性能,提升整体芯片性能。

同时通过更先进的制程工艺也能够达到降低漏电率降低功耗减少发热的效果。

总体而言更先进的制程能在相同的功耗下达到更高的性能,在相同的性能下有着更好的功耗表现。

对于绝大部分消费者来讲,认识到这一点就已经足够了。

但相信也有一部分网友对此次Qualcomm采用14nm FinFET LPP工艺有着诸如:为何不用台积电16nm FinFET+?三星14nm听说效果没有台积电好?LPP是个神马东西?等等的疑问,笔者在这里也给大家进行一个简单的解读。

首先,我们先来看看LPP究竟是什么?迄今为止,三星已经在14nm FinFET工艺上演进了两代工艺。

分为14nm FinFET LPE(Low Power Early版本,代表作为三星Exynos 7420、Exynos 7422、苹果A9等芯片)、14nm FinFET LPP(Low Power Plus版本,Qualcomm骁龙820为该工艺的首发芯片)。

三星官方给出的数据是14nm FinFET LPE工艺相较于上一代28nm工艺性能提升40%,封装面积降低50%,功耗降低60%。

而LPP官方并没有给出太多详细的数据,仅表示相比LPE晶体管性能又有10%的提升,并且相应的功耗也有进一步下降。

即将要推出的三星Exynos 8890不出所料也将采用LPP版本的14nm FinFET工艺,从三星将首发芯片让给Qualcomm骁龙820来看,LPP版本的良品率和产能应该不存在太大问题了。

还有一点值得我们注意,14nm可以算是半导体产业的一个“大年”,也就是说在未来两年甚至更长一段时间内,14nm制程工艺将会主导高端半导体芯片产业,有消息称三星也将在明年晚些时候推出14nm FinFET的更新版本LPH等以适应下一代旗舰SoC芯片的需求。

同时台积电也将在16nm FinFET Plus工艺上进行深入演进。

虽然三星、台积电近两年在半导体工艺制程方面基本处于“齐头并进”的局面,甚至开始逐渐威胁到Intel的霸主地位,由于所推出的产品不同,很难将三星、台积电最新工艺做一个严谨的对比。

但今年苹果A9处理器给了我们这样一个机会,A9处理器采用了两家最新工艺同时供货,有网友测试认为台积电版本的A9处理器要比三星版本的A9处理器更加省电。

三星和台积电官方并没有就这一情况给出相应的说明。

但笔者猜测原因在于:

性能提升关键字二:Kryo CPU

前面我们提到,今年是Qualcomm成立30周年,但相信很多用户熟知Qualcomm还是从Qualcomm进军移动通讯SoC芯片领域开始,相比于之前,现在的Qualcomm也开始逐渐面向消费级推出重磅产品,这也对提升Qualcomm在普通消费者中知名度有很大帮助。

扯远了,我们再把思绪往回拉一拉,在笔者印象中,Qualcomm有几款颇具影响力的SoC产品:QSD8250、QSD8260、APQ8064、骁龙800、骁龙801、骁龙820等。

其中QSD8250/8260采用自主研发Scorpion架构,骁龙800/801采用自研Krait架构,而此次骁龙820则采用最新的Kryo自研架构。

自研架构相比于公版ARM授权架构(例如我们常说的Cortex-A53/A57等)有个不形象却通俗易懂的比喻——“站在巨人的肩膀上”。

大体来说就是Qualcomm获得ARM公版授权后在已经较为成熟的公版设计上在做修改,例如公版设计上三行代码解决一个问题,Qualcomm精简为一行,当然更重要的是加入一些全新的特性例如更新的内存控制机制等等,最终得到一个更高效率的自研架构。

这也是Qualcomm一直以来有别于其他家厂商的差异化竞争力之一。

Qualcomm之所以能够霸占旗舰手机市场大部分份额多年,其自研架构的战略也起了很重要的作用。

众所周知,今年Qualcomm全年的旗舰产品骁龙810是Qualcomm为数不多的采用ARM公版架构设计的旗舰SoC芯片。

对于为何在这一代产品上放弃了自己核心竞争力之一的自研架构,大家众说纷纭。

最普遍的看法是为了能够推出迎合用户需要的产品。

其实我们可以看到在骁龙810之前,Qualcomm的Krait架构、Scorpion架构并没有大小核心之分,而从Cortex-A15架构推出以来,ARM官方就已经开始提倡大小核理念,Qualcomm在A15架构上并没有盲目追随ARM所谓的指导意见,依然采用最新的Krait 400架构,但到了A57架构时,再在Krait架构演进性能方面已经没有太大优势。

加之之前没有大小核自研架构产品的推出,最终才在骁龙810上出现了自研的断档情况。

这也是普遍看法下一种稍微深层次的解释。

而经过一代的公版设计后,Qualcomm对于大小核心的理解也渐入佳境,理所当然的推出了全新自研架构Kryo。

此次采用Kryo架构的骁龙820采用四核心设计,时钟频率达到2.2GHz,但有一点值得我们注意,相比于APQ8064、骁龙800、骁龙801不同,此次骁龙820采用了2*2.2GHz+2*1.5GHz的不同时钟频率的四颗核心设计。

同时,之前骁龙800采用了4aSMP,也就是四个异步对称式核心,每科核心均能够单独控制,每颗核心的频率也不存在差异。

而此次骁龙820采用两簇核心管控2aSMP,也就是2+2的异步对称式核心,换句话说2颗1.5GHz核心是同步同频的,而两颗2.2GHz也是同步同频的,但在这两簇核心组之间采用了异步对称式的设计。

讲到这里大家可能认为骁龙820也采用了类似的设计,但通过Qualcomm官方的讲解其实并不是这样,两簇核心组仅是时钟频率上有所差异,但仍采用相同的Kryo架构。

关于自研架构我们上面已经简单的解释一下Kryo架构,顺便提一句多渠道信息表明,包括三星、LG在内的多家厂商也开始走自研芯片的道路。

关于性能方面,上周末媒体沟通会后也对骁龙820的CPU进行了性能基准测试,虽然时间较为短暂,但我们仍然对Kryo CPU进行了例如Geekbench、Antutu等软件测试,也通过高压负荷状态测试了Kryo CPU是否能够运行在较高主频上。

通过图片,我们可以看到,无论是单核性能、多核性能还是CPU整数、浮点运算方面,骁龙820都全面超越了之前的骁龙810、猎户座7420等机型,并且已经和苹果A9处理器性能持平。

但更加值得一提的是,骁龙820能够在10分钟满符合高压测试中保持91%以上的工作效率,并且四核核心也在10分钟测试过程中保持2*1.5GHz+2*1.8GHz以上的高速运转。

这也说明骁龙820的确解决了漏电功耗较高的问题,能耗比大幅上升。

(之前效率最高的芯片为三星Exynos7420)。

总体而言,骁龙820采用的Kryo CPU是目前最为强大的移动处理器之一。

关于CPU部分的更详细的测试,我们后续会有商用机型更详细的多软件性能基准测试。

性能提升关键字三:Adreno 530

前面我们提到,自研架构是Qualcomm旗舰SoC产品的重要差异化核心竞争力。

而文章的这一阶段我们要说的Adreno系列GPU同样是QualcommSoC产品中的重中之重。

说到这里笔者还想说个题外话:很多人认为iPhone硬件性能并不强大,之所以体验不错更多的功劳是靠软件后期优化而来,其实这个看法是很片面的。

在目前智能手机领域,多线程应用场景并不普及,所以CPU单核性能和GPU性能则显得尤为重要,而苹果每一代芯片均在这两方面能够做到业界领先。

换句话说多核心对于目前的智能手机来讲用处并不明显,做好每一颗核心性能、做好GPU性能才是关键。

而业界能在CPU单核性能、GPU性能方面与苹果匹敌甚至超越苹果的厂商凤毛菱角,其中QualcommAdreno系GPU就是其中一个代表。

Qualcomm官方给出数据显示,Adreno 530相比上一代Adreno 430性能提升40%,并且在功耗方面下降40%,这都得益于Adreno 530的全新架构设计。

其中Qualcomm工程师也特别提到,在Adreno 530内部内嵌了一颗超低功耗处理器,用于检测GPU功耗并且动态调节GPU使之处于最佳状态,Adreno 530的最高主频为650MHz。

并且在Adreno 530上Qualcomm率先支持了最新的OpenCL 2.0和Renderscript,这也是目前首款支持OpenCL 2.0的智能手机SoC。

之前只有例如Nvidia Titan等高端桌面显卡支持该规格,这也有利于游戏设计厂商将自己的PC大作更容易的移植到智能手机/平板。

至于性能方面,我们也通过GFXbench进行了GPU显示性能测试。

通过对比我们可以看到,相比例如Adreno 430、Mali-T760等15年旗舰GPU还是有很大提升,基本和iPhone6s/6s Plus上的PowerVR 7XT系列GPU水平持平。

通常意义上我们理解的GPU仅仅是处理UI滑动、渲染游戏场景、协助CPU进行运算。

但在未来的一段时间内,包括4K视频、虚拟现实显示、增强现实显示等方面也将发挥决定性的作用。

性能提升关键字四:X12 LTE Modem

性能方面我们提到的第四个关键字是Qualcomm的“传统优势项目”——调制解调器,此次高通骁龙820搭载了X12 LTE Modem模块,支持下行CAT12(600Mbps下载带宽),上行CAT13(150Mbps上传带宽)。

并且支持下行3*20MHz载波聚合,上行方面也支持2*20MHz载波聚合。

目前国内三大运营商也开始了4G+的商用,未来将会有更多支持载波聚合的设备问世,其实我们总是关注实验室的理论传输速度,并且认为下载600Mbps并不实用,但却忽视了3频段载波聚合的存在。

当一个频段上用户太多,即使信号强度满格也达不到理想网速,在这种场景下多频段载波聚合能够提升有效带宽,提升网速,这也是为何今后一段时间内4G+将成为三大运营商重要的发展战略。

单谈Modem我们通常仅关心支持几模几频、带宽多少、信号好坏等等。

但此次Qualcomm在网络方面还带来了更多的新特性。

例如WiFi方面不仅支持802.11ac MU-MIMO,还率先支持了802.11ad规格。

并且还特别针对很多运营商资费较高的地区推出了WiFi通话功能。

值得一提的是,此次骁龙820还将支持LTE/WiFi双通道下载等。

文章的这一阶段我们就对这些我们通常并不会关注的点进行一下解读:

MU-MIMO:MU-MIMO指代“Multi-User Multiple-Input Multiple- Output”的缩写,也就是多用户多入多处的缩写。

普通802.11ac路由器在同一个时段只能与一个设备进行数据交换,802.11ac拥有80MHz的频谱带宽,对于普通家庭四五个联网设备来说并无太大问题。

但随着物联网时代的到来,普通家庭中可能会有十几款甚至几十款联网设备时就会出现大部分设备虽然连接路由器但无法实现数据交换,并且也会出现各产品之间的资源互躲的现象,网络得不到合理的利用。

而MU-MIMO则可以实现同时和多款设备同时通讯,互不影响。

不过MU-MIMO也有一个弊端在于路由器端和设备端均需要硬件支持,不能够通过软件的形式升级,举个例子,目前MU-MIMO路由器商用的并不多,并且普遍在千元以上。

想要体验MU-MIMO带来的快感,也得花不少钱啊。

802.11ad:在很多消费者刚刚弄清楚5GHz WiFi和4G LTE网络之前的区别时,Qualcomm则率先在骁龙820上支持了802.11ad标准WLAN网络。

有别于之前的2.4GHz/5GHz频谱,802.11ad采用60GHz的高频谱资源。

配合MIMO技术可将带宽拓展至惊人的7Gbps,换言之每秒能够传输近1GB大小的文件。

要知道我们目前仍在普遍使用的SATA3机械硬盘的传输速度也仅仅为6Gbps,也就是说未来WLAN传输速度将超过一般存储介质的存储速度。

如此之快的连接速度可以被应用于设备和设备之间的数据交换,超高清4K视频的WLAN传输播放等。

当然802.11ad采用的60GHz频谱也存在穿透性能有限的问题,所以更适合距离较近的设备之间使用,未来很有可能将替代蓝牙存在。

性能提升关键字五:3D超声波指纹+QuickCharge 3.0

前面我们说Qualcomm骁龙820很大程度上能够决定未来一年整个智能手机产业的发展方向,不仅仅硬件的提升能够给很多软件厂商提供更好的硬件平台来制作体验更好的软件。

并且骁龙820还支持很多全新特性,例如QuickCharge 3.0、3D超声波指纹识别、improveTouch体验等,诸如这些特性将会在明年即将推出的智能手机上大放异彩。

文章的这一阶段我们就那些骁龙820上即将在行业挂起旋风的特性。

3D超声波指纹识别:不知道大家有没有看到过科幻电影中,主人公将手指放在手机屏幕上固定区域就可以实现指纹解锁?这样曾经可换的场景时下正在一步步实现。

目前智能手机上主要采用按压式指纹识别实体按键的设计,这一设计主要有两点考虑:1.按压式指纹识别模块对于识别区域的材质有较高要求。

2.老一代指纹识别模块需要配备金属环用于防干扰。

而3D超声波指纹识别的加入可以将指纹识别模块嵌入例如玻璃材质、塑料材质底部,无需在表面放置实体按键区域。

虽然仍然不能做到屏幕下方指纹识别,但也将指纹识别应用推进到了一个更新的领域。

16年不出意外的话,将会有很多手机取消实体指纹识别按键,转而将其隐藏在玻璃下方。

这背后就是高通骁龙820和产业链相关厂商一同努力的结果。

如果说未来一年智能手机发展主流趋势都有哪些可能我们还不能一一列举详细,但快速充电一定是其中之一。

明年是锂离子聚合物电池受到其化学性质所限短时间内容量不能有质的飞跃的一年,快速充电算是一种曲线救国的方式。

时下一些快速充电标准已经能够解决充电初期的大功率充电安全性,但对于充电后期的涓流充电安全性还鲜有突破。

以QuickCharge 2.0规格为例,仅支持3档功率充电,无法针对电池容量进行实时的微调。

而全新的QuickCharge 3.0可以实现类似“无级变速”的多档位功率充电。

可以针对不同的充电阶段实时调节充电功率,保证充电安全的同时也能够提升充电效率。

16年也将会有更多的厂商打出充电X分钟,使用X小时的口号,这背后依然是骁龙820和产业链相关厂商一同努力的结果。

曾经有某业内人士说:虽然和Qualcomm属于竞争关系,但整个行业中最不愿意看到Qualcomm出现任何动荡。

这种观点背后也折射出Qualcomm对于整个行业发展起到了举足轻重的作用。

前面我们的标题为强大的并不仅仅是CPU,也提到了骁龙820的很多新特性将在今后的一年中引领整个智能手机产业的发展。

当互联网手机市场已经认识到单纯性价比不能拉开品牌差异、需要寻找新的“爆”点的时候,谁能够通过硬件的形式为手机厂商带来新的具有竞争力的特性才是一家SoC厂商核心竞争力的体现。

同时,骁龙820上我们又看到了之前那个理性的Qualcomm,随着消费者对于智能手机认知的深入,“核”战争迟早会成为一个伪命题,作为一个媒体人,笔者想说,单纯性能比拼方面,与其比拼各款芯片的最高性能,不如比较单位性能下功耗控制、超低功耗下性能是否强悍。

相信在未来的16年中也会有更多的上游厂商、手机厂商回归产品为本这个思路上来。

cpu的主要性能参数详细介绍

CPU主要的性能指标1.主频 主频也叫时钟频率,用来表示CPU内核工作的时钟频率(CPU Clock Speed),即CPU内数字脉冲信号震荡的速度。

2.外频 外频是CPU与主板之间同步运行的速度。

3.前端总线(FSB)频率 总线是将计算机微处理器与内存芯片以及与之通信的设备连接起来的硬件通道。

前端总线将CPU连接到主内存和通向磁盘驱动器、调制解调器以及网卡这类系统部件的外设总线。

人们常常以MHz表示的速度来描述总线频率。

前端总线(FSB)频率是直接影响CPU与内存直接数据交换速度。

由于数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率,即数据带宽=(总线频率×数据位宽)÷8。

4、CPU的位和字长位:在数字电路和电脑技术中采用二进制,代码只有“0”和“1”,其中无论是 “0”或是“1”在CPU中都是 一“位”。

字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。

所以能处理字长为8位数据的CPU通常就叫8位的CPU。

同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。

字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。

字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。

8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。

5.倍频系数倍频系数是指CPU主频与外频之间的相对比例关系。

在相同的外频下,倍频越高CPU的频率也越高。

但实际上,在相同外频的前提下,高倍频的CPU本身意义并不大。

这是因为CPU与系统之间数据传输速度是有限的,一味追求高倍频而得到高主频的CPU就会出现明显的“瓶颈”效应—CPU从系统中得到数据的极限速度不能够满足CPU运算的速度。

一般除了工程样版的Intel的CPU都是锁了倍频的,而AMD之前都没有锁。

6.缓存缓存大小也是CPU的重要指标之一,而且缓存的结构和大小对CPU速度的影响非常大,CPU内缓存的运行频率极高,一般是和处理器同频运作,工作效率远远大于系统内存和硬盘。

实际工作时,CPU往往需要重复读取同样的数据块,而缓存容量的增大,可以大幅度提升CPU内部读取数据的命中率,而不用再到内存或者硬盘上寻找,以此提高系统性能。

但是由于CPU芯片面积和成本的因素来考虑,缓存都很小。

L1 Cache(一级缓存)是CPU第一层高速缓存,分为数据缓存和指令缓存。

内置的L1高速缓存的容量和结构对CPU的性能影响较大,不过高速缓冲存储器均由静态RAM组成,结构较复杂,在CPU管芯面积不能太大的情况下,L1级高速缓存的容量不可能做得太大。

一般服务器CPU的L1缓存的容量通常在32—256KB。

L2 Cache(二级缓存)是CPU的第二层高速缓存,分内部和外部两种芯片。

内部的芯片二级缓存运行速度与主频相同,而外部的二级缓存则只有主频的一半。

L2高速缓存容量也会影响CPU的性能,原则是越大越好,现在家庭用CPU容量最大的是512KB,而服务器和工作站上用CPU的L2高速缓存更高达256-1MB,有的高达2MB或者3MB。

L3 Cache(三级缓存),分为两种,早期的是外置,现在的都是内置的。

而它的实际作用即是,L3缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。

降低内存延迟和提升大数据量计算能力对游戏都很有帮助。

而在服务器领域增加L3缓存在性能方面仍然有显著的提升。

比方具有较大L3缓存的配置利用物理内存会更有效,故它比较慢的磁盘I/O子系统可以处理更多的数据请求。

具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

其实最早的L3缓存被应用在AMD发布的K6-III处理器上,当时的L3缓存受限于制造工艺,并没有被集成进芯片内部,而是集成在主板上。

在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。

后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。

接着就是P4EE和至强MP。

Intel还打算推出一款9MB L3缓存的Itanium2处理器,和以后24MB L3缓存的双核心Itanium2处理器。

但基本上L3缓存对处理器的性能提高显得不是很重要,比方配备1MB L3缓存的Xeon MP处理器却仍然不是Opteron的对手,由此可见前端总线的增加,要比缓存增加带来更有效的性能提升。

扩展指令集CPU依靠指令来计算和控制系统,每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。

指令的强弱也是CPU的重要指标,指令集是提高微处理器效率的最有效工具之一。

从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分,而从具体运用看,如Intel的MMX(Multi Media Extended)、SSE、 SSE2(Streaming-Single instruction multiple target=_blank>

CPU好与坏看的是哪些参数?

主频

主频也叫时钟频率,单位是兆赫(MHz)或千兆赫(GHz),用来表示CPU的运算、处理数据的速度。

CPU的主频=外频×倍频系数。

很多人认为主频就决定着CPU的运行速度,这不仅是片面的,而且对于服务器来讲,这个认识也出现了偏差。

至今,没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系,即使是两大处理器厂家Intel(英特尔)和AMD,在这点上也存在着很大的争议,从Intel的产品的发展趋势,可以看出Intel很注重加强自身主频的发展。

像其他的处理器厂家,有人曾经拿过一块1GHz的全美达处理器来做比较,它的运行效率相当于2GHz的Intel处理器。

主频和实际的运算速度存在一定的关系,但并不是一个简单的线性关系. 所以,CPU的主频与CPU实际的运算能力是没有直接关系的,主频表示在CPU内数字脉冲信号震荡的速度。

在Intel的处理器产品中,也可以看到这样的例子:1 GHz Itanium芯片能够表现得不多跟2.66 GHz至强(Xeon)/Opteron一样快,或是1.5 GHz Itanium 2大约跟4 GHz Xeon/Opteron一样快。

CPU的运算速度还要看CPU的流水线、总线等等各方面的性能指标。

主频和实际的运算速度是有关的,只能说主频仅仅是CPU性能表现的一个方面,而不代表CPU的整体性能。

外频

外频是CPU的基准频率,单位是MHz。

CPU的外频决定着整块主板的运行速度。

通俗地说,在台式机中,所说的超频,都是超CPU的外频(当然一般情况下,CPU的倍频都是被锁住的)相信这点是很好理解的。

但对于服务器CPU来讲,超频是绝对不允许的。

前面说到CPU决定着主板的运行速度,两者是同步运行的,如果把服务器CPU超频了,改变了外频,会产生异步运行,(台式机很多主板都支持异步运行)这样会造成整个服务器系统的不稳定。

目前的绝大部分电脑系统中外频与主板前端总线不是同步速度的,而外频与前端总线(FSB)频率又很容易被混为一谈,下面的前端总线介绍谈谈两者的区别。

前端总线(FSB)频率

前端总线(FSB)频率(即总线频率)是直接影响CPU与内存直接数据交换速度。

有一条公式可以计算,即数据带宽=(总线频率×数据位宽)/8,数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。

比方,现在的支持64位的至强Nocona,前端总线是800MHz,按照公式,它的数据传输最大带宽是6.4GB/秒。

外频与前端总线(FSB)频率的区别:前端总线的速度指的是数据传输的速度,外频是CPU与主板之间同步运行的速度。

也就是说,100MHz外频特指数字脉冲信号在每秒钟震荡一亿次;而100MHz前端总线指的是每秒钟CPU可接受的数据传输量是100MHz×64bit÷8bit/Byte=800MB/s。

其实现在“HyperTransport”构架的出现,让这种实际意义上的前端总线(FSB)频率发生了变化。

IA-32架构必须有三大重要的构件:内存控制器Hub (MCH) ,I/O控制器Hub和PCI Hub,像Intel很典型的芯片组 Intel 7501、Intel7505芯片组,为双至强处理器量身定做的,它们所包含的MCH为CPU提供了频率为533MHz的前端总线,配合DDR内存,前端总线带宽可达到4.3GB/秒。

但随着处理器性能不断提高同时给系统架构带来了很多问题。

而“HyperTransport”构架不但解决了问题,而且更有效地提高了总线带宽,比方AMD Opteron处理器,灵活的HyperTransport I/O总线体系结构让它整合了内存控制器,使处理器不通过系统总线传给芯片组而直接和内存交换数据。

这样的话,前端总线(FSB)频率在AMD Opteron处理器就不知道从何谈起了。

CPU的位和字长

位:在数字电路和电脑技术中采用二进制,代码只有“0”和“1”,其中无论是 “0”或是“1”在CPU中都是 一“位”。

字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。

所以能处理字长为8位数据的CPU通常就叫8位的CPU。

同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。

字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。

字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。

8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。

倍频系数

倍频系数是指CPU主频与外频之间的相对比例关系。

在相同的外频下,倍频越高CPU的频率也越高。

但实际上,在相同外频的前提下,高倍频的CPU本身意义并不大。

这是因为CPU与系统之间数据传输速度是有限的,一味追求高主频而得到高倍频的CPU就会出现明显的“瓶颈”效应-CPU从系统中得到数据的极限速度不能够满足CPU运算的速度。

一般除了工程样版的Intel的CPU都是锁了倍频的,少量的如Inter 酷睿2 核心的奔腾双核E6500K和一些至尊版的CPU不锁倍频,而AMD之前都没有锁,现在AMD推出了黑盒版CPU(即不锁倍频版本,用户可以自由调节倍频,调节倍频的超频方式比调节外频稳定得多)。

缓存

缓存大小也是CPU的重要指标之一,而且缓存的结构和大小对CPU速度的影响非常大,CPU内缓存的运行频率极高,一般是和处理器同频运作,工作效率远远大于系统内存和硬盘。

实际工作时,CPU往往需要重复读取同样的数据块,而缓存容量的增大,可以大幅度提升CPU内部读取数据的命中率,而不用再到内存或者硬盘上寻找,以此提高系统性能。

但是由于CPU芯片面积和成本的因素来考虑,缓存都很小。

L1 Cache(一级缓存)是CPU第一层高速缓存,分为数据缓存和指令缓存。

内置的L1高速缓存的容量和结构对CPU的性能影响较大,不过高速缓冲存储器均由静态RAM组成,结构较复杂,在CPU管芯面积不能太大的情况下,L1级高速缓存的容量不可能做得太大。

一般服务器CPU的L1缓存的容量通常在32-256KB。

L2 Cache(二级缓存)是CPU的第二层高速缓存,分内部和外部两种芯片。

内部的芯片二级缓存运行速度与主频相同,而外部的二级缓存则只有主频的一半。

L2高速缓存容量也会影响CPU的性能,原则是越大越好,以前家庭用CPU容量最大的是512KB,现在笔记本电脑中也可以达到2M,而服务器和工作站上用CPU的L2高速缓存更高,可以达到8M以上。

L3 Cache(三级缓存),分为两种,早期的是外置,现在的都是内置的。

而它的实际作用即是,L3缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。

降低内存延迟和提升大数据量计算能力对游戏都很有帮助。

而在服务器领域增加L3缓存在性能方面仍然有显著的提升。

比方具有较大L3缓存的配置利用物理内存会更有效,故它比较慢的磁盘I/O子系统可以处理更多的数据请求。

具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

其实最早的L3缓存被应用在AMD发布的K6-III处理器上,当时的L3缓存受限于制造工艺,并没有被集成进芯片内部,而是集成在主板上。

在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。

后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。

接着就是P4EE和至强MP。

Intel还打算推出一款9MB L3缓存的Itanium2处理器,和以后24MB L3缓存的双核心Itanium2处理器。

但基本上L3缓存对处理器的性能提高显得不是很重要,比方配备1MB L3缓存的Xeon MP处理器却仍然不是Opteron的对手,由此可见前端总线的增加,要比缓存增加带来更有效的性能提升。

CPU扩展指令集

CPU依靠指令来自计算和控制系统,每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。

指令的强弱也是CPU的重要指标,指令集是提高微处理器效率的最有效工具之一。

从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分(指令集共有四个种类),而从具体运用看,如Intel的MMX(Multi Media Extended,此为AMD猜测的全称,Intel并没有说明词源)、SSE、 SSE2(Streaming-Single instruction multiple target=_blank>

CPU内核和I/O工作电压

从586CPU开始,CPU的工作电压分为内核电压和I/O电压两种,通常CPU的核心电压小于等于I/O电压。

其中内核电压的大小是根据CPU的生产工艺而定,一般制作工艺越小,内核工作电压越低;I/O电压一般都在1.6~5V。

低电压能解决耗电过大和发热过高的问题。

制造工艺

制造工艺的微米是指IC内电路与电路之间的距离。

制造工艺的趋势是向密集度愈高的方向发展。

密度愈高的IC电路设计,意味着在同样大小面积的IC中,可以拥有密度更高、功能更复杂的电路设计。

现在主要的180nm、130nm、90nm、65nm、45纳米。

最近inter已经有32纳米的制造工艺的酷睿i3/i5系列了。

而AMD则表示、自己的产品将会直接跳过32nm工艺(2010年第三季度生产少许32nm产品、如Orochi、Llano)于2011年中期初发布28nm的产品(名称未定)

指令集

(1)CISC指令集

CISC指令集,也称为复杂指令集,英文名是CISC,(Complex Instruction Set Computer的缩写)。

在CISC微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的。

顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。

其实它是英特尔生产的x86系列(也就是IA-32架构)CPU及其兼容CPU,如AMD、VIA的。

即使是现在新起的X86-64(也被成AMD64)都是属于CISC的范畴。

要知道什么是指令集还要从当今的X86架构的CPU说起。

X86指令集是Intel为其第一块16位CPU(i8086)专门开发的,IBM1981年推出的世界第一台PC机中的CPU-i8088(i8086简化版)使用的也是X86指令,同时电脑中为提高浮点数据处理能力而增加了X87芯片,以后就将X86指令集和X87指令集统称为X86指令集。

虽然随着CPU技术的不断发展,Intel陆续研制出更新型的i、i直到过去的PII至强、PIII至强、Pentium 3,Pentium 4系列,最后到今天的酷睿2系列、至强(不包括至强Nocona),但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,所以Intel公司所生产的所有CPU仍然继续使用X86指令集,所以它的CPU仍属于X86系列。

由于Intel X86系列及其兼容CPU(如AMD Athlon MP、)都使用X86指令集,所以就形成了今天庞大的X86系列及兼容CPU阵容。

x86CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。

(2)RISC指令集

RISC是英文“Reduced Instruction Set Computing ” 的缩写,中文意思是“精简指令集”。

它是在CISC指令系统基础上发展起来的,有人对CISC机进行测试表明,各种指令的使用频度相当悬殊,最常使用的是一些比较简单的指令,它们仅占指令总数的20%,但在程序中出现的频度却占80%。

复杂的指令系统必然增加微处理器的复杂性,使处理器的研制时间长,成本高。

并且复杂指令需要复杂的操作,必然会降低计算机的速度。

基于上述原因,20世纪80年代RISC型CPU诞生了,相对于CISC型CPU ,RISC型CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,大大增加了并行处理能力。

RISC指令集是高性能CPU的发展方向。

它与传统的CISC(复杂指令集)相对。

相比而言,RISC的指令格式统一,种类比较少,寻址方式也比复杂指令集少。

当然处理速度就提高很多了。

目前在中高档服务器中普遍采用这一指令系统的CPU,特别是高档服务器全都采用RISC指令系统的CPU。

RISC指令系统更加适合高档服务器的操作系统UNIX,现在Linux也属于类似UNIX的操作系统。

RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。

目前,在中高档服务器中采用RISC指令的CPU主要有以下几类:PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器。

EPIC(Explicitly Parallel Instruction Computers,精确并行指令计算机)是否是RISC和CISC体系的继承者的争论已经有很多,单以EPIC体系来说,它更像Intel的处理器迈向RISC体系的重要步骤。

从理论上说,EPIC体系设计的CPU,在相同的主机配置下,处理Windows的应用软件比基于Unix下的应用软件要好得多。

Intel采用EPIC技术的服务器CPU是安腾Itanium(开发代号即Merced)。

它是64位处理器,也是IA-64系列中的第一款。

微软也已开发了代号为Win64的操作系统,在软件上加以支持。

在Intel采用了X86指令集之后,它又转而寻求更先进的64-bit微处理器,Intel这样做的原因是,它们想摆脱容量巨大的x86架构,从而引入精力充沛而又功能强大的指令集,于是采用EPIC指令集的IA-64架构便诞生了。

IA-64 在很多方面来说,都比x86有了长足的进步。

突破了传统IA32架构的许多限制,在数据的处理能力,系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高。

IA-64微处理器最大的缺陷是它们缺乏与x86的兼容,而Intel为了IA-64处理器能够更好地运行两个朝代的软件,它在IA-64处理器上(Itanium、Itanium2 ……)引入了x86-to-IA-64的解码器,这样就能够把x86指令翻译为IA-64指令。

这个解码器并不是最有效率的解码器,也不是运行x86代码的最好途径(最好的途径是直接在x86处理器上运行x86代码),因此Itanium 和Itanium2在运行x86应用程序时候的性能非常糟糕。

这也成为X86-64产生的根本原因。

(4)X86-64 (AMD64 / EM64T)

AMD公司设计,可以在同一时间内处理64位的整数运算,并兼容于X86-32架构。

其中支持64位逻辑定址,同时提供转换为32位定址选项;但数据操作指令默认为32位和8位,提供转换成64位和16位的选项;支持常规用途寄存器,如果是32位运算操作,就要将结果扩展成完整的64位。

这样,指令中有“直接执行”和“转换执行”的区别,其指令字段是8位或32位,可以避免字段过长。

x86-64(也叫AMD64)的产生也并非空穴来风,x86处理器的32bit寻址空间限制在4GB内存,而IA-64的处理器又不能兼容x86。

AMD充分考虑顾客的需求,加强x86指令集的功能,使这套指令集可同时支持64位的运算模式,因此AMD把它们的结构称之为x86-64。

在技术上AMD在x86-64架构中为了进行64位运算,AMD为其引入了新增了R8-R15通用寄存器作为原有X86处理器寄存器的扩充,但在而在32位环境下并不完全使用到这些寄存器。

原来的寄存器诸如EAX、EBX也由32位扩张至64位。

在SSE单元中新加入了8个新寄存器以提供对SSE2的支持。

寄存器数量的增加将带来性能的提升。

与此同时,为了同时支持32和64位代码及寄存器,x86-64架构允许处理器工作在以下两种模式:Long Mode(长模式)和Legacy Mode(遗传模式),Long模式又分为两种子模式(64bit模式和Compatibility mode兼容模式)。

该标准已经被引进在AMD服务器处理器中的Opteron处理器.

而今年也推出了支持64位的EM64T技术,再还没被正式命为EM64T之前是IA32E,这是英特尔64位扩展技术的名字,用来区别X86指令集。

Intel的EM64T支持64位sub-mode,和AMD的X86-64技术类似,采用64位的线性平面寻址,加入8个新的通用寄存器(GPRs),还增加8个寄存器支持SSE指令。

与AMD相类似,Intel的64位技术将兼容IA32和IA32E,只有在运行64位操作系统下的时候,才将会采用IA32E。

IA32E将由2个sub-mode组成:64位sub-mode和32位sub-mode,同AMD64一样是向下兼容的。

Intel的EM64T将完全兼容AMD的X86-64技术。

现在Nocona处理器已经加入了一些64位技术,Intel的Pentium 4E处理器也支持64位技术。

应该说,这两者都是兼容x86指令集的64位微处理器架构,但EM64T与AMD64还是有一些不一样的地方,AMD64处理器中的NX位在Intel的处理器中将没有提供。

超流水线与超标量

在解释超流水线与超标量前,先了解流水线(Pipeline)。

流水线是Intel首次在486芯片中开始使用的。

流水线的工作方式就象工业生产上的装配流水线。

在CPU中由5-6个不同功能的电路单元组成一条指令处理流水线,然后将一条X86指令分成5-6步后再由这些电路单元分别执行,这样就能实现在一个CPU时钟周期完成一条指令,因此提高CPU的运算速度。

经典奔腾每条整数流水线都分为四级流水,即指令预取、译码、执行、写回结果,浮点流水又分为八级流水。

超标量是通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。

而超流水线是通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。

例如Pentium 4的流水线就长达20级。

将流水线设计的步(级)越长,其完成一条指令的速度越快,因此才能适应工作主频更高的CPU。

但是流水线过长也带来了一定副作用,很可能会出现主频较高的CPU实际运算速度较低的现象,Intel的奔腾4就出现了这种情况,虽然它的主频可以高达1.4G以上,但其运算性能却远远比不上AMD 1.2G的速龙甚至奔腾III。

封装形式

CPU封装是采用特定的材料将CPU芯片或CPU模块固化在其中以防损坏的保护措施,一般必须在封装后CPU才能交付用户使用。

CPU的封装方式取决于CPU安装形式和器件集成设计,从大的分类来看通常采用Socket插座进行安装的CPU使用PGA(栅格阵列)方式封装,而采用Slot x槽安装的CPU则全部采用SEC(单边接插盒)的形式封装。

现在还有PLGA(Plastic Land Grid Array)、OLGA(Organic Land Grid Array)等封装技术。

由于市场竞争日益激烈,目前CPU封装技术的发展方向以节约成本为主。

多线程

同时多线程Simultaneous Multithreading,简称SMT。

SMT可通过复制处理器上的结构状态,让同一个处理器上的多个线程同步执行并共享处理器的执行资源,可最大限度地实现宽发射、乱序的超标量处理,提高处理器运算部件的利用率,缓和由于数据相关或Cache未命中带来的访问内存延时。

当没有多个线程可用时,SMT处理器几乎和传统的宽发射超标量处理器一样。

SMT最具吸引力的是只需小规模改变处理器核心的设计,几乎不用增加额外的成本就可以显著地提升效能。

多线程技术则可以为高速的运算核心准备更多的待处理数据,减少运算核心的闲置时间。

这对于桌面低端系统来说无疑十分具有吸引力。

Intel从3.06GHz Pentium 4开始,所有处理器都将支持SMT技术。

多核心

多核心,也指单芯片多处理器(Chip Multiprocessors,简称CMP)。

CMP是由美国斯坦福大学提出的,其思想是将大规模并行处理器中的SMP(对称多处理器)集成到同一芯片内,各个处理器并行执行不同的进程。

与CMP比较, SMT处理器结构的灵活性比较突出。

但是,当半导体工艺进入0.18微米以后,线延时已经超过了门延迟,要求微处理器的设计通过划分许多规模更小、局部性更好的基本单元结构来进行。

相比之下,由于CMP结构已经被划分成多个处理器核来设计,每个核都比较简单,有利于优化设计,因此更有发展前途。

目前,IBM 的Power 4芯片和Sun的 MAJC5200芯片都采用了CMP结构。

多核处理器可以在处理器内部共享缓存,提高缓存利用率,同时简化多处理器系统设计的复杂度。

2005年下半年,Intel和AMD的新型处理器也将融入CMP结构。

新安腾处理器开发代码为Montecito,采用双核心设计,拥有最少18MB片内缓存,采取90nm工艺制造,它的设计绝对称得上是对当今芯片业的挑战。

它的每个单独的核心都拥有独立的L1,L2和L3 cache,包含大约10亿支晶体管。

SMP(Symmetric Multi-Processing),对称多处理结构的简称,是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。

在这种技术的支持下,一个服务器系统可以同时运行多个处理器,并共享内存和其他的主机资源。

像双至强,也就是所说的二路,这是在对称处理器系统中最常见的一种(至强MP可以支持到四路,AMD Opteron可以支持1-8路)。

也有少数是16路的。

但是一般来讲,SMP结构的机器可扩展性较差,很难做到100个以上多处理器,常规的一般是8个到16个,不过这对于多数的用户来说已经够用了。

在高性能服务器和工作站级主板架构中最为常见,像UNIX服务器可支持最多256个CPU的系统。

构建一套SMP系统的必要条件是:支持SMP的硬件包括主板和CPU;支持SMP的系统平台,再就是支持SMP的应用软件。

为了能够使得SMP系统发挥高效的性能,操作系统必须支持SMP系统,如WINNT、LINUX、以及UNIX等等32位操作系统。

即能够进行多任务和多线程处理。

多任务是指操作系统能够在同一时间让不同的CPU完成不同的任务;多线程是指操作系统能够使得不同的CPU并行的完成同一个任务 。

要组建SMP系统,对所选的CPU有很高的要求,首先、CPU内部必须内置APIC(Advanced Programmable Interrupt Controllers)单元。

Intel 多处理规范的核心就是高级可编程中断控制器(Advanced Programmable Interrupt Controllers–APICs)的使用;再次,相同的产品型号,同样类型的CPU核心,完全相同的运行频率;最后,尽可能保持相同的产品序列编号,因为两个生产批次的CPU作为双处理器运行的时候,有可能会发生一颗CPU负担过高,而另一颗负担很少的情况,无法发挥最大性能,更糟糕的是可能导致死机。

NUMA技术

NUMA即非一致访问分布共享存储技术,它是由若干通过高速专用网络连接起来的独立节点构成的系统,各个节点可以是单个的CPU或是SMP系统。

在NUMA中,Cache 的一致性有多种解决方案,需要操作系统和特殊软件的支持。

图2中是Sequent公司NUMA系统的例子。

这里有3个SMP模块用高速专用网络联起来,组成一个节点,每个节点可以有12个CPU。

像Sequent的系统最多可以达到64个CPU甚至256个CPU。

显然,这是在SMP的基础上,再用NUMA的技术加以扩展,是这两种技术的结合。

乱序执行技术

乱序执行(out-of-orderexecution),是指CPU允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。

这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后,将能提前执行的指令立即发送给相应电路单元执行,在这期间不按规定顺序执行指令,然后由重新排列单元将各执行单元结果按指令顺序重新排列。

采用乱序执行技术的目的是为了使CPU内部电路满负荷运转并相应提高了CPU的运行程序的速度。

分枝技术:(branch)指令进行运算时需要等待结果,一般无条件分枝只需要按指令顺序执行,而条件分枝必须根据处理后的结果,再决定是否按原先顺序进行。

CPU内部的内存控制器

许多应用程序拥有更为复杂的读取模式(几乎是随机地,特别是当cache hit不可预测的时候),并且没有有效地利用带宽。

典型的这类应用程序就是业务处理软件,即使拥有如乱序执行(out of order execution)这样的CPU特性,也会受内存延迟的限制。

这样CPU必须得等到运算所需数据被除数装载完成才能执行指令(无论这些数据来自CPU cache还是主内存系统)。

当前低段系统的内存延迟大约是120-150ns,而CPU速度则达到了3GHz以上,一次单独的内存请求可能会浪费200-300次CPU循环。

即使在缓存命中率(cache hit rate)达到99%的情况下,CPU也可能会花50%的时间来等待内存请求的结束- 比如因为内存延迟的缘故。

你可以看到Opteron整合的内存控制器,它的延迟,与芯片组支持双通道DDR内存控制器的延迟相比来说,是要低很多的。

英特尔也按照计划的那样在处理器内部整合内存控制器,这样导致北桥芯片将变得不那么重要。

但改变了处理器访问主存的方式,有助于提高带宽、降低内存延时和提升处理器性

未经允许不得转载:虎跃云 » 服务器 CPU 数量的优化技巧:最大化性能并量的未来:预测即将到来的变化和最佳数量 (服务器cpu和普通cpu的区别)
分享到
0
上一篇
下一篇

相关推荐

联系我们

huhuidc

复制已复制
262730666复制已复制
13943842618复制已复制
262730666@qq.com复制已复制
0438-7280666复制已复制
微信公众号
huyueidc_com复制已复制
关注官方微信,了解最新资讯
客服微信
huhuidc复制已复制
商务号,添加请说明来意
contact-img
客服QQ
262730666复制已复制
商务号,添加请说明来意
在线咨询
13943842618复制已复制
工作时间:8:30-12:00;13:30-18:00
客服邮箱
服务热线
0438-7280666复制已复制
24小时服务热线