在当今数据驱动的世界中,服务器是企业运营不可或缺的一部分。服务器也是电力消耗的主要来源,了解和优化其功率消耗对于提高能源效率至关重要。
服务器功率监控的重要性
服务器功率监控对于优化能源效率和降低运营成本至关重要。它可以通过以下方式实现:
- 识别和消除电力浪费。
- 优化服务器利用率,从而减少服务器数量。
- 预测未来电力需求,以便做出明智的投资决策。
服务器功率监控最佳实践
实施全面的服务器功率监控计划涉及以下最佳实践:
1. 建立基准
建立服务器功率消耗的基准是监控和优化过程的关键第一步。这可以通过使用功率计或服务器管理软件来完成启用休眠模式、CPU节能和自动关机。
7. 持续监控和分析
服务器功率监控是一个持续的过程,需要持续的监控和分析。通过定期查看功率消耗数据,可以识别效率低下并调整优化措施。
服务器功率测试
服务器功率测试是评估服务器功率消耗和验证优化措施有效性的关键步骤。功率测试应在各种工作负载和条件下进行,以获得准确的结果。
功率测试方法
服务器功率测试可以使用以下方法进行:
- 使用功率计测量服务器的实时功率消耗。
- 使用服务器管理工具记录服务器的功耗历史数据。
- 进行基准测试以比较不同服务器配置或优化措施的影响。
功率测试结果分析
服务器功率测试结果应仔细分析以识别改进领域。分析应包括以下步骤:
- 确定高耗电服务器或工作负载。
- 比较基准测试结果和优化后的结果,以评估影响。
- 根据测试结果调整优化措施。
结论
通过实施服务器功率监控最佳实践和进行功率测试,企业可以提高服务器能源效率,降低运营成本,并为更可持续的未来做出贡献。持续的监控、分析和优化对于确保服务器功率消耗处于最低水平至关重要。
IDC数据中心是什么?数据中心专业术语你知多少?
1. IDC(Internet Data Center)数据中心是什么? 数据中心是提供大规模、高质量、安全可靠的互联网服务的设施,为企业、媒体、网站等提供服务器托管、网站空间租用、带宽批发等服务。
2. 数据中心的专业术语有哪些? – 数据中心(Data Center):集中管理和处理组织数据的地方。
– 主机房(Hosting Room):放置服务器的专用房间,对环境有严格的要求。
– 辅助区(Support Area):为数据中心提供辅助服务的区域。
– 支持区(Service Area):为数据中心运行提供必要支持的区域。
– 行政管理区(Administrative Area):进行数据中心管理的区域。
– 冗余(Redundancy):通过备份系统或设备来减少故障影响。
– N基本需求、N+X冗余:描述数据中心电力供应的可靠性级别。
– 容错(Fault Tolerance):系统或设备在面对故障时仍能正常运行的能力。
– 相对湿度(Relative Humidity):空气中水蒸气的含量与饱和含量的百分比。
– 焓(Enthalpy):物质的热能与压力结合的量度。
– 加湿量(Humidification):增加空气中水蒸气含量的过程。
– 能效比(Energy Efficiency Ratio):空调设备制冷量与消耗功率的比值。
– 性能系数(Coefficient of Performance, COP):空调设备效率的度量。
– 全年能效比(Annual Energy Efficiency Ratio):空调设备全年运行的平均能效比。
– 制冷量(Cooling Capacity):空调设备制冷能力的大小。
– 显热制冷量(Latent Cooling):空调设备除去空气中水蒸气的制冷量。
– 制冷消耗功率(Cooling Power Consumption):空调设备制冷时的能量消耗。
– 显热比(Latent Ratio):制冷量与显热制冷量的比值。
– 送风量(Air Supply Volume):空调系统向室内送风的量。
– 冷风比(Cooling to Air Ratio):制冷量与送风量的比值。
– 机外静压(Outdoor Static Pressure):空调设备运行时外部的静压。
– 机房专用空调(Data Center Specific Air Conditioning):为数据中心设计的空调系统。
– 能量使用效率(Energy Usage Efficiency, PUE):数据中心能源使用效率的度量。
– 热通道/冷通道(Hot/Cold Aisle):数据中心内热气流和冷气流分离的通道。
– 运营成本(Operational Cost):数据中心运行和维护的成本。
– 服务级别管理(Service Level Management):确保服务提供商满足客户需求的流程。
– 信息系统(Information Systems):组织中用于收集、存储、处理和分发信息的系统。
– 数据中心标准等级(Data Center Standard Levels):数据中心设计和运行的标准化等级。
– 信息技术基础架构库(Information Technology Infrastructure Library, ITIL):提供IT服务管理的最佳实践。
– 内容加速平台(Content Acceleration Platform):加快内容传输速度的系统。
– 内容分发网络(Content Delivery Network, CDN):分布式的网络服务,用于加速内容的分发。
如何提高数据中心的效率?
(1)优化IT功率由于IT系统最终需要供电,数据中心管理人员需要尝试降低所需IT设备的功率(称为负载有功功率)。
60%的有效负载功率由服务器消耗,因此采取以下行动降低所需的能耗至关重要:•清理工作负载,并消除一切不必要的负载。
•合并虚拟机。
•虚拟化更多的工作负载。
•继续关闭那些供电但不起作用的服务器。
•用较新的服务器替换旧服务器。
(2)优化数据中心空间在服务器虚拟化出现之前所构建的数据中心可能被过度构建,以满足当时的设备需求,因此如今可以进一步减少IT设备所需的空间和更少的IT功率。
在构建新的数据中心时,将数据中心分解为单个模块的模块化设计是值得考虑的,这些模块可以作为更灵活有机的数据中心设计的一部分,并且不断更新升级。
(3)优化数据中心冷却为了实现最低的能耗,数据中心管理人员应确保采用基本的数据中心冷却最佳实践:•安装节能器-节能器在寒冷地区可显著降低PUE。
例如,在北美的大部分地区,40%至90%的冷却可以通过能器节使用从外部进来的空气。
•包含设备和热量-隔离结构可容纳数据中心设备产生的最多热量,将热量从数据中心散发出去,或加热建筑物的其他部分空间。
•优化空调系统-优化空调系统有两种主要方式,一是使用替代的冷却源(例如空气优化器)定期关闭空调系统,二是或者持续改变电源频率,这有助于减少总的能量消耗。
(4)提高数据中心电源和冷却的效率过时的电力输送系统,包括不间断电源(UPS),配电单元(PDU)和变压器,可能对PUE值产生负面影响。
因此,可以评估当前状况,未来需求和现代替代方案。
虽然这需要一定的时间和投资,但通常在PUE值改进方面和节省成本方面会带来良好的回报。
(5)利用DCIM工具可以通过使用数据中心基础设施管理(DCIM)软件实现对能源效率的进一步改进。
DCIM软件在物理IT设备的操作需求和物理设施(建筑物和环境控制)之间提供必要的联系。
如何打造高性能大数据分析平台
大数据分析系统作为一个关键性的系统在各个公司迅速崛起。
但是这种海量规模的数据带来了前所未有的性能挑战。
同时,如果大数据分析系统无法在第一时间为运营决策提供关键数据,那么这样的大数据分析系统一文不值。
本文将从技术无关的角度讨论一些提高性能的方法。
下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍)。
本文应作为一个通用准则,以确保最终的大数据分析平台能满足性能要求。
1. 大数据是什么?大数据是最近IT界最常用的术语之一。
然而对大数据的定义也不尽相同,所有已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。
大数据系统通常被认为具有数据的五个主要特征,通常称为数据的5 Vs。
分别是大规模,多样性,高效性、准确性和价值性。
互联网是个神奇的大网,大数据开发和软件定制也是一种模式,这里提供最详细的报价,如果真的想做,可以来这里,这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,想说的是,除非想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。
据Gartner称,大规模可以被定义为“在本(地)机数据采集和处理技术能力不足以为用户带来商业价值。
当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案。
这种大规模的数据没将不仅仅是来自于现有的数据源,同时也会来自于一些新兴的数据源,例如常规(手持、工业)设备,日志,汽车等,当然包括结构化的和非结构化的数据。
据Gartner称,多样性可以定义如下:“高度变异的信息资产,在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。
同时还包括以前的历史数据,由于技术的变革历史数据同样也成为多样性数据之一 “。
高效性可以被定义为来自不同源的数据到达的速度。
从各种设备,传感器和其他有组织和无组织的数据流都在不断进入IT系统。
由此,实时分析和对于该数据的解释(展示)的能力也应该随之增加。
根据Gartner,高效性可以被定义如下:“高速的数据流I/O(生产和消费),但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上”。
准确性,或真实性或叫做精度是数据的另一个重要组成方面。
要做出正确的商业决策,当务之急是在数据上进行的所有分析必须是正确和准确(精确)的。
大数据系统可以提供巨大的商业价值。
像电信,金融,电子商务,社交媒体等,已经认识到他们的数据是一个潜在的巨大的商机。
他们可以预测用户行为,并推荐相关产品,提供危险交易预警服务,等等。
与其他IT系统一样,性能是大数据系统获得成功的关键。
本文的中心主旨是要说明如何让大数据系统保证其性能。
2. 大数据系统应包含的功能模块 大数据系统应该包含的功能模块,首先是能够从多种数据源获取数据的功能,数据的预处理(例如,清洗,验证等),存储数据,数据处理、数据分析等(例如做预测分析??,生成在线使用建议等等),最后呈现和可视化的总结、汇总结果。
下图描述了大数据系统的这些高层次的组件 描述本节的其余部分简要说明了每个组分,如图1。
2.1 各种各样的数据源当今的IT生态系统,需要对各种不同种类来源的数据进行分析。
这些来源可能是从在线Web应用程序,批量上传或feed,流媒体直播数据,来自工业、手持、家居传感的任何东西等等。
显然从不同数据源获取的数据具有不同的格式、使用不同的协议。
例如,在线的Web应用程序可能会使用SOAP / XML格式通过HTTP发送数据,feed可能会来自于CSV文件,其他设备则可能使用MQTT通信协议。
由于这些单独的系统的性能是不在大数据系统的控制范围之内,并且通常这些系统都是外部应用程序,由第三方供应商或团队提供并维护,所以本文将不会在深入到这些系统的性能分析中去。
2.2 数据采集第一步,获取数据。
这个过程包括分析,验证,清洗,转换,去重,然后存到适合你们公司的一个持久化设备中(硬盘、存储、云等)。
在下面的章节中,本文将重点介绍一些关于如何获取数据方面的非常重要的技巧。
请注意,本文将不讨论各种数据采集技术的优缺点。
2.3 存储数据第二步,一旦数据进入大数据系统,清洗,并转化为所需格式时,这些过程都将在数据存储到一个合适的持久化层中进行。
在下面的章节中,本文将介绍一些存储方面的最佳实践(包括逻辑上和物理上)。
在本文结尾也会讨论一部分涉及数据安全方面的问题。
2.4 数据处理和分析第三步,在这一阶段中的一部分干净数据是去规范化的,包括对一些相关的数据集的数据进行一些排序,在规定的时间间隔内进行数据结果归集,执行机器学习算法,预测分析等。
在下面的章节中,本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。
2.5 数据的可视化和数据展示最后一个步骤,展示经过各个不同分析算法处理过的数据结果。
该步骤包括从预先计算汇总的结果(或其他类似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展示出来。
这样便于对于数据分析结果的理解。
3. 数据采集中的性能技巧 数据采集是各种来自不同数据源的数据进入大数据系统的第一步。
这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。
数据采集??过程基于对该系统的个性化需求,但一些常用执行的步骤是 – 解析传入数据,做必要的验证,数据清晰,例如数据去重,转换格式,并将其存储到某种持久层。
涉及数据采集过程的逻辑步骤示如下图所示:下面是一些性能方面的技巧:来自不同数据源的传输应该是异步的。
可以使用文件来传输、或者使用面向消息的(MoM)中间件来实现。
由于数据异步传输,所以数据采集过程的吞吐量可以大大高于大数据系统的处理能力。
异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。
大数据基础架构设计使得其很容易进行动态伸缩,数据采集的峰值流量对于大数据系统来说算是安全的。
如果数据是直接从一些外部数据库中抽取的,确保拉取数据是使用批量的方式。
如果数据是从feed file解析,请务必使用合适的解析器。
例如,如果从一个XML文件中读取也有不同的解析器像JDOM,SAX,DOM等。
类似地,对于CSV,JSON和其它这样的格式,多个解析器和API是可供选择。
选择能够符合需求的性能最好的。
优先使用内置的验证解决方案。
大多数解析/验证工作流程的通常运行在服务器环境(ESB /应用服务器)中。
大部分的场景基本上都有现成的标准校验工具。
在大多数的情况下,这些标准的现成的工具一般来说要比你自己开发的工具性能要好很多。
类似地,如果数据XML格式的,优先使用XML(XSD)用于验证。
即使解析器或者校等流程使用自定义的脚本来完成,例如使用java优先还是应该使用内置的函数库或者开发框架。
在大多数的情况下通常会比你开发任何自定义代码快得多。
尽量提前滤掉无效数据,以便后续的处理流程都不用在无效数据上浪费过多的计算能力。
大多数系统处理无效数据的做法通常是存放在一个专门的表中,请在系统建设之初考虑这部分的数据库存储和其他额外的存储开销。
如果来自数据源的数据需要清洗,例如去掉一些不需要的信息,尽量保持所有数据源的抽取程序版本一致,确保一次处理的是一个大批量的数据,而不是一条记录一条记录的来处理。
一般来说数据清洗需要进行表关联。
数据清洗中需要用到的静态数据关联一次,并且一次处理一个很大的批量就能够大幅提高数据处理效率。
数据去重非常重要这个过程决定了主键的是由哪些字段构成。
通常主键都是时间戳或者id等可以追加的类型。
一般情况下,每条记录都可能根据主键进行索引来更新,所以最好能够让主键简单一些,以保证在更新的时候检索的性能。
来自多个源接收的数据可以是不同的格式。
有时,需要进行数据移植,使接收到的数据从多种格式转化成一种或一组标准格式。
和解析过程一样,我们建议使用内置的工具,相比于你自己从零开发的工具性能会提高很多。
数据移植的过程一般是数据处理过程中最复杂、最紧急、消耗资源最多的一步。
因此,确保在这一过程中尽可能多的使用并行计算。
一旦所有的数据采集的上述活动完成后,转换后的数据通常存储在某些持久层,以便以后分析处理,综述,聚合等使用。
多种技术解决方案的存在是为了处理这种持久(RDBMS,NoSQL的分布式文件系统,如Hadoop和等)。
谨慎选择一个能够最大限度的满足需求的解决方案。
4. 数据存储中的性能技巧 一旦所有的数据采集步骤完成后,数据将进入持久层。
在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。
这些技巧适用于所有的数据处理过程,无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。
首先选择数据范式。
您对数据的建模方式对性能有直接的影响,例如像数据冗余,磁盘存储容量等方面。
对于一些简单的文件导入数据库中的场景,你也许需要保持数据原始的格式,对于另外一些场景,如执行一些分析计算聚集等,你可能不需要将数据范式化。
大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。
不同的NoSQL数据库适用不同的场景,一部分在select时性能更好,有些是在插入或者更新性能更好。
数据库分为行存储和列存储。
具体的数据库选型依赖于你的具体需求(例如,你的应用程序的数据库读写比)。
同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性?这些设置会直接影响数据库性能。
在数据库技术选型前一定要注意。
压缩率、缓冲池、超时的大小,和缓存的对于不同的NoSQL数据库来说配置都是不同的,同时对数据库性能的影响也是不一样的。
数据Sharding和分区是这些数据库的另一个非常重要的功能。
数据Sharding的方式能够对系统的性能产生巨大的影响,所以在数据Sharding和分区时请谨慎选择。
并非所有的NoSQL数据库都内置了支持连接,排序,汇总,过滤器,索引等。
如果有需要还是建议使用内置的类似功能,因为自己开发的还是不灵。
NoSQLs内置了压缩、编解码器和数据移植工具。
如果这些可以满足您的部分需求,那么优先选择使用这些内置的功能。
这些工具可以执行各种各样的任务,如格式转换、压缩数据等,使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。
许多NoSQL数据库支持多种类型的文件系统。
其中包括本地文件系统,分布式文件系统,甚至基于云的存储解决方案。
如果在交互式需求上有严格的要求,否则还是尽量尝试使用NoSQL本地(内置)文件系统(例如HBase 使用HDFS)。
这是因为,如果使用一些外部文件系统/格式,则需要对数据进行相应的编解码/数据移植。
它将在整个读/写过程中增加原本不必要的冗余处理。
大数据系统的数据模型一般来说需要根据需求用例来综合设计。
与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型,用外键和表之间的关系用来描述数据实体与现实世界之间的交互。
在硬件一级,本地RAID模式也许不太适用。
请考虑使用SAN存储。
5. 数据处理分析中的性能技巧 数据处理和分析是一个大数据系统的核心。
像聚合,预测,聚集,和其它这样的逻辑操作都需要在这一步完成。
本节讨论一些数据处理性能方面的技巧。
需要注意的是大数据系统架构有两个组成部分,实时数据流处理和批量数据处理。
本节涵盖数据处理的各个方面。
在细节评估和数据格式和模型后选择适当的数据处理框架。
其中一些框架适用于批量数据处理,而另外一些适用于实时数据处理。
同样一些框架使用内存模式,另外一些是基于磁盘io处理模式。
有些框架擅长高度并行计算,这样能够大大提高数据效率。
基于内存的框架性能明显优于基于磁盘io的框架,但是同时成本也可想而知。
概括地说,当务之急是选择一个能够满足需求的框架。
否则就有可能既无法满足功能需求也无法满足非功能需求,当然也包括性能需求。
一些这些框架将数据划分成较小的块。
这些小数据块由各个作业独立处理。
协调器管理所有这些独立的子作业?在数据分块是需要当心。
该数据快越小,就会产生越多的作业,这样就会增加系统初始化作业和清理作业的负担。
如果数据快太大,数据传输可能需要很长时间才能完成。
这也可能导致资源利用不均衡,长时间在一台服务器上运行一个大作业,而其他服务器就会等待。
不要忘了查看一个任务的作业总数。
在必要时调整这个参数。
最好实时监控数据块的传输。
在本机机型io的效率会更高,这么做也会带来一个副作用就是需要将数据块的冗余参数提高(一般hadoop默认是3份)这样又会反作用使得系统性能下降。
此外,实时数据流需要与批量数据处理的结果进行合并。
设计系统时尽量减少对其他作业的影响。
大多数情况下同一数据集需要经过多次计算。
这种情况可能是由于数据抓取等初始步骤就有报错,或者某些业务流程发生变化,值得一提的是旧数据也是如此。
设计系统时需要注意这个地方的容错。
这意味着你可能需要存储原始数据的时间较长,因此需要更多的存储。
数据结果输出后应该保存成用户期望看到的格式。
例如,如果最终的结果是用户要求按照每周的时间序列汇总输出,那么你就要将结果以周为单位进行汇总保存。
为了达到这个目标,大数据系统的数据库建模就要在满足用例的前提下进行。
例如,大数据系统经常会输出一些结构化的数据表,这样在展示输出上就有很大的优势。
更常见的是,这可能会这将会让用户感觉到性能问题。
例如用户只需要上周的数据汇总结果,如果在数据规模较大的时候按照每周来汇总数据,这样就会大大降低数据处理能力。
一些框架提供了大数据查询懒评价功能。
在数据没有在其他地方被使用时效果不错。
实时监控系统的性能,这样能够帮助你预估作业的完成时间。
6. 数据可视化和展示中的性能技巧 精心设计的高性能大数据系统通过对数据的深入分析,能够提供有价值战略指导。
这就是可视化的用武之地。
良好的可视化帮助用户获取数据的多维度透视视图。
需要注意的是传统的BI和报告工具,或用于构建自定义报表系统无法大规模扩展满足大数据系统的可视化需求。
同时,许多COTS可视化工具现已上市。
本文将不会对这些个别工具如何进行调节,而是聚焦在一些通用的技术,帮助您能打造可视化层。
确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。
这些总结表可以根据时间短进行汇总,建议使用分类或者用例进行汇总。
这么做可以避免直接从可视化层读取整个原始数据。
这不仅最大限度地减少数据传输,而且当用户在线查看在报告时还有助于避免性能卡顿问题。
重分利用大化可视化工具的缓存。
缓存可以对可视化层的整体性能产生非常不错的影响。
物化视图是可以提高性能的另一个重要的技术。
大部分可视化工具允许通过增加线程数来提高请求响应的速度。
如果资源足够、访问量较大那么这是提高系统性能的好办法。
尽量提前将数据进行预处理,如果一些数据必须在运行时计算请将运行时计算简化到最小。
可视化工具可以按照各种各样的展示方法对应不同的读取策略。
其中一些是离线模式、提取模式或者在线连接模式。
每种服务模式都是针对不同场景设计的。
同样,一些工具可以进行增量数据同步。
这最大限度地减少了数据传输,并将整个可视化过程固化下来。
保持像图形,图表等使用最小的尺寸。
大多数可视化框架和工具的使用可缩放矢量图形(SVG)。
使用SVG复杂的布局可能会产生严重的性能影响。
7. 数据安全以及对于性能的影响 像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。
在本节中,我们讨论一下安全对大数据平台性能的影响。
– 首先确保所有的数据源都是经过认证的。
即使所有的数据源都是安全的,并且没有针对安全方面的需求,那么你可以灵活设计一个安全模块来配置实现。
– 数据进过一次认证,那么就不要进行二次认证。
如果实在需要进行二次认证,那么使用一些类似于token的技术保存下来以便后续继续使用。
这将节省数据一遍遍认证的开销。
– 您可能需要支持其他的认证方式,例如基于PKI解决方案或Kerberos。
每一个都有不同的性能指标,在最终方案确定前需要将其考虑进去。
– 通常情况下数据压缩后进入大数据处理系统。
这么做好处非常明显不细说。
– 针对不同算法的效率、对cpu的使用量你需要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。
– 同样,评估加密逻辑和算法,然后再选择。
– 明智的做法是敏感信息始终进行限制。
– 在审计跟踪表或登录时您可能需要维护记录或类似的访问,更新等不同的活动记录。
这可能需要根据不同的监管策略和用户需求个性化的进行设计和修改。
– 注意,这种需求不仅增加了数据处理的复杂度,但会增加存储成本。
– 尽量使用下层提供的安全技术,例如操作系统、数据库等。
这些安全解决方案会比你自己设计开发性能要好很多。
8. 总结 本文介绍了各种性能方面的技巧,这些技术性的知道可以作为打造大数据分析平台的一般准则。
大数据分析平台非常复杂,为了满足这种类型系统的性能需求,需要我们从开始建设的时候进行考量。
本文介绍的技术准则可以用在大数据平台建设的各个不同阶段,包括安全如何影响大数据分析平台的性能。