金沙澳门官网网址_金沙国际登陆

欢迎加入金沙澳门官网网址体验更多不一样的精彩.,金沙国际登陆提供最丰厚回馈!,因为金沙澳门官网网址这里的游戏是多种多样的,为大家打造一个最专业的化的超级五星酒店。

金沙澳门官网网址 > 服务器运维 > 运维人该如何觉醒,数据中心资产管理方法解读

原标题:运维人该如何觉醒,数据中心资产管理方法解读

浏览次数:182 时间:2019-10-08

从携程到知乎,运维人该如何觉醒?

最近互联网也是非常有意思,接二连三的发生故障,让我们一起先回顾一下。

2015年5月11号晚上21点左右开始,网易的网易新闻、云音乐、易信、有道云笔记等移动应用均无法正常刷新,网易名下的游戏也全线瘫痪。故障原因:骨干网络遭受攻击。

2015年5月27日下午,部分用户反映其支付宝出现网络故障,账号无法登录或支付。故障原因:光纤挖断。影响时长:4个小时

2015年5月28日上午11:09,携程官网及APP出现故障无法打开,到28日23:29全面恢复,整个过程耗费12个多小时。故障原因:误操作。影响时长:12个小时左右

2015年6月5日 今日头条网首页和APP都无法访问,直接提示500错误。故障原因:不明 影响时长:30分钟左右。

2015年6月15日12点30分 知乎网无法打开,直接提示服务器提出了一个问题】错误,在13点45分左右的时候,知乎页面恢复正常。故障原因:机房故障 影响时长:60分钟左右

 金沙国际登陆 1

到底是怎么了,是什么让我们的互联网业务如此脆弱?真的是运营商老是在后面干坏事?还是我们的系统架构不给力?还是我们运维能力真的很弱?如果广义的去看这个,我还会把它归结成运维问题。不过对于以上的故障,从运维的角度来说,我依然会说官方结论不够专业,希望内部不是这样的哈。

1、网易说骨干网收到网络攻击影响业务,貌似那天好像也就网易业务受到影响?

2、光纤挖断影响四个小时,从这么核心的业务来说,第一原则一定是恢复业务,我想支付宝即使没做双活,肯定也会有一个可用的备份中心,为什么没切过去了?一定是内部出了乱子。不过阿里流弊的地方,负面的事情他可以变成正面,他们把"5.27"变成了技术保障日,大肆宣传。

3、携程事件,我之前写过一篇文章携程事件:运维债务的深度分析和解决方案】,不详谈了。

4、今日头条,500内部错误,这条新闻可以让自己上头条,但也没有正式的给出解释。从500错误的恢复时间来说,有点长,500错误是十分好定位,我的怀疑是数据库的压力不够,导致后面的扩容变更,也只有数据库分库分表扩容时间需要这么长了。另外头条君的首页上直接给个500的错误,技术表述,十分的不友好,建议你服务降级啊,推个大众版的新闻,不做个性化推荐,这个可以做一个缓存就可以解决的。

5、知乎故障,直接说是机房故障,太简单了,但我觉得最大的可能应该是Tengine后端服务超时导致的,而非简单的一个机房故障引起。

在每一次故障发生的时候,其实都是伤害了我们的用户,内部的表述就是可用性或者质量。因此我们必须要足够的重视,更需要我们把它变成宝贵的经验。那到底什么是可用性和可靠性?影响可用性的因素有哪些?运维如何提高可用性?等等。

一、什么是可用性和可靠性

可靠性是在给定的时间间隔和给定条件下,系统能正确执行其功能的概率。可用性是指系统在执行任务的任意时刻能正常工作的概率。先来看一些指标定义:

  1. MTBF——全称是Mean Time Between Failure,即平均无故障工作时间。就是从新的产品在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTBF越长表示可靠性越高正确工作能力越强 。

  2. MTTR——全称是Mean Time To Repair,即平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易恢复性越好。

  3. MTTF——全称是Mean Time To Failure,即平均失效时间。系统平均能够正常运行多长时间,才发生一次故障。系统的可靠性越高,平均无故障时间越长。

可用性Availability = MTBF / (MTBF + MTTR),一般我们都是用N个9来表达系统可用性,用宕机时长来说更好理解,如果以全年为周期(24*365=8760个小时),3个9(99.9%)就意味着全年宕机时长是525.6分钟,4个9(99.99%)是52.6分钟,5个9(99.999%)是5分钟。

从这些时间指标上可以反向去推导IT能力不足的地方,比如说一个故障恢复时间很长,一定是自动恢复、运维意识、处理过程、系统架构等地方不对,导致了这个宕机时间过长;平均失效时间短,一定是系统的可靠性出了问题,找技术设计的问题,找依赖的硬件环境问题等等

二、影响可用性的因素

影响可用性的因素非常的多,但是可以从几个维度去看,人与组织、流程、技术和业务管理等四个维度。

1、人与组织

其实这个地方可以谈谈你的人和组织类型了,领导是否重视IT?是否重视运维?组织是否已经认识IT带来的价值,把IT当作自己的一个核心能力来看待?是否把面向用户的业务能力和IT能力很好的对接?是否建立起用户质量的组织文化?等等。

2、流程

流程是梳理多个角色自己的关系和职责。我们第一个要去看这个流程在面对故障的是否起到了积极的作用,比如说能够确保故障信息的准确送达,同时保证处理人的角色和职责是清晰的。其次不断去检查流程是否可以自动化驱动,而非人为驱动。人是不可靠之源!我们最终希望形成是一个自动化、标准化的流程,这样的流程不容易被异化,且能保证预期执行结果一致。

3、技术

很多时候大家看到的技术是运维技术,其实恰恰相反对于互联网业务来说,对其高可用的影响,必然是业务IT技术架构,因此在其中需要遵循很多原则,有一些原则需要有普适的参考价值。比如说服务降级、灰度发布、过载保护、服务公共化等等。这些方法论是否已经融入到研发和运维的架构设计哲学之中?现实是产品功能需求优先,而非可运维性优先,可运维性最终就是业务的质量。

4、业务管理

把你的IT能力最终都业务能力看板化,你可以转换成我们多个业务指标,比如说质量、可用性、用户体验、用户满意度、成本等等,有了这些业务导向性指标,才能把IT能力和业务更好的对接起来。否则很容易在组织内,形成“IT是支撑部门”认识,而非创造价值部门。这一点还有一个重要性,就是让IT部门也要足够的认识到,他们的能力直接和业务相关,需要增强业务敏感度。

三、如何提高系统的可用性

刚刚上面讲到了影响可用性的因素,分成了四个方面,但我想提高系统的可用性从另外一个角度来描述,能把握一些核心准则(其实还有更多)。

1、故障发生前,建立运维质量仪表盘

我们一定要建立运维数据看板,这个看板的数据并且要在业务、研发、测试和运维达成一致,让大家足够重视这份数据,这样数据便有了推动力。建议这个地方的核心数据指标不要太多,因为涉及到多个团队,大家不能够一致理解,特别是传达到管理层,太多的指标,容易失去关注的焦点。

通行的做法,就是用可用性来做运维的数据看板。可用性的计算方法有简单的方法,也有复杂的方法。简单的方法就是在监控系统中搞一些探针来模拟用户监控,最后我们能得出故障的时长和可用性的时间,这样我们可以建立每天、每周、每月、每Q的可用性,可以做到分业务、分服务(更细粒度)等等;复杂的方法在模拟数据的基础上,可以把事件系统记录的时间数据拿过来作为评估的标准。另外可以把可用性上升到质量层面,这个里面涉及到的评估维度(成本、用户体验、满意度)就更多了,数据获取的来源也变得更多,有些是来自于客服系统,有些是来自于舆情监控,有些是来自于运维容量系统,有些是来自于事件系统等等,不过最终呈现的指标就是一个---质量。

运维的数据看板,最好能变成产研侧KPI的一部分,同时在运维和研发侧,需要周期性的把这份数据推送到他们面前。有了KPI,同时有了持续滚动机制,一定能建立起很好的业务质量意识。

一直觉得,数据文化,是运维能够建立影响力的重要一步,否则你就是一个支撑的支撑部门!

2、故障发生前,设定技术准则和要求

运维需要和研发建立整体的技术标准和规范要求,这块是腾讯做得非常好的地方,把海量服务提炼成多个关键词海量服务运营之道】,网上可以搜索到。当然这些关键词对于很多企业来说,想理解准确,也会非常的困难。因此从运维的角度来说,我们需要设定一个路线图,最终服务于这个技术目标。比如说之前我提到的运维三部曲】里面讲到了先做标准化(修炼运维内功),然后做公共服务化(修炼架构内功)、最终服务无状态化(修炼业务内功)。

运维一定要把标准化作为核心要务来推进,建立标准化的运维环境,建立标准化的技术栈(和研发确定),建立标准化的高可用方法论,最终这个业务的可用性一定是有保证的。

3、故障发生时,恢复是第一要务

故障发生的时候,“恢复、恢复、恢复”必须是运维人脑子里面要时刻记住的。

金沙国际登陆 ,在故障的当下,定位故障原因是大忌,这往往让故障时长变得不可控,因为会直接影响MTTR(平均修复时间),影响用户的业务使用。不过有人会有疑问,不知道故障原因怎么知道如何解决?从经验来看,你一定有一些简单粗暴的原则去隔离故障,比如说服务器重启,链路禁用,DNS切换等等。

4、故障发生后,仔细的复盘

每一次故障发生后,运维人需要牵头去复盘故障,刚刚说了我们恢复是第一要务,所以故障的根本原因我们可能还不知道,此时就需要运维、测试和研发一起仔细的去看整个的故障过程,看看到底哪儿有什么问题?基本上也是从刚才说的四个方面来评估。不断的审视我们运维的能力和IT的能力,说“故障是运维最好的老师”的原因也在于此,它能够不断驱使我们走向更高的成熟度。

运维是复盘的首要负责人,复盘是为了找到根因(Root Cause),根因和故障现象不同,举个例子,故障现象是交换机故障,根因是因为技术架构没有对交换机故障做到容错,根因是运维对这种故障缺乏有效的临时应对机制。

复盘是为了让我们走向更好的运维阶段!

5、故障发生后,复盘措施有讲究

故障复盘后,我们一定会写改进措施,对于这些改进措施,还是有些讲究的,看过一些故障报告,非常的不合要求。我个人的经验如下:

故障的措施必须是可落实,且具体的,要落实到具体的负责人,具体的时间

故障的措施优先是必须技术的,然后是流程,最后是人的

故障的措施可以分为长期措施和临时措施

故障的措施一定要仅仅扣住故障的根因,避免流于形式和表面

故障的措施切忌“亡羊补牢”式的,需要全面细致的分析

故障的措施一定要保证后续的持续跟进

一叶可以障目,但也可以一叶知秋,就看我们是否真的去认真对待。你们真的重视故障了么?你们真的重视运维了么?故障不能带来运维人的春天,从根本上去意识到运维的重要性,那才是运维人真正的春天。


金沙国际登陆 2


最近互联网也是非常有意思,接二连三的发生故障,让我们一起先回顾一下。 2015年5月11号晚上21点左...

数据中心资产管理方法解读

随着互联网与云计算的快速发展,中国掀起了数据中心的建设高潮,大型甚至超大型数据中心正在陆续投入使用。根据工信部的统计数据,2011~2013年在建或规划中的大型数据中心就有255个之多,其中超过10000标准机架的超大型数据中心就有23个之多。

目前的数据中心资产管理方法,主要依靠人工录入信息、管理工具较为简单、工作流不清晰,勉强可以应对中小型机房的管理需求;但是,随着数据中心规模越来越大,需要管理的设备数量急剧增加,传统的资产管理方式已经跟不上数据中心业务发展的脚步,成为数据中心运维的短木板之一。

传统的数据中心资产管理方式存在以下问题:

1)海量的资产信息依靠人工采集与录入资产信息,依靠Access、Excel等工具或小型资产管理软件来管理,人力成本高、工作效率低下、差错率高,往往导致资产数据不可用;例如:某ISP运营商下辖数十个数据中心,依靠半手工的方式来管理资产,花费大量人力在资产盘点、报表合并等工作上,费时又费力,还无法保证数据准确。

2)快速变化的IT业务需求导致资产变更成为常态,每个月都有数百甚至数千服务器上下架;而传统的资产变更过程没有实现标准化、流程化,难以保证网管中的资产信息能够及时、准确地变更;随着时间的推移,资产信息逐渐失真,最终导致如有新设备上架,还需要派人到现场去寻找可用的位置。

3)资产管理粗放,人员职责不清晰,资产数据没有经过高效地分析与利用,易形成不明资产或闲置资产。因此,业界主流厂家纷纷推出智能、高效的数据中心资产管理解决方案,提供完整的流程控制、资产识别、数据分析等功能,实现对数据中心资产进行有效管控。

智能的资产识别技术可大幅提高资产管理的效率与准确度

数据中心资产管理系统的核心是一个实时刷新、准确无误的资产信息库;而资产信息的采集、录入的准确性往往决定了一个资产管理系统的数据是否可用。随着数据中心的设备数据增加,资产信息的准确性显得更加重要。但是,传统的资产信息采集方式是通过定期的人工资产盘点来获取,人工差错不可避免,费时费力。针对这种情况,业界内的众多厂家也在尝试各种新的自动化信息采集技术,减少人工参与环节,减少差错率。目前,应用较广、较为成熟的资产识别技术主要有:

1)资产条码扫描技术。一套完整的条码管理系统主要由标签、扫描终端、网管等部分组成。首先,在设备进场之前,预先将带有条形码或二维码信息的标签粘贴在资产上;然后,在设备上线或发生变更时,使用移动式扫描终端对设备上的标签进行扫描,快速的录入资产信息;最后,借助无线传输技术将现场采集的数据实时上传到网管中,自动更新系统中的数据。此外,也可以将系统中最新的数据下载到扫描终端中,通过图形化界面显示当前位置的资产信息,以便在现场进行资产信息比对、查错。因此,通过条码移动扫描技术,大大提高了资产盘点的工作效率,同时避免人工录入环节,保证信息流和资产实物流的准确对应。

2)机柜级资产识别条技术。资产管理的一大难点就在于确定IT设备所在的机柜U位;针对这一难题,业内的部分厂家推出了智能化的资产识别条。资产识别条可以安装在机柜的侧面,通过内置的ID芯片进行近端通讯,可以识别IT机柜中的每个U位是否被占用,以及占用此空间的设备信息。这些资产位置信息通过资产识别条的通信接口集中上报给资产管理系统,从而完成信息的采集、录入等工作。通过资产U位的识别,可以精确发现连续可用的U位空间,用于指导刀片等服务器的上下架工作。这种方案的优点在于数据准确性高,及时性好,可以在第一时间内发现资产变更信息,适合对资产精度要求较高的场合。

3)设备自动识别技术。与服务器、存储等IT设备不同,大多数的UPS、空调等设备做不到被网管自动发现,还需要用户手工添加到网管中并纳入监控。如果这些设备增加电子标签等信息,主动向网管推送设备信息,则设备就可以在网管上实现自识别、自注册,自动刷新信息到资产管理系统,极大的简化了相关工作。目前,业界一些设备厂家已经开始提供并推广这一方案。

闭环的ITIL流程控制保证资产变更过程的可控、可管

在整个数据中心的生命周期内,不停地有新设备的添加、搬迁、上下电等资产变更事件。据不完全统计,腾讯数据中心的服务器每月启停4000多台,业务每月迁移2000多次,硬件每月变更500多次。频繁的资产信息变更,如果没有一个可闭环、可跟踪的资产变更控制机制,则资产信息将逐浙失真,最终变成不可用。先进的资产管理系统应该提供符合ITIL流程要求的资产变更功能,保证资产信息的可控、可管。

变更流程管理:ITIL是国际通用的针对IT服务管理的一个客观、严谨、可量化的标准和规范,其中与资产管理相关性最大的是变更管理模块。变更管理通过明确地定义资产变更的范围、优先级、职责与角色、流程与审核点、衡量标准等,在最短的中断时间内完成变更过程,减少对业务的影响,并保证变更结果及时、准确地刷新到资产信息库中,过程可回溯可审计。大量的成功实践表明,符合ITIL标准要求的变更管理可以提高运维效率约25~30%。

数据智能核对:在实际运维中,难免因为各种人为原因而引入有差错的资产信息数据;如果只依靠人工审核来发现这些潜在的问题,效率低下并且常常达不到预期效果。智能的资产管理系统可以借助大数据分析技术,通过与设备监控系统对接或借助资产识别技术,及时发现与生成设备的上下线记录;然后,通过与变更管理中的历史工单数据互相对比,智能识别两者之间的数据差异,生成问题单。通过资产信息的智能核对技术,可以大幅减少数据的差错率,提高数据中心的运维效率。

高效地利用资产信息,支撑数据中心的运营

准确的资产数据是数据中心日常运维的基础之一,而有效利用资产信息,结合数据挖掘技术生成各种资产报表,可进一步满足实际业务需求。例如,资产数据可以应用到数据中心的容量管理、租户管理上,实现数据中心资源的最大化利用,支撑数据中心的运维。

容量管理:容量管理是DCIM系统的核心功能之一,目的是通过当前容量统计、分析与规划,实现数据中心的关键资源的高效利用,提高资源利用率;借助容量管理,数据中心运营方可以充分利用现有数据中心的容量资源,尽量延长数据中心的使用寿命,推迟下一个数据中心的建设计划,保护企业投资。而容量分析所需的基础数据,必然包括了准确、实时的资产信息。只有通过资产自发现、自识别技术,掌握各个IT设备的准确位置、运行状态等信息,建立IT设备与机柜等的对应关系表,才能实时计算出某一个机架的当前可用容量(空间、供电、制冷等);而基于各个机架的容量数据,管理系统通过数据分析与预测技术,生成容量规划与优化的建议策略。因此,资产数据是支撑容量管理的必备功能之一。

租户管理:针对数据中心的机架出租业务,智能数据中心管理系统可以为业主提供租户管理功能,为企业运营决策提供必备的数据报表。例如:管理系统可以通过统计不同租户的已有资产,形成租户的资产月度报表(包含用电量、空间占用、设备运维状态等);业主可以根据这些基础数据,分析维护每个租户的成本支出,计算ROI识别高价值客户,为企业营销提供决策支撑。而实现租户管理的一个关键环节就是整合资产管理的资产数据库与CRM系统的客户信息,形成统一、完整的IT资产与租户之间的对应关系表。

因此,高效利用资产信息,通过大数据分析技术,可以有效地发现或解决数据中心的运营问题,提升整体的运营效率。

智能化的资产管理是数据中心运维的必然趋势

近年来,客户对智能化资产管理的重视度正在日益提升。智能化资产管理可实现高效、准确的资产采集、录入、跟踪、盘点、统计,大幅减少运维人力成本,提高了资产利用效率。业界的一些领导厂商也纷纷推出了完善的资产管理解决方案。例如:华为的数据中心基础设施管理平台NetEco集成了智能化资产管理功能,提供完整的ITIL流程控制、精确的资产自识别技术,能够解决大型数据中心的资产管理难题。在笔者看来,随着更多的资产智能化技术的推出,资产管理在数据中心的运维中将得到越来越多的应用。

随着互联网与云计算的快速发展,中国掀起了数据中心的建设高潮,大型甚至超大型数据中心正在陆续投入使用...

ITIL在该企业中的应用归结下来主要有以下几方面问题:

 
图3

王主任是某省电信公司计费业务中心主任。五、六十人的计费业务中心负责全省计费、经营分析等重要业务系统的建设和运行工作。 计费业务中心虽说人不少,但具体到每个系统,也就一、两个人负责。由于业务变化快、系统升级改造频繁,这些人的主要精力放在了项目建设和工程施工上,运行保障工作基本处在比较初级的自发状态:工作以“救火队”方式的被动响应为主,故障处理和系统维护过程基本没有记录和总结。王主任理解,ITIL(信息技术基础架构库)建设是管理项目,ITIL标准的确先进,咨询专家说得也绝对正确,大厂商昂贵的软件功能确实很多,但落实到本部门实际工作中,总感到很隔膜。听专家和厂家介绍起来头头是道,只要买了他们的产品和服务就能包治百病,但真花了很多钱之后似乎什么病也没治好,还说不清人家的东西哪里不好。是ITIL到了国内水土不服,还是国际大厂商开出的药方不对症?总不能说自己生的病不对吧? 

 
图4

当然,对各种角色的说明是必不可少的,在这里可以看到每一个角色的职责,这样就可以不需要考虑组织结构的问题了,对应的问题找对应的角色就完全可以满足要求了。 

“南桔”成“北枳” 

角色的好处就只有这些?那你可错了,在满足ITIL要求的同时,还需要注重系统的安全性,所以,在页面访问上摩卡也同样做了权限的控制,当然,从使用简单的角度考虑,只需要对应不同的角色给看不同的页面就可以了,一个角色,既满足了ITIL的要求,又可以快速的使用起来,还可以做权限的控制,摩卡软件的设计还是非常人性化的。 

本文由金沙澳门官网网址发布于服务器运维,转载请注明出处:运维人该如何觉醒,数据中心资产管理方法解读

关键词:

上一篇:教你如何查看Windows事件日志,IBM至强5600服务器对

下一篇:没有了