计算技术与自动化

漫谈“云”上运维

 

近年来,云计算在国内外发展迅猛,并得以广泛应用,人工智能、区块链、大数据、云计算、云存储和云安全等热门技术层出不穷,而其中云计算可以说是其他各门技术的基础。随着云计算技术的不断创新,数据中心向整合化方向迈进,虚拟化技术向软硬协同方向发展,大规模分布式存储技术进入创新高峰,分布式计算技术不断完善和提升,云计算前景一片光明,IT世界进入云计算时代。在IT技术变革演进的过程中,云上运维(Operation and maintenance on Cloud)应运而生。

云计算的蓬勃发展,使得用户对云的接受度越来越高,特别是中小型企业,其业务越来越多地向云端迁移。随着更多的企业将应用系统迁移到各类由云服务商提供的云计算平台,诸如亚马逊云、阿里云、腾讯云、华为云等,带来了应用系统开发和架构部署的变化,传统以网络、主机、数据库、中间件等基础设施和独立IT组件为核心的监控系统已经无法满足对应用系统性能、业务连续性和最终用户体验等方面的管理需求,IT运行维护模式需要适应新的变化,因此对IT运维也需要重新理解并通过实践重构认识。

运维的核心价值和最终目标

谈到运维,不得不先说说运维工作的价值和目标。个人认为,无论传统运维还是云上运维,运维的核心价值和最终目标都是在于保障业务系统的连续性、可用性、可靠性和安全性,并最大限度地提升系统的性能。

传统运维的工作以机房建设、网络规划、硬件采购、软件选型测试、系统装机、应用部署、中间件维护、监控处理、自动化运维等多种形态存在。为了达到核心价值和目标,运维人员需要花费大量的人力、物力和时间参与底层IT基础建设等诸多非业务事项,这明显偏离了运维技术人员的专注点和特长。因此,很多局外人容易把运维工作看作是一种打杂的工作,负责的都是重复又繁杂的工作,甚至很多运维人也看不到自身的价值。相比而言,云上运维或许更能体现运维工程师的价值感。依托于云服务商提供的基础设施资源,IT人员可以更加专注于业务系统的建设、日常维护、系统优化等工作。

云上运维与传统运维的比较

从服务器管理模式来讲,传统运维一般是采用自有机房或IDC服务器托管方式管理服务器,云上运维则是利用云服务提供商提供的云主机和云数据库来管理服务器。从职能来讲,无论是传统运维还是云上运维,都非常关注稳定、高效、安全、成本等因素。下面从多个角度逐一分析云上运维和传统运维的不同。

机房方面。传统运维的机房要么自建要么租用,对于租用机房,运维人员首先要做的工作就是IDC机房的调研、测试和选择,要从机房位置、线路质量、服务响应时间、QoS等多方面进行考量,同时要做多个机房的网络性能对比测试,最后选择一个适合自己企业的IDC机房。现在的IDC机房品质参差不齐,在众多IDC机房中选择性价比高并适合自己企业业务特点的机房并不容易。而云上运维机房的选择工作已经由云服务提供商为用户做好了,一个成熟的云服务提供商提供的机房都是经过专业团队严格测试才会上线运营的,整体品质一般要优于运维人员自己选择的IDC机房,运维人员只需要根据业务需要选择合适的服务商和合适地域的机房即可,这就为运维人员节省了大量时间,降低了成本。但缺点是运维人员并不了解机房的内部情况。

硬件方面。传统运维时,运维人员需要考虑防火墙、路由器、交换机、服务器、存储等设备的选型、采购、上架、日常维护、故障检修、保修、保外维修等一系列硬件相关的问题。而云上运维时,运维人员不需要考虑硬件相关的事务,这些事务是云服务提供商考虑的范畴,为运维人员节省了时间,降低了成本。

软件方面。传统运维时,运维人员要申请进入机房入室维护,为服务器安装操作系统,既费时又费力。如果选择远程安装既需要硬件支持,同时IDC机房工作人员要配合操作,网络安装速度慢会耗费更长的时间。对于数据库来说,要部署和维护主主复制和自动接管这种高可用数据库架构,则需要运维人员完成部署、优化、监控、排错等一系列复杂的工作。而云上运维只需要在选择云服务器的时候,选择需要的操作系统,在选择云数据库的时候选择适合的数据库版本,为企业降低了人力、维护和时间等成本。

网络方面。传统运维时,对于租用多机柜、采用双线或多线BGP线路的企业来说,运维人员要设计合理高效的网络架构并配置合理的策略路由,当出现网络问题时还要有很强的网络排错能力。而云上运维时,运维人员只需要配置好VPC专有网络,选择合适的带宽,而网络故障完全交给云服务提供商来解决。