Menu Close

天弘基金构建云管平台:兼具运营分析和容灾演练能力

天弘基金的云管平台不止于IT资产统一纳管。

成立于2004年天弘基金是经中国证监会批准设立的全国性公募基金管理公司之一。2013年,天弘基金与支付宝合作推出余额宝,是天弘余额宝货币市场基金管理人。

作为一家行业内知名的公募基金管理机构,天弘基金的业务范围已经覆盖了二级市场股票投资、债券投资、现金管理、衍生品投资、股权投资、债券投资等领域,管理运作的公募基金超过50只。与业务规模扩充相对应的,是企业IT系统的持续扩张和演进。尤其是随着互联网金融市场的高速发展,天弘基金IT系统向云转型的进程进一步加快。

在云计算的时代,天弘基金面对的一个重要挑战就是——IT运营模式从传统运维模式向服务运营模式的转变。

经历了十余年的建设,天弘基金的IT基础设施种类繁多,从数据中心的虚拟化到各种类型的公有云,云主机的数量急剧增长,与之配套的网络服务、安全服务、运维监控平台、容灾系统也陆续上线。

整体看来,天弘基金面向传统数据中心与云服务的综合运维体系建设已经相对完整,但是随着在云服务体系下资源申请、交付、回收频率的快速攀升,IT运维体系的建设与运营也遇到了一系列的新问题。

挑战:运维体系建设日臻完善,管理难度加大

作为一家行业领先的基金公司,天弘基金的运维体系建设十分完善,但是运维体系的各个组件或者子系统并没有很强的关联性,彼此之间独立、分散,IT运营的整体效率难以提升。

具体来说,天弘基金面临的现实的挑战包括以下几点:

敏捷开发加大了资源交付的压力。天弘基金现有的基础设施分为云上、云下两种场景,业务部门在申请资源时,会由云上或云下的管理员以半自动(手动+脚本)的方式进行交付。但是随着业务的快速发展,自动化、自助化的资源交付需求变得越来越强烈;

异构基础设施带来的管理复杂性。随着天弘基金业务系统的不断增多,IT基础设施的规模和种类持续增加,从虚拟化到公有云,再到专有云,这些异构的基础设施都只能在各自的管理门户中独立进行管理;

多云环境下的成本控制、费用分析、预算管理难度持续增加。伴随着越来越多的基础设施建设并投入运营,以及对公有云服务的广泛应用,IT成本分析以及预算制定难度越来越大;

容灾流程不清晰、不透明导致的信息有效性差,状态更新不及时。基金业务的应用逻辑复杂,为了保证业务的有效性和连续性,天弘基金每年都会做一次大型的容灾切换演练。但从以往的经验看,灾备切换演练需要耗费大量的人力物力,虽然结果令人满意,但过程仍然存在很多瑕疵。

目标:实现IT服务化转型,运维者向运营者的角色转变

针对现阶段IT运维面临的种种问题,天弘基金信息技术部制定了详细的目标与规划。经过细致的调研和评估,天弘基金认为,建设云管平台有助于快速实现IT基础设施的服务化,并且积极推动企业IT从传统的运维模式向服务运营的方式转变。

经过梳理,天弘基金将云管平台的能力建设具体到以下几个方面的内容:

1、构建云管平台,实现多云基础设施统一纳管,面向业务用户提供自服务

建设独立于异构基础设施的云管平台,对现有基础设施进行统一纳管。同时,基于云管平台的多租户能力,结合规范与流程,向业务用户提供自服务,进而实现在一个统一门户下各类型IT资源的自动化构建与发放。

2、强化云管平台的运营分析能力,构建云费用分析模块

在建设云管平台时同步强化平台自身的运营分析功能,从财务的角度增进天弘基金的IT运营能力,构建信息技术部成本收益衡量体系,量化基础设施的成本与收益。这样做的目标是在降本增效的前提之下,提升业务的投资回报率。

3、建设逻辑鲜明、流程清晰的容灾可视化系统

开发具备实时展现能力的容灾切换大屏,提升基于应用事件触发工作的自动化能力。容灾大屏完整对接云上、云下的各类容灾安全产品,实现安全策略与配置流程的自动化与实时展示。

实践:落地具备运营分析和容灾可视化能力的云管平台

基于FIT2CLOUD云管平台,天弘基金信息技术部构建了符合基金业务运维与交付场景的自动化运维门户。截止2019年年底,这一项目已经完成两期建设。

目前,天弘基金的云管平台实现了对VMware虚拟化、阿里云、阿里金融云、蚂蚁金融云等多云基础设施的统一纳管,并且完成了云管平台与企业OA流程管理系统的对接,实现了IT资源基于现有流程体系的申请与发放,为业务人员和运维人员提供资源全生命周期的管理能力,并且向管理者和决策者提供细粒度的运营分析视图。

附图 天弘基金云管平台建设方案

借助统一服务门户释放资源管理能力

基于云管平台的多租户体系,运维团队向开发与项目部门的用户提供多云基础设施中的服务目录。用户可在服务目录中自行申请所需的操作系统及中间件服务,经过管理员的合规性审批后,由云管平台自动构建相应的服务,并交付给申请者。同时,用户还可以通过云管平台对资源进行全生命周期管理,实现云主机的启停、配置变更、克隆等自助式运维操作;

构建云资源运营及费用管理模块

天弘基金在基于云管平台实现多云基础设施统一纳管的基础之上,借助云管平台的标签功能,完善云主机的各项基础元数据,使得原本分散的各类信息在云管平台中进行统一的展示和管理。

另一方面,充分利用云管平台的云费用管理模块,依托私有数据中心计量计费模型,并且同步公有云账单,持续地对IT系统的资源、费用等使用情况进行各个维度(通过资源所属租户与标签等信息)的度量、分析和优化,从费用分析入手,明确费用分摊。这样做可以更加明确地管控企业云资源整体的支出和预算,结合云管平台的资源分析能力,制定费用优化策略,继而改进预测和预算,提升云费用管理的效率和成熟度;

通过云管平台的开放性接口,整合内部运维系统

云管平台提供了开放性的接口,通过对接各类平台,实现运维管理的全闭环操作,保证资源在创建前和创建后自动同步各类信息数据,灵活调用各类服务。目前,天弘基金已经通过云管平台对接了OA系统、网络自动化平台、部分监控平台及安全服务平台等。通过既有管理系统与云管平台的集成与整合,实现了运维体系的自动同步与自动化配置。

收益:IaaS及IaaS+服务的智能化、自动化运营

经过两期云管平台的建设,天弘基金已经实现了多云基础设施的统一管理,并且在日常运营管理的过程中深度结合了费用管理的能力,至此天弘基金的IT服务化与运营的转型目标基本实现。云管平台为天弘基金带来的收益包括:

■ 资源交付全面转向自动化,通过云管平台的统一门户,业务部门可按需快速申请并获取所需的云服务资源,在释放运维管理人力的同时,加速了业务的敏捷交付与投产;

■ 实现了对异构资源的统一管理与统计分析,管理员通过云管平台可实时了解资源使用情况,资源利用率大幅提升;

■ IT费用全面可视化、透明化。通过多维度的费用分析与优化建议,实现了IT费用的可计量、可分摊,结合费用使用趋势对未来的基础设施建设做出合理预测;

■ 通过容灾大屏系统有效规范容灾流程,实现了容灾过程的标准化。通过前端视图为操作者、管理者和决策者实时、动态的展示容灾进程。

规划:实现资源与服务的一站式交付,构建IT技术中台

结合企业IT的未来发展趋势,天弘基金也对云管平台提出了更高的要求,云管平台未来在整体IT架构中所扮演的角色也更加明确。

■ 现阶段,天弘基金已经基于云管平台实现了IaaS及IaaS+服务的自动化交付,而业务部门对于一站式资源申请的需求日益强烈。后续会通过云管平台实现对负载均衡、公有云服务(RDS、SLB、OSS等)、备份等产品的服务化,实现在资源创建完成后可自动创建相关网络、安全等服务的目标;

■ 云管平台还将成为天弘基金监控体系的集大成者。目前天弘基金有多套监控平台共存,这些监控平台管理的对象包括服务器、存储、网络、机房及应用等。由于监控信息分散在不同的系统之中,需要统一的监控视图对不同的告警进行展示,并且将历史发生的事件进行沉淀,最终形成一个方便使用者发现处理、方便决策者观察评估的统一监控门户;

■ 由于IT资产规模庞大并快速增长,且各类资产都具有一定的关联性,企业IT服务化运营的复杂性持续增加。复杂的关联信息和逻辑管理会带来较大的人力成本消耗,天弘基金计划通过持续强化云管平台在运营分析方面的能力实现各类型资产的全面可视化管理,确保多云基础设施的智能化运营能力。

用户说

“天弘基金借助云管平台实现了IT基础设施服务化的目标,并且针对性地强化了其在运营分析和容灾演练支持等方面的能力。未来,天弘基金将围绕云管平台展开更加广泛的技术实践,深度整合各类运维系统,实现IT运营服务门户的统一化,以及IT资源交付的一站化。最终,云管平台将会演变成为天弘基金IT运维的技术中台,通过聚合运维技术能力的方式,持续降低企业IT运营管理的成本。”

——天弘基金信息技术部 张斌

Posted in 多云管理, 案例