不想做“背锅侠”,智能化手段如何赋能测试环境持续可用?


作者简介:中国工商银行软件开发中心广州技术部

测试环境是软件研发流程中一个重要的底层支撑,环境是否持续可用直接影响研发的质效。

分布式体系下,传统银行系统交易一般需访问多个服务完成业务处理,单服务出现问题可能会引起整个交易失败,全链路环境问题排查人工跟踪分析成本高,如何运用人工智能等新技术智能分类环境问题并精准实现问题的快速定位、快速修复,是研发效能提升的一个重要课题。

1技术实践篇

为提高交付版本质量和效率,本次分享实践提出基于文本聚类和RNN循环神经网络模型算法等人工智能新技术运用,形成“环境问题智能分类”,快速自动反馈环境可用情况,快速定位环境问题并配套智能诊断和自愈,赋能研发质效提升。

本实践与业界通用实践比较,主要创新点有以下几个方面:

1.异常信息聚合提取如何从形式各异的文本信息中捕获异常信息是一个难点,本实践通过对报文路径进行聚合,实现错误码和错误日志的准确匹配。

2.词向量去噪生成针对日志文本词汇量无穷的问题,文本噪声过多,导致异常分类特征在整个文本中过于分散,模型不易收敛且易产生过拟合问题,因此对特征工程进行优化提取,能够有效将日志中无限的词汇量转换为有限维词向量,便于输入智能模型进行训练。

3.运用RNN循环神经网络模型算法训练标准标签库实现异常定位智能分类推荐标签。智能分析后,对于结论为应用节点技术栈状态检测异常的数据,触发技术栈检查及自愈机制,其他对接智能诊断库精准推送各角色处理。

2 实践效果篇

1.智能异常定位促进降本增效。释放测试环境维护人员原本需要逐条判断异常日志类型相关工作,而现在90%异常问题可通过上述方式自动化处理。

同时随着人工标注数据不断增加,后续模型准确性也将逐步提升,实现了将人工运维经验形成数字化资产,进一步促进运维领域数字化转型。

异常详细信息

2.明确异常问题分布,辅助系统优化决策。在以往的测试环境问题运维过程中,由于异常问题跟进主要由人工执行,执行后难以对问题诊断过程和结果进行记录,使得管理者难以从宏观视角把握目前环境问题中各问题的分类占比。

而通过智能分类后,大部分异常问题能够通过智能系统自动分类,使得各时段可用率情况、不可用情况类型占比等信息更容易采集统计,对后续环境问题治理方向提供有效支撑。

问题类型分析

可用率概况

还不过瘾?还想了解更多智能化赋能运维场景?10月26日-27日,GOPS 2023 · 上海站,云原生、持续测试、持续交付、DataOps、DevSecOps 等精彩实践,扫码了解更多 ⏬


标签

发表评论