背景

AI-机器学习-深度学习,随着生产力提升减缓,人工智能,尤其深度学习技术不断“催熟”, 开始走进各个行业。利用机器的高算力,以及日益积累的“数据知识”,运算出符合行业难题的“带参公式”,即使所谓的模型,使用“公式”对问题直接求解,从而解放生产力。

起因

在OP领域,经历了手工运维-自动运维(devops)-智能运维(aiops新纪元),在故障分类判断领域,依然大量需要人工判断,从海量监控数据中找到问题的解,耗费精力。

经过

在经历了问题的定义(建模),输入层为多维度的features,输出层为不同的分类,经历标注和清洗后经过多层NN最后求sofmax得出预测结果。

结局

然而数据样本的标注工程量巨大。不可控远远超出预计的范围。导致风险不可控,用深度学习的方式解决问题得不偿失,不得不放弃项目。

总结

运维监控数据在实际生产过程中存在特点有:

  1. 数据种类多与结果不强相关,难以对问题进行清晰的定义
  2. 数据值域范围跨度大,不利于进行归一化
  3. 数值features可能会变化,导致问题随时发生迁移

以上3中问题,在图片分类领域是不用担心的,因为图像只有RGB,像素象限的范围也是固定的,fetures也可以固定到同一规模而不发生改变。有利于知识经验的积累。而在运维监控数据中,对问题的定义;数据的处理;以及知识的积累(标注),都有重重阻力。如果要解决这些问题只有事先定义好问题,约定好数据格式才可能完成数据知识的积累。但是,这些成本都是巨大的,随着业务的变迁,“积累的知识”可能很快被淘汰。不知道往后的增强学习以及迁移学习能不能解决这些痛点。

最后,发展到现在,人工智能基石已然是标注数据。

要玩好深度学习,标注数据才是最需要考虑的环节。