yingShisscWang 2022-03-26 15:24
浏览 15
已结题

基于微服务的大型应用做监控的最佳实践

问题遇到的现象和发生背景

已经有prometheus, grarfana, skywalking这些. 也有针对服务器的一些基础的告警能力.
比如CPU大于80%, 数据库链接数大于多少就告警这些.
但是得到的告警过于指标化, 运维人员无法基于这个告警,或图表,正确的评估出, 当前用户的实际使用感受是什么样的? 已经卡顿了? 完全不能用了?
简单点描述, 我就是想在系统奔溃前, 先于大多数人知道这个系统马上要奔了.
这个该怎么做?

问题相关代码,请勿粘贴截图

我自己的想法是, 是否应该基于接口的平均响应时间来做预警. 对于一类业务接口, 如果平时的响应时间是1s, 如果出现响应时间到了3s了并且持续1分钟以上. 基本可以断定这个业务场景, 已经出现卡顿了.
这时候就可以汇报一下了.

但这个整体方案应该是什么样的, 探针? 埋点? 还是什么. 请大家来说一下经验

运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果
  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 4月3日
    • 创建了问题 3月26日

    悬赏问题

    • ¥100 为什么这个恒流源电路不能恒流?
    • ¥15 有偿求跨组件数据流路径图
    • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
    • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
    • ¥15 CSAPPattacklab
    • ¥15 一直显示正在等待HID—ISP
    • ¥15 Python turtle 画图
    • ¥15 关于大棚监测的pcb板设计
    • ¥15 stm32开发clion时遇到的编译问题
    • ¥15 lna设计 源简并电感型共源放大器