Fork me on GitHub
赵小发

Winter is coming


  • 首页

  • 标签

  • 分类

  • 归档

稳定性建设

发表于 2022-01-04 | 分类于 稳定性 | 阅读次数:
字数统计: 1.5k | 阅读时长 ≈ 5
1. 稳定性总览 图片过大,有压缩,可能不是特别清晰,图片可能不是最新,请直接查看 思维导图链接。 备注:由于本人目前做 IoT 业务,所以会以设备为例。 1.1 定义当系统收到输入后,能输出正确的、符合预期的响应,此时系统称为稳定。 1.2 核心 减少系统不稳定的可能性 减少系统恢复稳定的时间 ...
阅读全文 »

技术视角看西安一码通

发表于 2021-12-23 | 分类于 架构设计 | 阅读次数:
字数统计: 1.6k | 阅读时长 ≈ 5
1. 背景最初是某公众号转发的一篇西安某小区业主关于“西安一码通崩溃”的文章,一群技术背景的小区业主分析故障原因,并提出了建设意见,个人觉得挺有意思的。 原文《西安一码通BUG分析——雲著君建言献策,盼一码通稳定运行》,详见参考资料第一条。 2. 原因分析外界其实很难分析出真正的原因,毕竟互联网公司 ...
阅读全文 »

Kafka业务监控

发表于 2021-11-25 | 分类于 Kafka | 阅读次数:
字数统计: 1.8k | 阅读时长 ≈ 8
1. 前言本文只探讨 Kafka 业务监控,基础监控(CPU、内存、JVM等)以及服务端 Broker 不在本文考虑范围内,这些一般属于中间件团队。 2. 业务指标2.1 Producer生产者主要关注的是发送速率和延迟,具体指标如下: 发送消息数 / {time}:在 time 时间段内一共发送 ...
阅读全文 »

项目Kafka参数调优

发表于 2021-11-25 | 分类于 Kafka | 阅读次数:
字数统计: 911 | 阅读时长 ≈ 3
1. 背景随着业务的增值,系统从 Kafka 读取消息的日常流量涨到了 8 万条/秒,高峰期整点流量涨到了 20万条/秒。CPU 也跟着水涨船高,如果不对系统进行优化,就只能靠堆机器解决了(当前机器集群为 15 * 4C8G)。 最开始,我们的思路是用火焰图分析下系统 CPU 的耗费处,原以为业务代 ...
阅读全文 »

Kafka消费阻塞事件

发表于 2021-10-27 | 分类于 Kafka | 阅读次数:
字数统计: 767 | 阅读时长 ≈ 3
1. 背景在重 Kafka 的项目中,中间件提供的 Kafka 告警过于单一、无法多元配置化。 比如,无法根据不同的 topic 单独设置消息堆积告警阈值。而实际业务中,有些 topic 在某些时刻(如整点)堆积几十万条消息都属于正常的,但是某些 topic 在任何时刻堆积一条消息都是极其不正常的。 ...
阅读全文 »

Kafka无消息丢失配置

发表于 2021-09-23 | 分类于 Kafka | 阅读次数:
字数统计: 1.2k | 阅读时长 ≈ 4
1. 背景在实际开发过程中遇到了客户购买物联网平台能力的需求,因为客户购买操作在增值服务平台,能力开通在我们团队的应用中,常规的方案是在购买成功后发送 Kafka 消息,由我们团队订阅消息,完成后续的操作。 由于涉及到用户付款操作,所以需要保证消息不丢失。 2. 哪些步骤可能会丢消息2.1 生产者 ...
阅读全文 »

OkHttp监控与调优

发表于 2021-09-03 | 分类于 OkHttp | 阅读次数:
字数统计: 2.4k | 阅读时长 ≈ 10
1. 前言其一,在做系统稳定性建设时,对日志进行优化,warn 日志中发现大量的 http 的 SocketTimeOutException,原因是”前辈“在写代码的时候直接 try catch 之后,打了 warn 日志。平时没有过多的关注 warn 日志,其实这个报错应该打 error 日志,需 ...
阅读全文 »

Kafka调优与详细参数说明

发表于 2020-11-25 | 分类于 Kafka | 阅读次数:
字数统计: 4.4k | 阅读时长 ≈ 21
1. 前言Kafka 的调优包含四部分,操作系统、服务端、客户端。对于业务开发人员来讲,需要着重关注客户端的调优,操作系统和服务端一般由运维和中间件同学负责。 2. 目标对 Kafka 而言,调优一般是指吞吐量和延时。 3. 操作系统、服务端操作系统和服务端的调优了解下,主要是遇到问题能和运维、中间 ...
阅读全文 »

项目线程池调优

发表于 2020-09-25 | 分类于 线程池 | 阅读次数:
字数统计: 2.6k | 阅读时长 ≈ 10
0. 写在前面 在网上搜集资料的时候,真正见证了什么叫做天下文章一大抄,更可恨的是错误的东西、未证明的东西也疯狂的抄袭。整个中文互联网环境全部污染了,真让人痛心疾首,这里实在忍不住要吐槽下。 由于涉及公司业务,所以做了很大的业务脱敏,导致很多细节不清晰,大家关注方法就好。 1. 背景在分析了我司某 ...
阅读全文 »

Kafka Rebalance

发表于 2020-05-08 | 分类于 Kafka | 阅读次数:
字数统计: 3.9k | 阅读时长 ≈ 16
1. 背景最近团队里的一个重 Kafka 项目频繁的发生 Rebalance ,导致经常性的出现消息堆积问题,峰值曾堆积过数千万条消息。因此来研究下 Kafka Rebalance 相关的问题。 2. Rebalance时机当 Kafka 遇到如下四种情况的时候,会触发 Rebalance 机制: ...
阅读全文 »

Kafka的Topic、Partition、Segment那些事儿

发表于 2020-05-02 | 分类于 Kafka | 阅读次数:
字数统计: 1.2k | 阅读时长 ≈ 5
1. 前言Topic 是一个逻辑概念,Partition 和 Segment 都是物理概念(有真实的日志文件)。 一个 Topic 可以认为是一类消息,每个 Topic 将被分成多个 Partition,每个 Partition 在存储层面是 log 日志文件。 任何发布到某个 Partition ...
阅读全文 »

ZooKeeper在Kafka中的使用

发表于 2020-05-02 | 分类于 Kafka | 阅读次数:
字数统计: 565 | 阅读时长 ≈ 2
1. 前言本文涉及 Kafka 版本为 2.2.1。 2. ZooKeeper在Kafka中的使用场景2.1 Broker端2.1.1 Broker注册本地启动 ZooKeeper 之后,再启动 Broker,ZooKeeper 打印了如下日志: [2022-01-11 10:54:49,631] ...
阅读全文 »

CAP定理

发表于 2019-10-02 | 分类于 分布式&微服务 | 阅读次数:
字数统计: 1.8k | 阅读时长 ≈ 6
1. 什么是 CAP ?CAP定理指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、 Partition tolerance(分区容错性),三者不可兼得。CAP模型图如下: 如上图,如果是最多同时满足两项,那我们可以有三个组合:CA、CP、A ...
阅读全文 »

LeetCode刷题-1两数之和

发表于 2019-09-15 | 分类于 数据结构与算法 | 阅读次数:
字数统计: 929 | 阅读时长 ≈ 3
1. 题目1234567891011121314151617181920//给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 //// 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 //// ...
阅读全文 »

算法基础—时间复杂度

发表于 2019-09-01 | 分类于 数据结构与算法 | 阅读次数:
字数统计: 2.1k | 阅读时长 ≈ 8
大 O 表示法精髓:忽略低阶、常量、系数项。比如:$T(n)=O (2n^2 + 2n + 2) = O (n^2)$ 1. 时间复杂度分析原则1.1 只关注循环执行最多的代码我们在分析一段代码的时间复杂度的时候,只关注循环次数最多的那一段代码就可以了。举例: 12345678private sta ...
阅读全文 »
123
欢迎加微信交流

欢迎加微信交流

33 日志
10 分类
25 标签
© 2022 欢迎加微信交流
本站总访问量次 | 本站访客数人
博客全站共59.1k字