李志涛

导航

2020年4月6日 #

caseStudy-20180913-Kafka进程挂掉&解决办法

摘要: 问题描述 2018年xx月xx日 下午4点20分左右 xxx无意中看到xxx正在排查线上Kafka集群遇到的问题,随后问明情况,有一台机器上Kafka进程挂了,当时他正在lark平台上查看错误日志信息,随后a56爆大奖在线娱乐一起加入排查问题。事故起止时间:2018年xx月xx日 16时30分~2018年9月13日 阅读全文

posted @ 2020-04-06 22:42 李志涛 阅读(1914) 评论(0) 推荐(0) 编辑

大流量大负载的Kafka集群优化实战

摘要: 前言背景 算法优化改版有大需求要上线,在线特征dump数据逐步放量,最终达到现有Kafka集群5倍的流量,预计峰值达到万兆网卡80%左右(集群有几十个物理节点,有几PB的容量,网卡峰值流出流量会达到800MB左右/sec、写入消息QPS为100w+ msgs/sec)。上下游服务需要做扩容评估,提前 阅读全文

posted @ 2020-04-06 20:53 李志涛 阅读(3626) 评论(0) 推荐(1) 编辑

caseStudy-20181216-Kafka(xxx)集群故障&解决办法

摘要: 1.问题描述 2018-12-16 23:53起,因10.120.14.1节点出现问题,已经无法ssh上去,导致xxx lag延迟上升,在17日凌晨1:43掉线,落在该节点但leader partition无法转移,凌晨3点磁盘故障,恢复后集群大面积不可用,直至凌晨7:30以后集群逐渐恢复起止时间: 阅读全文

posted @ 2020-04-06 15:32 李志涛 阅读(487) 评论(0) 推荐(0) 编辑

caseStudy-20190312 xxx kafka集群因文件描述符超阀值引起集群不可用

摘要: 1.问题描述 事故起止时间:第一次 2019年03月05日 20时30分~ 21时20分第二次 2019年03月06日 17时43分~ 18时21分第三次 2019年03月10日 17时43分~ 03月11日10时21分事故影响:客户端生产消费不可用,机器学习训练暂停负责人:xxx、xxx、xxx 阅读全文

posted @ 2020-04-06 15:12 李志涛 阅读(652) 评论(0) 推荐(0) 编辑

Kafka客户端二次封装扩展总体设计

摘要: 前言背景 消息系统经过多年使用和运维管理平台开发迭代,能较好支持支撑业务发展,公司主流语言为java,但缺乏一个基于Kafka二次封装简单好用的java客户端。遇到问题如下所示: 使用好kafka客户端对业务要求高,非专业技术方向很难有精力全面掌握 异常情况会catch不全 客户端生产消息及双活机房 阅读全文

posted @ 2020-04-06 14:33 李志涛 阅读(1375) 评论(0) 推荐(0) 编辑

2018年工作规划-Kafka方向OKR

摘要: 1.资源优化与提升 资源利用率提升10%,再下线至少8台机器 用户使用收集与优化 2.kafka客户端重构 支持双活机房 优雅重启 安全性加强(访问认证/授权/隔离) 调度调配多集群间访问 API接口简化,达到开箱即用 发送消息容灾、容错、降级支持 消息轨迹跟踪支持,帮助业务排查异常 消息发送耗时, 阅读全文

posted @ 2020-04-06 14:09 李志涛 阅读(307) 评论(1) 推荐(0) 编辑

针对Kafka的centos系统参数优化

摘要: TCP网络优化 sudo vim /etc/sysctl.conf vm.max_map_count=655360net.core.rmem_default=262144net.core.rmem_max=2097152net.core.wmem_default=262144net.core.wme 阅读全文

posted @ 2020-04-06 13:54 李志涛 阅读(804) 评论(0) 推荐(0) 编辑