摘要: 卡夫卡消费者 offset值,消费到哪里了呢?之前存储在zookeeper,后面kafka保存在一个主题里,并持久化到硬盘,相当安全 消费者组ID 用命令行创建会默认给你一个 cororifnator协调器,分区初始化对主题数50取模,选择有一个corrdinator 超高频面试题再平衡 保持3秒的 阅读全文
posted @ 2024-05-22 15:58 SunShine789 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 基础api 创建执行环境 sink 执行 这8个字节到底是整个还是2个2个字节解析,为什么需要数据类型,flink必须非常清楚数据结构,才有处理,还要网络传输。 解析泛型内部信息,应对泛型擦除,+类型提示 物理分区api shuffle打散,均匀分布 flink时间发生时间,到达时间,处理时间因为分 阅读全文
posted @ 2024-05-22 15:58 SunShine789 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 数据采集模块 主要采集什么 业务数据和用户行为数据 包括 页面浏览记录,启动记录,错误记录,曝光记录,动作记录 格式包括页面日志和启动日志JSON格式? flume怎么采集 第一次见没有sink的flume 业务数据怎么说?sku商品表 平台表 流水表 退单表 订单详情 优惠券表 省份表 在网上找的 阅读全文
posted @ 2024-05-22 15:57 SunShine789 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 为什么不直接把CSV文件上传到hdfs而要用flume采集 动态分区 提取其中的时间戳 断点续传 实时监听不用手动续传 要有拦截器 配置 事务传输时 更多控制能力 积攒到多少批flushing一次 忽略哪种类型的不上传 文件太多了一个个手动上传费时费力且容易出错 a56爆大奖在线娱乐一直纠结在AV阿罗通信是干什么的, 阅读全文
posted @ 2024-05-22 15:57 SunShine789 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 本质上是三个进程运行,一个maptask 一个reducetask 一个MR程序 写程序 添加依赖后,mapper reducer driver yarn集群的配置 为了实现数据落盘和网络传输还要进行序列化和反序列化,本质就是将各个结构体里的基本数据类型一一传递 实现writable接口 顺序要一致 阅读全文
posted @ 2024-05-22 15:32 SunShine789 阅读(1) 评论(0) 推荐(0) 编辑
摘要: epoll是内核如何将由层层协议栈去除tcp头,根据四元组查socket文件,将sk_buffer放到socket接受队列的 reactor 五种IO模型,三种线程处理模型 回溯算法之全排列 将所有需要用到的数组 包括路径数组 状态数组都初始化好然后都放进dfs参数里面 这个i是不同层的消除操作 最 阅读全文
posted @ 2024-05-22 15:18 SunShine789 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 优化手段 向量化引擎 cbo join优化 shell命令 一个与调用内核来执行命令 awk搜索 如何实现幂等操作 补数、重跑一次 从根本上避免大表join 累计快照事实表 缓慢变化维详细操作! 阅读全文
posted @ 2024-05-22 15:04 SunShine789 阅读(3) 评论(0) 推荐(0) 编辑
摘要: hive语法重视 hdfs调优 怎么编写清洗 怎么写支持压缩的map中间结果 一些误区 datanode接受数据是一个块一个块往上传,后面两个节点是依次调用的 元数据得在namenode内存中加载,而非仅存在磁盘上 Fsimage保存目录和iNode,eidts记录更新操作 两个并不是一致的,第一次 阅读全文
posted @ 2024-05-22 14:52 SunShine789 阅读(3) 评论(0) 推荐(0) 编辑
摘要: namenode元信息 小文件 容量队列 Hadoop HA zkfc究竟是什么 监视器和/yjt1993/p/9492102.html 没有secondnode了!高可用因为standby代替了 Hadoop调优细节 阅读全文
posted @ 2024-05-22 14:49 SunShine789 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 压缩就用gzip 汇总数据 TSV 建表语句 全量表设计 null的格式不一样,虽然显示都为空 都用空字符显示 增量表13张 和业务无关的不用拿过来 ods数据装载 脚本 i:4 substring方法 DIM表的数据源是ods层 如果找不到不能从数据库拿过来,而是设计一个ods表,不断迭代 商品维 阅读全文
posted @ 2024-05-22 14:32 SunShine789 阅读(3) 评论(0) 推荐(0) 编辑