[知识总结] 【抖音爬虫】千万数据量产生的binlog直接撑爆了服务器的硬盘
作者:CC下载站 日期:2021-09-08 09:35:00 浏览:59 分类:编程开发
接着之前爬抖音的数据讲
参数破解后的持久化工作
在成功破译了抖音请求的加密参数(主要是 x-gorgon )之后,首先是通过 go 编写程序不断的监控直播间,获取直播间信息、观众信息,差不多启了 100 多的 go 的监控程序,部署在 4 台服务器上( go 程序开销是真滴小, java 哭晕在厕所)。
这是数据爬取方面的。
我编写的后端程序用来持久化 100 多个 go 监控程序发来的信息,我这边还要在 redis 里建个池子来保存正在监控的直播间 id ,供 go 程序获取,整体设计还是比较复杂的。
由于我们需要爬取的数据越多越好,那么当然希望持久化接口的 QPS 越大越好,但是后端持久化接口的处理速度会越来越慢(数据库里的数据越来越多,插入更新速度减慢),导致之后的 QPS 也随之降低。
但其实服务器的 cpu 利用率只有 10%~20% ,很显然服务器没使出来全部性能。之后这里我用了消息队列,创建了几十个消费者去做持久化工作(其实也就相当于多线程吧),接口的 QPS 也确实上来了,服务器 cpu 的利用率也上来了。
看着数据库表里的数据量每天增长几百万,一遍高兴,一遍也开始焦虑起来,那就是也查询越来越慢了。
binlog撑爆了服务器硬盘?
程序还没跑个几天,发现 redis 出问题了,接口报错,远程 redis 连接不上。
我登陆服务器查看了日志后发现程序一直在报 redis 无法持久化数据的错(我开启了 redis 的持久化,就是没空间了),我就纳闷了,我输入df -h
一看磁盘容量,我去,Avail 没了??
并且发现 mysql 占用了几乎 90% 的容量,我立马去 mysql 目录下查了一下发现了大批大批的 binlog 文件,一个就 1G ,原来是这玩意把服务器磁盘撑满了。
之后把老的 binlog 清除了之后程序算是恢复正常了。8.0的数据库是默认开启 binlog 的,而且为了之后配置主从我还是打开了 binlog ,只不过设置了一个过期时间是1天,这样应该就没有磁盘方面的问题了。
查询优化
虽然配置了主从复制和读写分离,但其实感觉还是有些治标不治本,查询速度仍然没有上来。
之后使用了EXPLAIN看了一下执行计划,发现 type 竟然是 ALL!哎呦,我真是老糊涂忘记加上索引了
但是 WHERE 中是一个 BETWEEN AND 范围查询,即使给字段加了索引,有时候走索引(type是range),有时候不是,这个调研了之后看有说是 mysql 会基于查询的条数来判断范围查询是否会走索引,看来这个还是个概率问题。
当我们的单表数据量快要达到两千万的时候我们的策略是直接水平分库,保证表结构不变,把新数据直接持久化到新的数据库中,然后保证每次单表达到一千万左右的时候就换新库。(因为我们每次需要的是近1天的数据,老数据几乎不用)
目前的一个查询速度还算乐观,导出10w条数据在几秒钟的时间。
后续策略——ClickHouse
当然虽说老库的数据不用了,但是万一使用了就麻烦了,我需要根据查询条件定位到特定的数据库,这块肯定还需要去配置 sharding-jdbc ,但是这块的查询时间还有待考量。
我的一个想法是使用ClickHouse
,一个面向列的非关系型数据库,把原先mysql中的多个表冗余为一张宽表(避免 ck 的关联查询),然后把老数据转移到 ClickHouse 中进行查询分析,这样便不用担心数据量和查询时间的一个问题,绝对比 MySQL快,而且不是一丁点。
(当然这一块还需要去学习实践再落地。)
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[音乐] 用餐背景音乐大合集 [MP3/flac]
[书籍] 彭子益医书合集 [PDF/DOC]
[电影] 《环太平洋两部合集》 4K REMUX原盘 [杜比视界] 国英双语音轨 [内封特效字幕] [133.8G]
[电影] 异人之下 The Traveller 2024✨【影版】【4K正式版/HQ超高码/DDP5.1】✚【1080高码】无水印/无压缩
[动漫] 头文字D 动漫 (1998) S01-S06季 1080P 国粤日音轨 续作 剧场版 电影
[小说] 知轩藏书全站7667册txt小说合集精心校对版
[杂志] 电脑爱好者杂志14年 超全 [PDF]
[电影] 西游记全部版本-4K高清修复-总计384G-1986+1996+1998+2002+2010浙版+西游记后传
[纪录片] 【国家地理百年纪念典藏】超经典100集全 MP4格式 (绝佳学习资料)27GB
[纪录片] B站食贫道收费纪录片 *迷失东京* [1080P] 揭露日本大家感兴趣却不为人知的秘密
[书籍] 彭子益医书合集 [PDF/DOC]
[游戏] 《黑神话悟空》免安装学习版【全dlc整合完整版】+Steam游戏解锁+游戏修改工具!
[动画] 《名侦探柯南》名侦探柯南百万美元的五菱星 [TC] [MP4]
[电视剧集] [BT下载][黑暗城市- 清扫魔 Dark City: The Cleaner 第一季][全06集][英语无字][MKV][720P/1080P][WEB-RAW]
[涨点姿势] 男性性技宝典:14招实战驭女术——爱抚、按摩、催情、姿势、高潮全攻略
[动画] 2002《火影忍者》720集全【4K典藏版】+11部剧场版+OVA+漫画 内嵌简日字幕
[剧集] 《斯巴达克斯》1-4季合集 无删减版 1080P 内嵌简英特效字幕
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[短剧] 被下架·禁播的羞羞短剧·午夜短剧合集
[游戏] 黑神话悟空离线完整版+修改器
[影视] 美国内战 4K蓝光原盘下载+高清MKV版/内战/帝国浩劫:美国内战(台)/美帝崩裂(港) 2024 Civil War 63.86G
[影视] 一命 3D 蓝光高清MKV版/切腹 / 切腹:武士之死 / Hara-Kiri: Death of a Samurai / Ichimei 2011 一命 13.6G
[影视] 爱情我你他 蓝光原盘下载+高清MKV版/你、我、他她他 2005 Me and You and Everyone We Know 23.2G
[影视] 穿越美国 蓝光原盘下载+高清MKV版/窈窕老爸 / 寻找他妈…的故事 2005 Transamerica 20.8G
[电影] 《黄飞鸿》全系列合集
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
[书籍] 彭子益医书合集 [PDF/DOC]
[资源] 精整2023年知识星球付费文合集136篇【PDF格式】
[系统]【黑果小兵】macOS Big Sur 11.0.1 20B50 正式版 with Clover 5126 黑苹果系统镜像下载
- 最新评论
-
有靳东!嘻嘻奥古斯都.凯撒 评论于:10-28 流星花园是F4处女作也是4人集体搭配的唯一一部!奥古斯都.凯撒 评论于:10-28 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于:10-26 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于:10-26 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢WillKwok 评论于:10-09 感谢分享1234123 评论于:10-07 太好了终于找到了谢谢Tom 评论于:10-07 谢谢分享loonghd 评论于:09-30
- 热门tag