Twitter推文+回复 秒级抓取相应设计方案

  1. 基础调度框架:celery
  2. 号池,抓取记录存储:redis
  3. 实现语言:Python + 异步多线程

详细设计:
4. redis 作为celery的消息队列,存储任务,以及结果
5. 通过celery 定时向redis中写入任务,并且由celery多个消费进程进行定时调度,消费任务(抓取数据)
6. 号池机制:包括定时检测被购买账号可用性(账号可能因为请求次数过多被临时风控问题,不仅需要检测登陆,还需要检测能否正常抓取推文,从而综合判定账号可用性)。每个插入到可用号池的账号都是预登陆过的,号池中以auth_token为key,存储的是cookies+headers,并且账号每次被获取使用都会增加相应的被使用次数,每次从号池中获取新账号使用,都是获取使用次数最少的账号(每次从号池获取的账号不经检测,默认直接可用【为了保证抓取效率,同时提供定时轮训检测可用号池中的账号可用性,最大限度保证号池中的账号可用性】)
7. 消息推送机制:默认支持通过Telegram 机器人自定义配置webhook地址推送消息,以及向telegram指定用户/指定群组推送消息
8. 除了推送结果,还会向Telegram 推送当前可用账号数量,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值