- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 掘金15W沸点简单分析(二)
一、数据预处理与入库 获取到了原始数据之后,下一步就是清洗入库。 1.1 数据模型 因为是简单分析,所以只获取话题、用户、消息三块内容。具体如下: class Pins(object): """ 沸点 """ msg_id = None # 沸点ID topic_id = None # 话题ID topic_title = None # 话题名称 user_id = None # 用户ID user_name = None #
2020-09-21 11:05:55
184
原创 掘金15W沸点简单分析(一)
数据分析之数据采集(仅Web爬虫相关)。本文继续从爬虫入手。不过这次使用的是Python。 一、另一种方式的爬虫 爬虫通常是:①得到目标网页URL;②发起HTTP请求得到网页数据;③使用各种方式解析网页得到想要的数据; 通常,在第②步,是不会去执行页面中的JS代码的。有些网站,会使用Ajax异步加载一些数据,然后再渲染到页面上的;或者使用JS对页面Dom做一些修改。这样都会导致第②步请求的页面中缺少、甚至是没有目标数据。这就需在获取到网页数据后,执行页面中的JS代码了。 最早是使用phantomjs+s.
2020-09-21 11:04:46
517
原创 基于Spring Boot + Dubbo的全链路日志追踪(二)
一、概要 紧接上一篇,完成分析之后,就要具体的实现了。 service-a: 实现dubbo服务。 service-b: 实现web服务,并调用service-a实现的服务。 二、实现 2.1 日志采集及存储 本例直接使用【阿里云·日志服务】进行数据存储和检索,使用Aliyun Log Logback Appender进行日志收集及上传。 其实就是阿里自己实现了一个Logback Appender...
2019-08-10 12:14:25
1192
原创 基于Spring Boot + Dubbo的全链路日志追踪(一)
一、 概要 当前公司后端整体架构为:Spring Boot + Dubbo。由于早期项目进度等原因,对日志这块没有统一的规范,基本上是每个项目自己管自己的日志。这也对后面的问题排查带来了很大的困难,特别是那些需要同时或者多级调用Dubbo的服务场景,排查起来更加的困难。 现在需要实现从请求开始,到请求结束的全程日志跟踪。需求很简单,实现思路也不难,只需要全局添加一个traceId即可。 当然只有日...
2019-05-28 09:50:35
549
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人