lpe234-CSDN博客

原创掘金15W沸点简单分析(二)

一、数据预处理与入库获取到了原始数据之后，下一步就是清洗入库。 1.1 数据模型因为是简单分析，所以只获取话题、用户、消息三块内容。具体如下： class Pins(object): """ 沸点 """ msg_id = None # 沸点ID topic_id = None # 话题ID topic_title = None # 话题名称 user_id = None # 用户ID user_name = None #

2020-09-21 11:05:55 184

原创掘金15W沸点简单分析(一)

数据分析之数据采集(仅Web爬虫相关)。本文继续从爬虫入手。不过这次使用的是Python。一、另一种方式的爬虫爬虫通常是：①得到目标网页URL；②发起HTTP请求得到网页数据；③使用各种方式解析网页得到想要的数据；通常，在第②步，是不会去执行页面中的JS代码的。有些网站，会使用Ajax异步加载一些数据，然后再渲染到页面上的；或者使用JS对页面Dom做一些修改。这样都会导致第②步请求的页面中缺少、甚至是没有目标数据。这就需在获取到网页数据后，执行页面中的JS代码了。最早是使用phantomjs+s.

2020-09-21 11:04:46 517

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lpe234的博客

原创掘金15W沸点简单分析(二)

原创掘金15W沸点简单分析(一)

原创基于Spring Boot + Dubbo的全链路日志追踪(二)

原创基于Spring Boot + Dubbo的全链路日志追踪(一)

ppt演示文稿转换成word文档

空空如也

原创 掘金15W沸点简单分析(二)

原创 掘金15W沸点简单分析(一)

原创 基于Spring Boot + Dubbo的全链路日志追踪(二)

原创 基于Spring Boot + Dubbo的全链路日志追踪(一)

ppt演示文稿转换成word文档

空空如也

原创掘金15W沸点简单分析(二)

原创掘金15W沸点简单分析(一)

原创基于Spring Boot + Dubbo的全链路日志追踪(二)

原创基于Spring Boot + Dubbo的全链路日志追踪(一)