QcloudCommunity的博客

数据挖掘

关注

关注数：文章数：6 文章阅读量：3776 文章收藏量：16

作者: 腾讯云开发者

这个作者很懒，什么都没留下…

展开

反-反爬虫：用几行代码写出和人类一样的动态爬虫

本文将从 Phantomjs 动态爬虫介绍起，用3行代码傻瓜式完成基于 Casper 的动态爬虫来绕过对抗策略获取页面数据。

原创 2017-09-19 15:06:06 · 832 阅读 · 0 评论
如何使用 scikit-learn 为机器学习准备文本数据

欢迎大家前往云+社区，获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理，然后才能开始将其用于预测建模。我们需要解析文本，以删除被称为标记化的单词。然后，这些词还需要被编码为整型或浮点型，以用作机器学习算法的输入，这一过程称为特征提取（或矢量化）。scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。在本教程中，您可以学到如何使用 scikit-learn...

原创 2018-02-11 16:50:36 · 528 阅读 · 0 评论
功能式Python中的探索性数据分析

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。在Python中运行不同的实验似乎比试图在Splunk中进行这种探索性的操作更有效。主要是因为我们可以无所限制地对数据做任何事。我们可以在一个地方创建非...

原创 2018-05-17 11:40:36 · 416 阅读 · 0 评论
用R语言进行文本挖掘和主题建模

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~我们每天都会遇到各种各样的文本数据，但大部分是非结构化的，并不是全部都是有价值的。据估计，全球约80％的数据是非结构化的。这包括音频，视频和文本数据。在这篇文章中，我们将只讨论文本数据。在系列后面，我们将会谈论到其他非结构化数据。我们阅读的书籍，博客，新闻文章，网页，电子邮件等都是文本数据。所有这些文本都为我们提供了大量的信息，并不断增长。...

原创 2018-05-17 16:41:20 · 1250 阅读 · 0 评论
学会了这项技能，你就能获得任何想要的信息！

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~ 本文由腾讯云实验室发表于云+社区专栏腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务，教程内容如下，用户可以点击开发者实验室快速上机完成实验。环境准备任务时间：5min ~ 10min前置环境部署在开始部署前，我们需要做一些前置准备。yum 更新yum update -...

原创 2018-08-22 16:49:09 · 305 阅读 · 0 评论
深度学习在CTR预估中的应用

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由鹅厂优文发表于云+社区专栏[一、前言](javascript:

原创 2018-10-19 17:33:29 · 446 阅读 · 0 评论