
数据挖掘
腾讯云开发者
这个作者很懒,什么都没留下…
展开
-
反-反爬虫:用几行代码写出和人类一样的动态爬虫
本文将从 Phantomjs 动态爬虫介绍起,用3行代码傻瓜式完成基于 Casper 的动态爬虫来绕过对抗策略获取页面数据。原创 2017-09-19 15:06:06 · 832 阅读 · 0 评论 -
如何使用 scikit-learn 为机器学习准备文本数据
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。在本教程中,您可以学到如何使用 scikit-learn...原创 2018-02-11 16:50:36 · 528 阅读 · 0 评论 -
功能式Python中的探索性数据分析
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。在Python中运行不同的实验似乎比试图在Splunk中进行这种探索性的操作更有效。主要是因为我们可以无所限制地对数据做任何事。我们可以在一个地方创建非...原创 2018-05-17 11:40:36 · 416 阅读 · 0 评论 -
用R语言进行文本挖掘和主题建模
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的。据估计,全球约80%的数据是非结构化的。这包括音频,视频和文本数据。在这篇文章中,我们将只讨论文本数据。在系列后面,我们将会谈论到其他非结构化数据。我们阅读的书籍,博客,新闻文章,网页,电子邮件等都是文本数据。所有这些文本都为我们提供了大量的信息,并不断增长。...原创 2018-05-17 16:41:20 · 1250 阅读 · 0 评论 -
学会了这项技能,你就能获得任何想要的信息!
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云实验室发表于云+社区专栏腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务,教程内容如下,用户可以点击开发者实验室快速上机完成实验。环境准备 任务时间:5min ~ 10min前置环境部署在开始部署前,我们需要做一些前置准备。yum 更新yum update -...原创 2018-08-22 16:49:09 · 305 阅读 · 0 评论 -
深度学习在CTR预估中的应用
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~本文由鹅厂优文发表于云+社区专栏[一、前言](javascript:原创 2018-10-19 17:33:29 · 446 阅读 · 0 评论