
爬虫
xiaobai_IT_learn
找到自己的目标,加油!
展开
-
设置守护进程
1.守护进程daemon=Truet = threading.Thread(target=do2, daemon=True)或者t = threading.Thread(target=do2)t.setDaemon(True)转载 2019-10-22 10:47:23 · 597 阅读 · 0 评论 -
BeautifulSoup笔记
1.安装pip install BeautifulSoup42.find和find_allfind_all() # 所有符合结果 <class 'bs4.element.ResultSet'>find() # 符合条件的第一个 <class 'bs4.element.Tag'>.get_text() # 获取文本内容>tag.find('span')...原创 2019-09-24 22:28:38 · 214 阅读 · 0 评论 -
mysql与python交互
from pymysql import *def main(): # 创建Connection连接 conn = connect(host='localhost',port=3306,database='jing_dong',user='root',password='mysql',charset='utf8') # 获得Cursor对象 cs1 = conn....原创 2019-09-24 23:33:01 · 185 阅读 · 0 评论 -
xpath命令following-sibling用法
/a/following-sibling::* # a同级下所有标签/a/following-sibling::*[1] # a同级下第一个标签/a/following-sibling::ul[1] # a同级下第一个ul标签preceding-sibling # 选取当前节点之前的所有同级节点...原创 2019-09-26 18:13:30 · 7819 阅读 · 0 评论 -
python-阿里云oss怎么上传图片或者文件,怎么取得链接
python上传文件到阿里云oss步骤1.开通阿里云oss服务2.安装包pip install oss23.可以查看官方文档https://help.aliyun.com/document_detail/32026.html?spm=a2c4g.11186623.2.10.551c15cdpfUSev#concept-32026-zh4.例子import oss2access_ke...原创 2019-09-27 10:51:41 · 3901 阅读 · 3 评论 -
python爬虫中图片上传到阿里云,数据写入mysql
1.爬取到的数据上传到mysql数据库>>>mysql语法可以参照下面sql = "select count(*) from categoryMovieTable where title='{}'".format(item.get('title'))sql1 = "insert into categoryMovieTable(category, url, title, so...原创 2019-09-28 14:36:22 · 512 阅读 · 0 评论 -
selenium爬虫加载网页,查看请求信息,定位元素命令,selenium爬虫使用代理
1.selenium基本命令加载网页from selenium import webdriver driver = webdriver.PhantomJS(“c:…/pantomjs.exe”)driver.get("http://www.baidu.com/")driver.save_screenshot("长城.png") # 保存截屏图片查看请求信息driver.page_...原创 2019-09-30 00:32:07 · 954 阅读 · 0 评论 -
进程和线程区别以及各自用法
1.定义的不同进程进程是系统进行资源分配和调度的一个独立单位.线程线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源2.区别1.一个程序至少有一个进程,一个进程至少有一个线程...原创 2019-09-30 13:31:25 · 173 阅读 · 0 评论 -
爬虫程序定时启动crontab
注意:第一次进入crontab,选择vim编辑器如果不小心选择了其他编辑器,执行以下代码即可export EDITOR="/usr/bin/vim"1.添加***.sh文件 cd `dirname $0` || exit 1 python ./main.py >> run.log 2>&12.添加可执行权限sudo chmod +x myspder.sh...原创 2019-09-30 16:19:01 · 245 阅读 · 0 评论 -
多进程爬虫
# coding=utf-8import requestsfrom lxml import etree# from queue import Queue# import threadingfrom multiprocessing import Processfrom multiprocessing import JoinableQueue as Queueimport time...原创 2019-09-22 13:45:02 · 178 阅读 · 0 评论 -
多线程爬虫
# coding=utf-8import requestsfrom lxml import etreefrom queue import Queueimport threadingimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8...原创 2019-09-22 13:42:01 · 175 阅读 · 0 评论 -
线程池爬虫
# coding=utf-8import requestsfrom lxml import etreefrom queue import Queuefrom multiprocessing.dummy import Poolimport timeclass QiubaiSpider: def __init__(self): self.url_temp = "...原创 2019-09-22 12:48:44 · 305 阅读 · 0 评论 -
windows怎么安装Chromedriver和PhantomJS
下载地址:chrome driver1.将解压的chromedriver.exe复制到python安装目录即可2.测试from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.baidu.com")>> 弹出一个chrome新窗口,显示百度网页即成功3.注意点:无需添...原创 2019-09-17 21:48:14 · 230 阅读 · 0 评论 -
爬虫中遇到的问题Crawled (404),[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to
1.错误1:start_url不存在Crawled (200) <GET http://www.itcast.cn/robots.txt> (referer: None)DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None)解决:复制url的完全地址...原创 2019-09-19 21:15:51 · 4257 阅读 · 0 评论 -
爬虫模块scrapy框架命令,requests模块,retrying模块,requests中session,response常用属性,json.dumps,json.loads,json.load
1.scrapy框架创建项目:scrapy startproject 项目名创建爬虫:cd 项目名下 ,scrapy genspider 爬虫名 allowed_domains(网站)开启爬虫:scrapy crawl 爬虫名原创 2019-09-20 00:51:14 · 415 阅读 · 0 评论 -
爬虫笔记---构造随机User-Agent
import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '...原创 2019-09-20 10:47:01 · 225 阅读 · 0 评论 -
爬虫笔记---常见的反爬手段和解决思路
1.通过headers字段来反爬1.1 通过headers中的User-Agent字段来反爬1.2 通过referer字段或者是其他字段来反爬1.3 通过cookie来反爬2.通过js来反爬2.1 通过js实现跳转来反爬2.2 通过js生成了请求参数2.3 通过js实现了数据的加密3. 通过验证码来反爬4. 通过验证码来反爬5. 其他的反爬方式5.1 通过自定义字体来反爬5...原创 2019-09-20 10:52:12 · 390 阅读 · 0 评论 -
爬虫框架scrapy中setting文件
1.settingUSER_AGENT 设置uaROBOTSTXT_OBEY 是否遵守robots协议,默认是遵守CONCURRENT_REQUESTS 设置并发请求的数量,默认是16个DOWNLOAD_DELAY 下载延迟,默认无延迟COOKIES_ENABLED 是否开启cookie,即每次请求带上前一次的cookie,默认是开启的DEFAULT_REQUEST_HEADERS 设...原创 2019-09-21 20:16:21 · 200 阅读 · 0 评论 -
Mongodb笔记
官方文档:添加链接描述1.mongodb和python交互 from pymongo import MongoClient client = MongoClient(host,port) collection = client[db名][集合名]# 添加一条数据ret = collection.insert_one({"name":"test10010","age":33}) # d...原创 2019-09-22 12:10:37 · 154 阅读 · 0 评论 -
协程池爬虫
# -*- coding: utf-8 -*-import gevent.monkygevent.monky.path_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queueimport timeclass QiubaiSpider: ...原创 2019-09-22 12:45:31 · 242 阅读 · 0 评论 -
xpath helper下载
xpath helper提取码:ekbp1.解压2.将解压后的crx文件拖到chrome浏览器的扩展程序即可原创 2019-09-18 11:45:05 · 34358 阅读 · 18 评论