-
1.在windows下安装好分布式爬虫的相关模块,并且成功运行。
-
2.在Ubuntu上安装scrapy之前,需要先安装以下依赖:
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
- 3.在window中打开命令窗口,进入到项目路径(或项目的环境),输入下面的命令,生成一个包含当前项目所有虚拟环境包的文件requirements.txt
pip freeze > requirements.txt
requirements.txt中会包含当前项目环境中已经安装的模块,例如:
asn1crypto==0.24.0
attrs==18.1.0
constantly==15.1.0
cryptography==2.4.2
cssselect==1.0.3
idna==2.7
idna-ssl==1.1.0
incremental==17.5.0
lxml==4.2.5
parsel==1.5.1
PyDispatcher==2.0.5
pypiwin32==223
pywin32==224
queuelib==1.5.0
redis==3.0.1
Scrapy==1.5.1
scrapy-redis==0.6.8
six==1.11.0
Twisted==18.9.0
w3lib==1.19.0
zope.interface==4.6.0
- 4.在linux中安装rz
sudo apt-get install lrzsz
- 5.安装virtualenv和virtualenvwrapper,执行下面命令
sudo pip install virtualenv
sudo pip install virtualenvwrapper
sudo pip3 install virtualenv
sudo pip3 install virtualenvwrapper
sudo apt-get install python-virtualenv
sudo easy_install virtualenvwrapper
- 6.配置虚拟环境
1.创建目录用来存放虚拟环境
mkdir $HOME/.virtualenvs
2.在~/.bashrc中添加行:
export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh
3.运行:
source ~/.bashrc
【扩展】
使用 virtualenvwrapper
虚拟环境相关操作:
lsvirtualenv: 列出虚拟环境列表(个人喜欢用第二个)
workon+Enter: 列出虚拟环境列表
mkvirtualenv [虚拟环境名称]: 新建虚拟环境
workon [虚拟环境名称]: 切换虚拟环境
rmvirtualenv [虚拟环境名称]: 删除虚拟环境
deactivate: 离开虚拟环境
- 7.将requirements.txt导入服务器
输入rz
命令,并选择文件 (可以使用xshell工具来执行此命令) - 8.创建虚拟环境
首先查看Python3的路径
which python3
接着创建虚拟环境
mkvirtualenv -p /user/bin/python3(python3的路径) crawler-env(环境名)
- 9.安装requirements.txt
pip3 install -r requirements.txt
1.linux中不需要pywin32,可打开requirements.txt中删除此模块后再执行此命令
2.在安装过程中有些模块安装报错,可先删除requirement.txt中的该模块,然后再执行上面的安装命令。之前已安装的模块不会再重新安装。然后再单独安装之前安装失败地模块。或者是先运行分布式爬虫项目,若报模块的错误,则再安装相应的模块。