最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了😭,居然还要会爬虫。当然网上也有许多python写的爬虫工具,当然,用多了就知道,这些爬虫工具不是不能进行多关键字的爬虫就是用不了,或者是一会就被网站检测到给停止了,最后发现了一款非常好用的python图像爬虫库icrawler,直接就能通过pip进行安装,使用时几行代码就能搞定,简直不要太爽。
话不多说,附上安装命令:
pip install icrawler 1
下面附上我爬虫的代码:
from icrawler.builtin import BaiduImageCrawler from icrawler.builtin import BingImageCrawler from icrawler.builtin import GoogleImageCrawler #需要爬虫的关键字 list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人'] for word in list_word: #bing爬虫 #保存路径 bing_storage = {'root_dir': 'bing\\'+word} #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径 bing_crawler = BingImageCrawler(parser_threads=2, downloader_threads=4, storage=b