- 博客(5)
- 收藏
- 关注
转载 Node爬虫:爬取新浪博客
《Node爬虫》系列文章: Node爬虫:批量下载图片 Node爬虫:批量下载网页 Node爬虫:从网页中抽取数据 Node爬虫:爬取新浪博客 借助前面已经实现的图片下载器(pictureDownload.js)、网页下载器(htmlDownload.js)、网页数据...
2018-03-20 17:58:00
281
转载 HTTP 头部字段 Access-Control-Allow-Origin
前后端分离的协作开发方式,已经被很多公司采用。若前后端部署在不同的域名下,就会碰到跨域的问题。对于跨域的问题,W3C 有标准的解决方案,即跨域资源共享(Cross-origin resource sharing),缩写为 CORS。详细了解 CORS,可以参考阮一峰的博文:跨域资源共享 COR...
2018-03-02 18:08:00
1947
转载 Node爬虫:从网页中抽取数据
借助 Node.js 生态系统中的第三方模块 cheerio ,可以很轻松地从 html 中抽取数据。cheerio 是一个 HTML 解析器,其实现灵活、快速、精简,API 非常接近 jQuery 。下面的代码,以爬取新浪博客为使用场景,展示如何抽取博客标题、每篇博文的标题、正文、时间、分...
2018-01-31 19:12:00
154
转载 Node爬虫:批量下载网页
编写网页爬虫时,爬取 html 页面是基本功能。在 Node.js 中,只需借助内置的 http 模块,即可实现一个网页下载器,代码如下: const http = require('http')const https = require('https')const iconv = re...
2018-01-30 21:11:00
568
转载 Node爬虫:批量下载图片
编写网页爬虫时,不仅要爬取 html 页面,往往需要把 html 页面里的图片抽取并下载,因此有必要实现批量图片下载。 在 Node.js 中,无需第三方模块,只需借助内置的 http 模块和 fs 模块,用很简短的代码,就能实现一个图片下载器,代码如下: const fs = requi...
2018-01-29 21:12:00
498
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人