choubiao0107-CSDN博客

转载 Node爬虫：爬取新浪博客

《Node爬虫》系列文章： Node爬虫：批量下载图片 Node爬虫：批量下载网页 Node爬虫：从网页中抽取数据 Node爬虫：爬取新浪博客借助前面已经实现的图片下载器(pictureDownload.js)、网页下载器(htmlDownload.js)、网页数据...

2018-03-20 17:58:00 281

转载 HTTP 头部字段 Access-Control-Allow-Origin

前后端分离的协作开发方式，已经被很多公司采用。若前后端部署在不同的域名下，就会碰到跨域的问题。对于跨域的问题，W3C 有标准的解决方案，即跨域资源共享（Cross-origin resource sharing），缩写为 CORS。详细了解 CORS，可以参考阮一峰的博文：跨域资源共享 COR...

2018-03-02 18:08:00 1947

转载 Node爬虫：从网页中抽取数据

借助 Node.js 生态系统中的第三方模块 cheerio ，可以很轻松地从 html 中抽取数据。cheerio 是一个 HTML 解析器，其实现灵活、快速、精简，API 非常接近 jQuery 。下面的代码，以爬取新浪博客为使用场景，展示如何抽取博客标题、每篇博文的标题、正文、时间、分...

2018-01-31 19:12:00 154

转载 Node爬虫：批量下载网页

编写网页爬虫时，爬取 html 页面是基本功能。在 Node.js 中，只需借助内置的 http 模块，即可实现一个网页下载器，代码如下： const http = require('http')const https = require('https')const iconv = re...

2018-01-30 21:11:00 568

转载 Node爬虫：批量下载图片

编写网页爬虫时，不仅要爬取 html 页面，往往需要把 html 页面里的图片抽取并下载，因此有必要实现批量图片下载。在 Node.js 中，无需第三方模块，只需借助内置的 http 模块和 fs 模块，用很简短的代码，就能实现一个图片下载器，代码如下： const fs = requi...

2018-01-29 21:12:00 498

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人