Scrape-It-Now 使用教程

最新推荐文章于 2025-04-05 09:51:17 发布

江燕娇

最新推荐文章于 2025-04-05 09:51:17 发布

阅读量715

点赞数 27

本文链接：https://blog.csdn.net/gitblog_00612/article/details/147007581

版权

Scrape-It-Now 是一个基于 Python 开发的网络爬虫工具，旨在简化网页抓取过程并输出高质量的 Markdown 内容。它具备以下特点：

Scrape-It-Now 还提供了广告拦截、链接深度探索、Markdown 内容提取、动态 JavaScript 内容加载等多种功能。

首先，确保你的系统中安装了 Python 3.13 或更高版本。然后，你可以通过以下方式安装 Scrape-It-Now：

pip3 install scrape-it-now

git clone https://github.com/clemlesne/scrape-it-now.git

cd scrape-it-now

make install dev

scrape-it-now --help

以下是一个使用 Azure Blob Storage 和 Azure Queue Storage 的示例：

export AZURE_STORAGE_ACCESS_KEY=你的访问密钥
export AZURE_STORAGE_ACCOUNT_NAME=你的存储账户名

scrape-it-now scrape run https://nytimes.com

如果你希望使用本地磁盘存储，可以设置以下环境变量：

export BLOB_PROVIDER=local_disk
export QUEUE_PROVIDER=local_disk

然后，以相同的方式运行抓取任务。

Scrape-It-Now 可以与 Azure AI Search 集成，创建自动的 AI 搜索索引，并支持将内容分块并嵌入 OpenAI 的向量空间中，实现语义搜索。此外，它还可以配合其他开源项目，如 Playwright 和 Chromium，以加载动态 JavaScript 内容。

通过以上教程，你可以开始使用 Scrape-It-Now 进行网页抓取，并根据具体需求进行定制化开发。