CrawlGPT 使用与部署教程

强海寒

于 2025-04-22 07:05:39 发布

阅读量368

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00507/article/details/147406507

版权

CrawlGPT 使用与部署教程

CrawlGPT 项目地址: https://gitcode.com/gh_mirrors/cr/CrawlGPT

1. 项目介绍

CrawlGPT 是一个基于 GPT-3.5 的全自动化网页爬虫项目。它能够模拟人类搜索数据的过程，自动从整个互联网或指定的网站域中收集特定主题的详细信息。CrawlGPT 通过理解每个网页的内容直接提取必要信息，而不需要编写复杂的爬虫规则，同时能够连接互联网以验证爬虫结果的准确性或补充缺失的信息。

2. 项目快速启动

环境准备

Python 3.11
安装必要的依赖：pip install -r requirements.txt

配置

在 pipeline.py 文件中设置你的 OpenAI API Key：os.environ["OPENAI_API_KEY"]
在 pipeline.py 文件中设置你的 Serper API Key：os.environ["SERPER_API_KEY"]

运行

运行爬虫：python pipeline.py > output.txt
查看结果：在 final_dict.json 文件中

3. 应用案例和最佳实践

以下是使用 CrawlGPT 项目的示例：

THEME = "Cases of mergers and acquisitions of fast food industry enterprises in America after 2010"
DETAIL_LIST = [
    "When the merger occurred",
    "Acquirer",
    "Acquired party",
    "The CEO of acquirer",
    "The CEO of acquired party"
]
# 可选) 限制网站域：
URL_DOMAIN_LIST = ["nytimes.com", "cnn.com"]

将上述信息作为输入，CrawlGPT 将会输出包含所有指定细节的 JSON 格式的结果。