CrawlGPT 使用与部署教程
CrawlGPT 项目地址: https://gitcode.com/gh_mirrors/cr/CrawlGPT
1. 项目介绍
CrawlGPT 是一个基于 GPT-3.5 的全自动化网页爬虫项目。它能够模拟人类搜索数据的过程,自动从整个互联网或指定的网站域中收集特定主题的详细信息。CrawlGPT 通过理解每个网页的内容直接提取必要信息,而不需要编写复杂的爬虫规则,同时能够连接互联网以验证爬虫结果的准确性或补充缺失的信息。
2. 项目快速启动
环境准备
- Python 3.11
- 安装必要的依赖:
pip install -r requirements.txt
配置
- 在
pipeline.py
文件中设置你的 OpenAI API Key:os.environ["OPENAI_API_KEY"]
- 在
pipeline.py
文件中设置你的 Serper API Key:os.environ["SERPER_API_KEY"]
运行
- 运行爬虫:
python pipeline.py > output.txt
- 查看结果:在
final_dict.json
文件中
3. 应用案例和最佳实践
以下是使用 CrawlGPT 项目的示例:
THEME = "Cases of mergers and acquisitions of fast food industry enterprises in America after 2010"
DETAIL_LIST = [
"When the merger occurred",
"Acquirer",
"Acquired party",
"The CEO of acquirer",
"The CEO of acquired party"
]
# 可选) 限制网站域:
URL_DOMAIN_LIST = ["nytimes.com", "cnn.com"]
将上述信息作为输入,CrawlGPT 将会输出包含所有指定细节的 JSON 格式的结果。
4. 典型生态项目
CrawlGPT 可以与其他开源项目配合使用,例如:
- LangChain:用于实现 MRKL 和 ReAct 的语言链。
- Auto-GPT:自动化搜索并补充缺失的详细信息。
以上教程将帮助你快速上手 CrawlGPT 项目,开始你的自动化网页爬取之旅。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考