大模型从入门到应用——LangChain:索引(Indexes)-[文档加载器(Document Loaders)]

本文详细介绍了LangChain框架,涵盖了从基础安装配置到高级应用,如聊天模型开发、LLM接口管理、文档加载、定制工具等,帮助读者从入门到实践大模型技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类目录:《大模型从入门到应用》总目录

LangChain系列文章:


合并语言模型和我们自己的文本数据是区分它们的一种强大方式,这样做的第一步是将数据加载到“文档”中,文档加载器的作用就是使这个过程变得简单。

LangChain提供了三种文档加载器:

  • 转换加载器
  • 公共数据集或服务加载器
  • 专有数据集或服务加载器

转换加载器

这些转换加载器将数据从特定格式转换为文档格式,例如有用于CSV和SQL的转换器。大多数情况下,这些加载器从文件中输入数据,有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured模块。该包可以将许多类型的文件(文本、PowerPoint、图像、HTML、PDF 等)转换为文本数据。

文档加载器提供的文件类型或数据类型包括:

  • Airtable
  • OpenAIWhisperParser
  • CoNLL-U
  • Copy Paste
  • CSV
  • Email
  • EPUB
  • EverNote
  • Microsoft Excel
  • Facebook Chat
  • File Directory
  • HTML
  • Images
  • Jupyter Notebook
  • JSON
  • Markdown
  • Microsoft PowerPoint
  • Microsoft Word
  • Open Document Format (ODT)
  • Pandas DataFrame
  • PDF
  • Sitemap
  • Subtitle
  • Telegram
  • TOML
  • Unstructured File
  • URL
  • Selenium URL Loader
  • Playwright URL Loader
  • WebBaseLoader
  • Weather
  • WhatsApp Chat

公共数据集或服务加载器

这些数据集和来源是为公共领域创建的,我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务,我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例:

  • Arxiv
  • AZLyrics
  • BiliBili
  • College Confidential
  • Gutenberg
  • Hacker News
  • HuggingFace数据集
  • iFixit
  • IMSDb
  • MediaWikiDump
  • Wikipedia
  • YouTube 转录

专有数据集或服务加载器

这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据,e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例:

  • Airbyte JSON
  • Apify Dataset
  • AWS S3 Directory
  • AWS S3 File
  • Azure Blob Storage Container
  • Azure Blob Storage File
  • Blackboard
  • Blockchain
  • ChatGPT Data
  • Confluence
  • Diffbot
  • Docugami
  • DuckDB
  • Fauna
  • Figma
  • GitBook
  • Git
  • Google BigQuery
  • Google Cloud Storage Directory
  • Google Cloud Storage File
  • Google Drive
  • Image Captions
  • Iugu
  • Joplin
  • Microsoft OneDrive
  • Modern Treasury
  • Notion DB 2/2
  • Notion DB 1/2
  • Obsidian
  • Psychic
  • PySpark DataFrame Loader
  • ReadTheDocs Documentation
  • Reddit
  • Roam
  • Slack
  • Snowflake
  • Spreedly
  • Stripe
  • Twitter
  • 2Markdown

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

von Neumann

您的赞赏是我创作最大的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值