【大模型图解】「1 行 LangChain 代码」竟让 10 万份合同 3 分钟审完?

基本功能

1. 链式调用

# 创建简单的链式调用
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
# 定义提示模板
prompt = PromptTemplate(
    input_variables=["contract_text"],
    template="请分析以下合同条款的风险点:{contract_text}"
)
# 初始化大语言模型
llm = OpenAI(temperature=0)
# 创建链条
chain = LLMChain(llm=llm, prompt=prompt)
# 运行链条
result = chain.run("甲方同意在任何情况下承担所有责任...")
print(result)

2. 文档处理

# 加载和处理文档
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
# 加载PDF文档
loader = PyPDFLoader("合同.pdf")
documents = loader.load()
# 文本分割
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(documents)

在这里插入图片描述

实用功能

1. 向量存储检索

# 使用向量存储进行语义搜索
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
# 创建嵌入模型
embeddings = OpenAIEmbeddings()
# 创建向量数据库
db = Chroma.from_documents(splits, embeddings)
# 相似度搜索
query = "违约责任条款"
similar_docs = db.similarity_search(query, k=3)
# 检索增强生成
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=db.as_retriever()
)
answer = qa_chain.run("请分析合同中的违约责任条款")

2. 代理和工具使用

# 创建能够使用工具的智能代理
from langchain.agents import initialize_agent, Tool
from langchain.tools import BaseTool
# 定义工具函数
def search_contracts(query):
    # 搜索合同库的逻辑
    return "找到3份相关合同..."
# 创建工具
tools = [
    Tool(
        name="ContractSearch",
        func=search_contracts,
        description="搜索合同数据库"
    )
]
# 初始化代理
agent = initialize_agent(
    tools,
    llm,
    agent="zero-shot-react-description",
    verbose=True
)
# 运行代理
agent.run("寻找所有提到不可抗力条款的合同")

3. 批量合同处理

# 批量处理多份合同
from langchain.callbacks import get_openai_callback
import os
from concurrent.futures import ThreadPoolExecutor
# 批处理函数
def process_contract(file_path):
    loader = PyPDFLoader(file_path)
    doc = loader.load()
    # 风险分析链
    risk_chain = LLMChain(
        llm=llm,
        prompt=PromptTemplate(
            template="分析合同风险点:{text}",
            input_variables=["text"]
        )
    )
    # 提取文本
    text = "\n".join([page.page_content for page in doc])
    # 分析风险
    return risk_chain.run(text)
# 并行处理多份合同
contract_dir = "contracts/"
contract_files = [os.path.join(contract_dir, f) for f in os.listdir(contract_dir)]
# 使用线程池加速处理
with ThreadPoolExecutor(max_workers=10) as executor:
    results = list(executor.map(process_contract, contract_files))

Generated Image

常见任务示例

1. 智能合同审核系统

# 智能合同审核系统
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.document_loaders import DirectoryLoader
import time
# 加载法律知识库
knowledge_loader = DirectoryLoader("法律知识库/", glob="**/*.pdf")
knowledge_docs = knowledge_loader.load()
knowledge_db = Chroma.from_documents(
    knowledge_docs,
    embeddings,
    collection_name="legal_knowledge"
)
# 创建审核记忆
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)
# 智能审核链
def create_contract_review_chain():
    return ConversationalRetrievalChain.from_llm(
        llm=OpenAI(temperature=0),
        retriever=knowledge_db.as_retriever(),
        memory=memory
    )
# 创建审核函数
def audit_contract(contract_path, review_chain):
    # 加载合同
    loader = PyPDFLoader(contract_path)
    contract = loader.load()
    text = "\n".join([p.page_content for p in contract])
    # 定义审核点
    audit_points = [
        "是否存在对我方不利的违约条款",
        "责任界定是否明确",
        "付款条件是否合理",
        "是否有法律风险点"
    ]
    results = {}
    for point in audit_points:
        query = f"针对以下合同:{text[:1000]}...\n审核重点:{point}"
        response = review_chain({"question": query})
        results[point] = response["answer"]
    return results
# 批量审核
start_time = time.time()
contract_paths = ["合同1.pdf", "合同2.pdf", "合同3.pdf"]
review_chain = create_contract_review_chain()
audit_results = {}
for path in contract_paths:
    audit_results[path] = audit_contract(path, review_chain)
end_time = time.time()
print(f"审核完成,耗时:{end_time - start_time:.2f}秒")

Generated Image

2. 合同风险评分工具

# 合同风险评分工具
from langchain.output_parsers import PydanticOutputParser
from pydantic import BaseModel, Field
from typing import List, Optional
# 定义风险评分模型
class RiskScore(BaseModel):
    overall_score: int = Field(description="总体风险评分,1-10")
    risk_areas: List[str] = Field(description="风险领域列表")
    recommendations: List[str] = Field(description="改进建议")
    confidence: float = Field(description="评分置信度,0-1")
# 创建输出解析器
parser = PydanticOutputParser(pydantic_object=RiskScore)
# 风险评分模板
risk_template = """
分析以下合同并给出风险评分:
{contract_text}
{format_instructions}
"""
prompt = PromptTemplate(
    template=risk_template,
    input_variables=["contract_text"],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)
# 风险评分链
risk_chain = LLMChain(
    llm=OpenAI(temperature=0),
    prompt=prompt,
    output_parser=parser
)
# 评分函数
def score_contract_risk(contract_path):
    loader = PyPDFLoader(contract_path)
    doc = loader.load()
    text = "\n".join([p.page_content for p in doc])
    # 限制文本长度
    max_length = 4000
    if len(text) > max_length:
        text = text[:max_length]
    # 获取风险评分
    try:
        result = risk_chain.run(text)
        return result
    except Exception as e:
        return f"评分出错: {str(e)}"
# 使用示例
sample_risk = score_contract_risk("样例合同.pdf")
print(f"风险评分: {sample_risk.overall_score}/10")
print(f"风险领域: {', '.join(sample_risk.risk_areas)}")
print(f"改进建议: {sample_risk.recommendations}")

注意事项

  1. 大文件处理需先分块,避免超过模型上下文长度限制
  2. API调用成本可能很高,用好缓存机制节省开支
  3. 向量数据库选择会影响检索质量和速度
  4. 处理敏感合同数据时,注意数据隐私和安全
  5. 复杂任务应拆分成多个链而非一条大链,便于调试和优化

总结

LangChain库是构建智能文档处理系统的瑞士军刀,可以帮你:

  • 构建复杂AI工作流
  • 处理和分析大量文档
  • 智能检索相关信息
  • 自动化专业文档审核

掌握了LangChain,就能用极少的代码完成原本需要团队数天才能做完的工作。香!这工具不整起来,纯属浪费生产力啊!

如何零基础入门 / 学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

👉 福利来袭CSDN大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

全套AGI大模型学习大纲+路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

read-normal-img

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉 福利来袭CSDN大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

img

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值