ollama 运行第三方模型

最新推荐文章于 2025-04-09 10:57:04 发布

不二人生

最新推荐文章于 2025-04-09 10:57:04 发布

阅读量6.9w

点赞数

分类专栏：大模型文章标签：大模型 llama3

本文链接：https://blog.csdn.net/king14bhhb/article/details/138503000

版权

大模型专栏收录该内容

238 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

ollama 运行第三方模型

Ollama 默认直接支持很多模型，只需要简单的使用 ollama run命令，示例如下：

ollama run gemma:2b

就可安装、启动、使用对应模型，这个命令在模型不存在的时候会自动查找并且下载模型，然后运行模型，官方支持的模型我们可以通过https://ollama.com/library 找到。

但是在https://huggingface.co/models上有数万的模型，Ollama 默认支持的不可能全部覆盖，那如何支持其它模型呢，其实很多模型ollama都是没有支持的，尤其垂直行业的模型。所以我们今天要介绍的就是如何让ollama 运行第三方的模型

通过代码运行huggingface 上的模型

其实对在huggingface 上的模型我们是可以直接通过python 代码运行的，当然这个过程肯定是需要把模型下载到本地的，只不过这个过程是自动的而已

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不二人生

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

如何从 HuggingFace 为 Ollama 导入新模型

iCloudEnd的博客

04-22

4206

Ollama 是一款功能强大的工具，可以简化创建、运行和管理大型语言模型 (LLM) 的过程。本教程将指导您完成从 Hugging Face 导入新模型并创建自定义 Ollama 模型的步骤。

【技术解密】Ollama：本地化运行大型语言模型的强大工具

海棠AI实验室

01-08

4503

在GitHub 2024年度报告中，一个名为Ollama的开源项目脱颖而出，吸引了广泛的关注。Ollama凭借其独特的功能和优势，在竞争激烈的AI领域中迅速崭露头角。本文将深入探讨Ollama，从其基本原理、与同类软件的比较、在各种应用场景中的实际案例等方面，全面剖析其功能和优势，并展望其未来发展趋势。Ollama以其简单易用、轻量级的特点在用户中获得较高评价，特别适合注重快速部署和易用性的开发者。LocalAI则提供更丰富的功能，适合需要更多定制化和多模型支持的用户。

参与评论您还未登录，请先登录后发表或查看评论

win10环境配置ollama-ui运行llama3模型

liangma的专栏

06-22

3449

ollama的安装及llama3中文模型的安装，以及ollama-ui和sddle项目的作用

通过 Ollama 和 Hugging Face Hub 在本地使用（几乎）任何语言模型

huang9604的博客

04-09

822

通过 Ollama 和 Hugging Face Hub 在本地使用（几乎）任何语言模型

AI大模型时代，新手和程序员如何转型入局AI行业？

老皮的博客

07-19

578

在人工智能（AI）的浪潮中，大模型技术正以前所未有的速度发展，并在各个领域展现出其强大的应用潜力。

ollama运行自定义模型

勇往直前！

04-24

5864

GGUF(Georgi Gerganov Unifed Format)是llama.cpp提出的一种格式标准，用于储存模型的tokenizer & weight & vocab & hyparameters，其表现形式为一个二进制文件，例如gml-model-f16.gguf。ollama 可以直接加载gguf文件后缀的模型这些模型，你可以通过下面两个站点搜索即可。ollama有默认的模型，那么怎么运行自定义模型，自己选择下载模型，然后运行呢。运行你的模型： ollama run [xxxname]即可。

如何用Ollama直接加载官网没有的本地大模型

热门推荐

2301_76362892的博客

05-22

1万+

大家在用ollama加载大模型时，第一步都是要到国外网站去下载模型，即需要科学上网，又需要大带宽，且对于一些OLLAMA官网没有的大模型还不能直接使用，本文重点解决那种本地已经下载好的（含官网没有的）大模型如何直接被ollama加载使用问题。

在Ollama运行HuggingFace下载的模型

Langchain的博客

07-29

5407

本地运行模型我之前都直接使用LM-studio，好用、无脑。本地用足够了。但是放在服务器上才是正道，本地运行无法长时间开启保持运行，而且Ollama推出了并行GPU计算之后可用性大幅提升，可用性很高。今天研究下如何用Ollama如何在本地来使用这些HF的开源模型，后面把它搬到服务器上。

用python编写的用于下载并运行ollama上模型的脚本

01-28

Python语言简洁易学，有着丰富的库支持，特别是在处理API交互和日志记录方面，Python提供了非常方便的第三方库，如requests库用于API交互，logging库用于生成日志信息。这些库的使用大大简化了开发过程，使得脚本的...

ollama教程和效果演示，CPU就能跑在本地跑一个大语言模型 CPU+内存即可

南七小僧的学海无涯

04-30

1187

随着ChatGPT的兴起，LLM (Large Language Model，大语言模型) 已经成为人工智能和自然语言处理领域的热门话题。本篇文章我将和大家一起在自己的个人电脑上运行一个大语言模型。

使用ollama导出gguf模型

weixin_37841024的博客

04-25

2701

导出的qwen_7b.gguf模型文件，在命令执行的目录。（格式为gguf），导出代码为。为例，先查看模型信息，从模型文件信息里得知。

使用 Ollama框架下载和使用 Llama3 AI大模型的完整指南

博客之路,前途漫漫

05-27

7425

Ollama是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它提供了一套简单的工具和命令，使任何人都可以轻松地启动和使用各种流行的LLM，例如GPT-3、Megatron-Turing NLG和WuDao 2.0。Llama3 是由 Meta AI 开发的最新一代开源大型语言模型(LLM)。它基于 137B 参数的 Transformer 架构，在大量文本和代码数据集上进行训练。与前代模型相比，Llama3 在许多自然语言处理任务上表现出更强的性能。

使用ollama + webui 运行任意大模型

HDF734839030的专栏

03-20

2181

GPT

为Ollama添加本地自定义（非官方仓库）模型详细教程

yulixixi的博客

12-23

1844

为docker内的Ollama添加本地自定义（非官方仓库）模型详细教程

Ollama 运行模型

sre救赎之路

02-23

802

Ollama 运行模型使用 ollama run 命令。

Ollama加载gguf模型

leo0308的博客

08-02

3471

在 https://huggingface.co/models 上搜索对应模型的gguf文件下载即可。如 Qwen/Qwen2-0.5B-Instruct-GGUF。文件格式没要求，用简单的txt文件就行。

ollama安装模型

qq_66155560的博客

03-20

479

环境配置：win10；

零基础入门AI：一键本地运行各种开源大语言模型 - Ollama

m0_63171455的博客

05-20

2718

Ollama 是一个可以在本地部署和管理开源大语言模型的框架，由于它极大的简化了开源大语言模型的安装和配置细节，一经推出就广受好评，目前已在github上获得了46k star。不管是著名的羊驼系列，还是最新的AI新贵Mistral，等等各种开源大语言模型，都可以用Ollama实现一键安装并运行，支持的更多模型的列表可以查看Ollama官网。本文就让我们一起入门Ollama。

【大模型实战】使用Ollama+Chatbox实现本地Deepseek R1模型搭建

m0_47867638的博客

02-10

922

Ollama官方链接：https://ollama.com/，打开链接后就可以看到大大的下载按钮，如下图：我选择用Win的安装。

如何使用ollama第三方库

最新发布

05-02

<think>好的，用户之前问过如何使用Python调用本地Ollama模型，我给出了使用requests库直接调用API的示例。现在用户的新问题是询问如何使用Ollama的第三方库进行模型调用，特别是Python的ollama库。需要参考用户提供的引用内容，尤其是引用[2]提到ollama支持ollama-python库，这可能就是用户所指的第三方库。首先，我需要确认ollama官方是否有Python库。根据之前的了解，Ollama官方提供了REST API，而社区可能有第三方库，比如python-ollama。但用户提供的引用[2]中提到“ollama-python”，需要核实是否存在这个库，或者是否指的是ollama官方提供的Python绑定。查阅资料发现，Ollama官方确实有一个Python库，可以通过pip安装，库名为ollama。用户可能希望使用这个官方库而不是直接发HTTP请求。因此，我需要调整之前的回答，使用ollama库的示例代码。接下来，用户引用的内容中提到构建本地知识库和集成LangChain，这些可能作为扩展内容，但当前问题聚焦于基础调用。需要确保示例代码正确，包括安装库、初始化客户端、生成响应等步骤。同时，用户引用[1]提到通过GGUF文件添加第三方模型，可能需要简要说明如何加载自定义模型，但用户主要问题是调用已部署的模型，所以这部分可作为补充信息。需要检查ollama库的用法，例如是否支持同步和异步，流式响应如何处理。确保代码示例准确，比如使用ollama.generate而不是直接调用API端点。最后，对比之前的回答，用户之前用的是requests库，现在需要改用ollama库，可能需要强调两种方法的区别，比如更简洁的API，自动处理JSON等优势。同时，注意引用用户提供的引用内容，比如引用[2]提到的ollama-python支持，但实际库名可能不同，需确认正确性。总结步骤：安装ollama库，编写调用代码，处理同步和异步请求，流式处理，以及添加自定义模型的方法。同时，解答相关问题，如调整参数、处理性能等，引用相关引用内容作为支持。</think>根据引用内容[1][2][4]中关于Ollama的第三方库使用方法，以下是Python通过ollama库调用本地模型的完整实现方案： ### 一、环境准备 1. 安装Python官方ollama库（非HTTP接口方式） ```bash pip install ollama ``` 2. 验证本地模型可用性（引用[1]的GGUF模型导入方法） ```bash ollama run deepseek-r1:7b # 确保模型已通过GGUF格式导入 ``` ### 二、基础调用示例 ```python import ollama def basic_generation(): # 同步调用方式（引用[2]的本地模型运行原理） response = ollama.generate( model="deepseek-r1:7b", prompt="用Python实现快速排序算法", options={ "temperature": 0.7, "max_tokens": 500 } ) return response['response'] # 执行生成 print(basic_generation()) ``` ### 三、流式响应处理（引用[4]的对话应用场景） ```python def stream_generation(): # 创建生成器对象 stream = ollama.generate( model="deepseek-r1:7b", prompt="解释量子纠缠现象", stream=True, options={ "temperature": 0.5, "max_tokens": 1000 } ) # 实时输出响应片段 for chunk in stream: print(chunk['response'], end="", flush=True) stream_generation() ``` ### 四、自定义模型配置（引用[1]的第三方模型集成） ```python from ollama import Client # 初始化客户端（默认连接本地11434端口） client = Client(host='http://localhost:11434') # 添加自定义模型（需提前准备好Modelfile） def add_custom_model(): client.create( name="my-model", modelfile=""" FROM ./custom-model.gguf PARAMETER temperature 0.8 SYSTEM 你是一个专业的技术文档助手 """ ) print("自定义模型已添加") add_custom_model() ``` ### 五、高级功能实现 1. **对话历史管理**（引用[2]的对话应用需求） ```python chat_history = [] def chat_with_context(question): global chat_history response = ollama.chat( model="deepseek-r1:7b", messages=[ *chat_history, {"role": "user", "content": question} ] ) chat_history.append({"role": "assistant", "content": response['message']['content']}) return response['message']['content'] ``` 2. **模型列表查看**（引用[5]的模型管理需求） ```python def list_local_models(): models = ollama.list() print("已安装模型列表:") for model in models['models']: print(f"- {model['name']} (大小: {model['size']/1024/1024:.2f}MB)") ``` ### 六、参数配置说明 | 参数 | 类型 | 说明 | 推荐值 | |------|------|------|--------| | temperature | float | 生成随机性控制 | 0.1-1.0 | | top_p | float | 核采样概率 | 0.5-0.9 | | max_tokens | int | 最大输出长度 | 根据需求 | | num_ctx | int | 上下文窗口大小 | 2048-4096 | | repeat_penalty | float | 重复惩罚系数 | 1.0-1.5 | ### 七、性能优化建议（引用[4]的显卡配置经验） 1. 设置批处理参数提升吞吐量： ```python response = ollama.generate( model="deepseek-r1:7b", prompt="生成产品描述", options={ "num_batch": 4, # 并行批处理数 "num_gqa": 8 # GPU加速参数 } ) ``` 2. 监控显存使用： ```python print(ollama.show("deepseek-r1:7b")['details']['parameters']) ```