介绍
Ollama 是一种新的本地语言模型管理与运行平台,旨在帮助用户在本地环境中运行和管理大型语言模型(LLMs),例如 LLaMA、GPT 等。与传统基于云的解决方案不同,Ollama 专注于在用户本地系统上运行这些模型,以提高数据隐私性和响应速度。
注意:关于ollama为什么能使用较小算力资源运行大模型,可能是因为模型本身提供的模型量化技术,通过模型量化技术减小内存占用,但会损失模型精度。参考THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
主要特点
本地运行:Ollama 允许用户在本地设备上运行大语言模型,无需依赖云计算。这有助于在脱机状态下使用,并确保数据不会发送到外部服务器,提升数据隐私。
多模型管理:支持同时运行和管理多个语言模型。用户可以轻松切换、更新或扩展模型集合。
GPU 加速:对于需要高性能的任务,Ollama 支持 GPU 加速,以便提高计算效率和处理速度。它可以与 CUDA 和适当的 GPU 驱动一起使用,以提供最佳的性能表现。
简单接口:提供易于使用的命令行界面(CLI),方便用户通过简单的指令运行、管理模型并进行推理。
开源和可扩展:Ollama 是开源项目或基于开源技术,用户可以根据自己的需求自定义和扩展其功能。
ollama在ubuntu下的安装
直接访问ollama的官网https://ollama.com/,由于网络限制,官网下载行不通。
curl -fsSL https://ollama.com/install.sh | sh
推荐使用压缩包安装:
访问连接Releases · ollama/ollama · GitHub,根据自己的系统下载对应压缩包,我的是intel的处理器x86架构下载amd64版本
下载完成后在下载目录下打开终端,运行以下指令,就会将该压缩文件夹解压到/use/local目录下面,这里注意的是解压后的文件夹的名字并不是ollama,一个是bin 一个是lib,解压成功后在/usr/local中打开bin和lib文件夹会出现ollama相关的文件。
ollama -v
,出现下面表示安装完成。
创建开机ollama的脚本
先赋予执行权限,我的ollama解压到了**/usr/local**目录下,所以进入到当前目录bin中,先赋予执行权限,运行以下指令
sudo chmod +x /usr/local/bin/ollama
执行完成之后为ollama创建用户
sudo useradd -r -s /bin/false -m -d /usr/local/bin/ollama ollama
创建一个在 /etc/systemd/system/中的ollama.service的service文件,首先在终端中输入
sudo gedit /etc/systemd/system/ollama.service
之后在该文件中输入以下代码部分
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
[Install]
WantedBy=default.target
创建完成之后启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
启动ollama
在终端中输入,开启服务,然后会输出以下部分代码,这里会有一个http://127.0.0.1:11434,如果你是第一次打开大概率跟我下面界面是不一样的,需要进行一部操作,把该连接连接到IP地址服务器上,其实就是本地服务器
ollama serve
打开**~/.bashrc**文件,输入以下指令,在最后一行添加以下代码
sudo gedit ~/.bashrc
添加之后进行保存
export OLLAMA_HOST=http://127.0.0.1:11434
之后打开浏览器输入http://127.0.0.1:11434,会出现,代表之前的配置安装没有问题
ollama在ubuntu下的运行
先在终端打开ollama serve开启服务,之后输入以下代码,这里如果本地没有安装该模型,会自动进行下载。
ollama run llama3.2-vision
安装完成之后并输入问题就有以下提示,代表可以进行本地调用。