
AI
文章平均质量分 82
AI,大模型相关
lldhsds
云计算,人工智能,Python,软件测试
展开
-
milvus lite快速实践
Milvus Lite 是Milvus 的轻量级版本,Milvus 是一个开源向量数据库,通过向量嵌入和相似性搜索为人工智能应用提供支持,最典型的应用场景就是 RAG(Retrieval-Augmented Generation,检索增强生成),为 RAG 系统提供了强大的向量存储和检索能力。通过下面的实践,可以了解文本向量化与相似度匹配(语义匹配)的大概过程,了解RAG落地背后的机制。原创 2025-03-08 15:41:19 · 978 阅读 · 0 评论 -
开源向量数据库Milvus简介
Milvus 是一个开源的、高性能、高扩展性的向量数据库,专门用于处理和检索高维向量数据。它适用于相似性搜索(Approximate Nearest Neighbor Search,ANN),特别适合**AI、推荐系统、计算机视觉、自然语言处理(NLP)**等领域。Milvus 由 Zilliz 开发,并已捐赠给 LF AI & Data 基金会。向量是神经网络模型的输出数据格式,可以有效地对信息进行编码,在知识库、语义搜索、检索增强生成(RAG)等人工智能应用中发挥着举足轻重的作用。原创 2025-03-01 18:55:55 · 1249 阅读 · 0 评论 -
5. 进阶关卡-茴香豆:企业级知识库问答工具
茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。原创 2025-01-20 15:03:36 · 1174 阅读 · 0 评论 -
6. 基础关卡-OpenCompass 评测书生大模型实践
有了模型和硬件后,你需要在评测配置文件中指定模型路径和相关参数,然后评测框架就会自动加载模型并开始评测。这种评测方式虽然前期准备工作相对繁琐,需要考虑硬件资源,但好处是评测过程完全在本地完成,不依赖网络状态,而且你可以更灵活地调整模型参数,深入了解模型的性能表现。我们接下以评测InternLM2.5-1.8B-Chat在C-Eval数据集上的性能为例,介绍如何评测本地模型。本节课程聚焦于大语言模型的评测,在后续的课程中我们将介绍多模态大模型的评测方法。这样我们指定了评测的模型和数据集,然后运行。原创 2025-01-20 14:05:07 · 979 阅读 · 0 评论 -
6. 进阶关卡-MindSearch深度解析实践
部署MindSearch到 hugging face Spaces上。MindSearch 是一个开源的 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。原创 2025-01-18 10:29:20 · 634 阅读 · 0 评论 -
4. 进阶关卡-InternVL多模态模型部署微调实践
它包含了大量关于食物的图片和问题,帮助多模态大模型更好地理解不同地区的饮食习惯和文化特色。这个数据集的推出,让我们能够更深入地探索和理解食物背后的文化意义。文件中,MODEL_PATH处传入InternVL2-2B的路径,如果使用的是InternStudio的开发机则无需修改,否则改为模型路径。需要修改为对应的想要转的checkpoint。,根据获取方式的不同,可能需要修改配置文件中的。为转换后的模型checkpoint保存的路径。查看微调后的效果,是否有食物识别错误的现象。原创 2025-01-17 16:07:56 · 1124 阅读 · 0 评论 -
3. 进阶关卡-LMDeploy 量化部署进阶实践
我们要运行参数量为7B的InternLM2.5,由InternLM2.5的码仓查询的文件可知,该模型的权重被存储为bfloat16格式。对于一个7B(70亿)参数的模型,每个参数使用16位浮点数(等于 2个 Byte)表示,则模型的权重大小约为:70亿个参数×每个参数占用2个字节=14GB所以我们,选择 30%A100*1(24GB显存容量),后选择立即创建,等状态栏变成运行中,点击进入开发机,我们即可开始部署。原创 2025-01-17 15:53:00 · 770 阅读 · 0 评论 -
2. 进阶关卡-Laagent:从零搭建你的Multi-Agent
开发机选择 30% A100,镜像选择为 Cuda12.2-conda。原创 2025-01-17 15:00:35 · 651 阅读 · 0 评论 -
1. 进阶关卡-探索书生大模型能力边界
InternThinker 是一个强推理模型,具备长思维能力,并能在推理过程中进行自我反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。相应的,模型生成回复的时间也会变长,本节课我们将来一起探索一下 InternThinker 的能力边界。原创 2025-01-17 14:56:12 · 254 阅读 · 0 评论 -
5. 基础关卡-Xtuner微调个人小助手认知任务
使用XTuner微调InternLM2-Chat-7B实现自己的小助手认知,如下图所示(图中的尖米需替换成自己的昵称),记录复现过程并截图。原创 2025-01-17 14:49:28 · 795 阅读 · 0 评论 -
4. 基础关卡-Llamaindex RAG实践
【代码】4.基础关卡-LlamaindexRAG实践。原创 2025-01-17 14:38:35 · 329 阅读 · 0 评论 -
3. 基础关卡-浦语提示词工程实践
将不使用系统提示的书生浦语大模型作为 baseline 对比,提交的系统提示词要指导LLM表现出比baseline更高的性能,提供对比截图并加以分析说明即可。以撰写年度财务报告为目标,分别展示是否使用系统提示词的效果差异。任选下面其中1个任务基于LangGPT格式编写提示词 (原创 2025-01-17 14:31:20 · 399 阅读 · 0 评论 -
2. 基础关卡-玩转书生「多模态对话」和「AI搜索」产品
它会对你提出的问题进行分析并拆解为数个子问题,在数百个网页中搜索、总结各个子问题的答案,并给出完整的搜索关键词、思考路径、参考网页等中间过程,从而提供广泛、深度、高可信度的最终答案。此智能体为 MindSearch 的官方实现,具有与 Perplexity.ai Pro 相当的性能。请以 MindSearch 的回复作为参考 (推荐) 或者直接粘贴 MindSearch 的回复内容在知乎上回答 3 个问题的任意一个。**prompt:**目前生成式AI在学术和工业界有什么最新进展?原创 2025-01-17 12:25:52 · 714 阅读 · 0 评论 -
1. 基础关卡-书生大模型全链路开源体系
学习观看、结合写一篇关于书生大模型全链路开源开放体系的笔记发布到知乎、CSDN等任一社交媒体,将作业链接提交到以下问卷,助教老师批改后将获得 100 算力点奖励!!!原创 2025-01-17 11:45:08 · 187 阅读 · 0 评论 -
书生大模型实战营第四期-入门岛-4. maas课程任务
使用Hugging Face平台、魔搭社区平台(可选)和魔乐社区平台(可选)下载文档中提到的模型(至少需要下载config.json文件、model.safetensors.index.json文件),请在必要的步骤以及结果当中截图。原创 2024-11-26 18:14:37 · 932 阅读 · 0 评论 -
Python 关卡
书生大模型实战营原创 2024-09-09 11:10:29 · 1406 阅读 · 0 评论 -
LLMPerf测试工具使用指导
查看要为提供程序设置的环境变量以及应为 model 和 extraalal-sampling-params 设置的参数。负载测试和正确性测试的结果保存在参数指定的结果目录中(--results-dir)。结果保存在 2 个文件中,一个包含测试的摘要指标,另一个包含返回的每个单独请求的指标。负载测试会生成对 LLM API 的大量并发请求,并测量每个请求和跨并发请求的令牌间延迟和生成吞吐量。我们实施了 2 个测试来评估 LLM:一个用于检查性能的负载测试,一个用于检查正确性的正确性测试。进行Token计数。原创 2024-04-29 12:52:31 · 2126 阅读 · 0 评论 -
基于Ollama+AnythingLLM快速搭建本地RAG系统
从chat对话中可以看出基于上传的文档,可以回答简单的问题;对于中文文档推理的效果较差。安装后搜索AnythingLLM或在桌面快捷方式打开程序,兼容多种LLM模型。执行上述命令会在本地的114343端口启动服务,可以供外部调用。基于Ollama+AnythingLLM快速搭建本地RAG系统。embedding模型: nomic-embed-text。下载windows安装包,双击下一步安装即可。操作系统:windows11 23H2。llm模型: gemma:2B。1. 下载安装Ollama。原创 2024-04-21 16:06:51 · 4770 阅读 · 0 评论 -
LLMPerf-为LLM提供可重现的性能指标
例如,一个在p4de实例上运行的CodeLlama 34B模型可以配置为8个每个使用1个GPU的副本,4个每个使用2个GPU的副本,2个每个使用4个GPU的副本,或者1个使用所有8个GPU的副本。实际上,我们确实尝试通过比较550个输入令牌和3500个输入令牌的输出并估计梯度来用回归法估算这个关系,发现每增加一个输入令牌会增加0.3-0.7毫秒的端到端时间,而每增加一个输出令牌会增加30-60毫秒的端到端时间(针对在Anyscale Endpoints上运行的Llama 2 70b)。原创 2024-05-23 20:57:06 · 1788 阅读 · 0 评论 -
ModelScope系列之开发环境安装
ModelScope Library目前支持tensorflow,pytorch深度学习框架进行模型训练、推理, 在Python 3.8+, Pytorch 1.11+, Tensorflow上测试可运行。但如果需要进一步具体使用ModelScope平台上承载的,包括多模态,NLP,CV,语音等不同领域的模型,来进行模型推理以及模型训练、微调等能力,则需要安装各个领域上不同的依赖。安装依赖,以NLP领域模型,可执行如下命令安装依赖,对比pip方案,将命令中的modelscope改为.即可。原创 2024-05-09 23:47:01 · 7102 阅读 · 0 评论 -
Llama3-Tutorial之Llama3本地Web Demo部署
Llama3-Tutorial之Llama3本地Web Demo部署章节。Llama3-Tutorial之Llama3本地 Web Demo部署。本文使用InternStudio进行实验,使用方法二。软链接 InternStudio 中的模型。3. Web Demo 部署。运行 web_demo.py。方法二:使用下载好的模型。原创 2024-05-06 22:53:35 · 638 阅读 · 0 评论 -
Llama3-Tutorial之Llama3 Agent能力体验+微调(Lagent版)
Agent-FLAN 数据集是上海人工智能实验室 InternLM 团队所推出的一个智能体微调数据集,其通过将原始的智能体微调数据以多轮对话的方式进行分解,对数据进行能力分解并平衡,以及加入负样本等方式构建了高效的智能体微调数据集,从而可以大幅提升模型的智能体能力。可以看到,经过 Agent-FLAN 数据集的微调后,Llama3-8B-Instruct 模型已经可以成功地调用工具了,其智能体能力有了很大的提升。我们已经为大家准备好了可以一键启动的配置文件,主要是修改好了模型路径、对话模板以及数据路径。原创 2024-05-07 17:13:18 · 811 阅读 · 0 评论 -
Llama3-Tutorial之XTuner微调Llama3图片理解多模态
在训练好之后,我们将原始image projector和我们微调得到的image projector都转换为 HuggingFace 格式,为了下面的效果体验做准备。基于 Llama3-8B-Instruct 和 XTuner 团队预训练好的 Image Projector 微调自己的多模态图文理解模型 LLaVA。我们接下来准备 Llava 所需要的 openai/clip-vit-large-patch14-336,权重,即 Visual Encoder 权重。中的教程来准备微调数据。原创 2024-05-07 16:32:45 · 707 阅读 · 0 评论 -
Llama3-Tutorial之LMDeploy高效部署Llama3实践
模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置--cache-max-entry-count参数,控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。下面通过几个例子,来看一下调整--cache-max-entry-count参数的效果。Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,lmdeploy团队对 Llama 3 部署进行了光速支持!原创 2024-05-06 23:06:19 · 1152 阅读 · 0 评论 -
Llama3-Tutorial之手把手带你评测Llama3能力(OpenCompass 版)
Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,opencompass团队对 Llama 3 进行了评测!OpenCompass预定义了许多模型和数据集的配置,你可以通过工具列出所有可用的模型和数据集配置。书生·浦语和机智流社区同学投稿了 OpenCompass 评测 Llama 3,欢迎 Star。路径/root/opencompass/outputs/default下存放了评测结果的汇总。本小节将带大家手把手用opencompass评测 Llama3。评测时间约为15min左右。原创 2024-05-07 17:16:46 · 771 阅读 · 0 评论 -
Llama3-Tutorial之XTuner微调Llama3个人小助手
Llama3-Tutorial之XTuner微调Llama3个人小助手。使用XTuner微调llama3模型。但是训练后的模型丢失了之前模型的认知。3. XTuner配置文件准备。2. 自我认知训练数据集准备。1. web demo部署。原创 2024-05-06 22:59:24 · 381 阅读 · 0 评论 -
llmperf测试大模型API性能
输出令牌吞吐量(令牌/秒):输出令牌吞吐量以每秒返回的平均输出令牌数来衡量。输出令牌吞吐量越高,表示 LLM 推理提供程序的吞吐量越高。输出令牌吞吐量,表示每秒返回的平均输出令牌数。第一个令牌的时间 (TTFT),表示 LLM 返回第一个令牌的持续时间。第一个令牌的时间(秒):对于流式处理应用程序,TTFT 是 LLM 返回第一个令牌之前的时间。测试案例,以本地部署的大模型为例,测试baichuan2-13B-Chat模型。实践案例,以本地部署的大模型为例,测试baichuan2-13B-Chat模型。原创 2024-04-29 11:34:16 · 2976 阅读 · 8 评论 -
Qwen大模型实践之量化
当前该功能不支持与flash attention同时开启,如果你开了KV cache量化的同时又开了flash attention(use_flash_attn=True, use_cache_quantization=True, use_cache_kernel=True),程序默认将关闭use_flash_attn。开启了KV cache量化之后,模型在推理时可在生成更长的序列(sl,生成的token数)时,节约更多的显存。运行程序后,模型加载完毕,显存占用9G左右,有降低。原创 2024-05-08 18:11:27 · 1566 阅读 · 1 评论 -
Ollama配置webui连接大预言模型
默认ollama安装后,chat对话只有命令行界面,交互体验较差。借助open-webui可以通过web界面连接ollama,从而实现类似chatgpt式的web交互体验。使用 Docker 安装 Open WebUI 时,请确保在 Docker 命令中包含 -v open-webui:/app/backend/data,用于保存数据。点击右上角设置图标,打开设置窗口,如下图,输入型号标签(如llama2:7b, gemma:2b),点击右侧下载按钮,等待型号待下载。通过openwebUI下载。原创 2024-04-26 23:14:36 · 3597 阅读 · 7 评论 -
ModelScope模型下载脚本
根据需求更新下载的model_ids,model_id可以在modelscope官网进入具体的模型文件界面查询。分享一个自己写的下载ModelScope大模型文件的python脚本,支持多线程下载,支持多个模型一起下载。windows:cache_dir='C:\tmp',将模型下载到C盘tmp目录;linux: cache_dir='/tmp',将模型下载到/tmp目录;根据客户端配置修改下载的线程数,上述脚本为4线程,2.2 填写下载的model_ids。ModelScope模型下载脚本。原创 2024-05-17 20:22:50 · 3563 阅读 · 2 评论 -
Ollama本地部署大语言模型
具体来说,至少需要8GB的内存/显存来运行7B模型,至少需要16GB来运行13B模型,而运行34B的模型则至少需要32GB。:Ollama支持多种大型语言模型,例如Llama 2、Code Llama、Mistral、Gemma等,并且允许用户根据具体需求定制和创建自己的模型。总的来说,Ollama为想要在本地计算机上运行和实验大型语言模型的用户提供了一个便捷的解决方案,适用于学术研究或个人项目开发。运行7B模型至少需要8GB内存,运行13B模型至少需要16GB内存,运行33B模型至少需要32GB内存。原创 2024-04-19 23:35:18 · 1709 阅读 · 0 评论 -
Qwen大模型实践之初体验
模型下载有两种方式,一种是直接运行大模型demo程序,模型会自动下载,该种方式默认会从huggingface进行下载,国内网络无法直接下载或者速度较慢;demo程序有多个可以进行测试,一种是官方readme文件中给出的实例程序,直接运行,prompt直接写在程序中,打印大模型的回复内容,这种方式没有交互方式;除了可以进行交互外,另外就是运行demo程序后,模型文件会一直加载到GPU中,不用每次推理都进行重复加载,直到停止程序为止。执行,实际体验推理过程较慢,24GB的A100显存资源基本满载。原创 2024-05-08 17:42:44 · 3336 阅读 · 0 评论 -
LM Studio本地离线部署大语言模型
使用LM Studio快速体验大模型工具,免除Python环境及众多依赖组件的安装。可以切换不同类型的大语言模型,同时支持在windows、linux、mac等PC端部署。除了UI界面的chat对话使用之外,也可以在本地启动服务器,使用接口进行调试。本地路径查询如下,LM Studio-Mymodel-show in File Explorer。直接使用lmstudio下载模型会失败,本文采用离线部署模式。3.1 访问huggingface官网或镜像站点,下载模型文件。,选择windows版本下载安装。原创 2024-04-14 15:12:11 · 12971 阅读 · 3 评论