MasonYyp-CSDN博客

原创简单使用Slidev和PPTist

前端PPT制作有很多优秀的工具包，例如：Slidev、revealjs、PPTist等，Slidev对Markdown格式支持较好，适合与大模型结合使用，选哟二次封装；revealjs适合做数据切换，例如常规的走马灯和单页PPT等，PPTist可直接使用和二次封装。PPTist效果不错。项目地址。

2025-05-18 20:42:20 644

模型上下文协议（Model Context Protocol，MCP）是由Anthropic（产品是Claude）推出的开放协议，它规范了应用程序如何向LLM提供上下文。MCP可帮助你在LLM之上构建代理和复杂的工作流。从官网上看核心的功能点主要有Server、Resources、Tools、Prompts、Images。Server的主要功能是通过MCP协议实现服务连接管理、协议合规性验证、消息路由等。Resources的主要功能是向LLM传递数据，包括本地资源和远程资源等；

2025-04-20 18:07:56 636

原创借助LlamaIndex实现简单Agent

智能体的构建发展是一个趋势，借助LlamaIndex简单实现Agent。本文主要借助LlamaIndex中的FunctionTool和Workflow。Workflow是使用事件流的方法实现。

2025-04-19 20:51:22 356

原创 Docker安装hoppscotch

‌Hoppscotch‌是一个轻量、高效的[API开发生态系统，开源于2020年，原名Postwoman，后更名为Hoppscotch。它基于Vue.js构建，支持多种HTTP请求方法，包括GET、POST、PUT、DELETE等，并且支持WebSocket、Socket.IO、MQTT和GraphQL等多种通信协议‌。本文借助Hoppscotch和mailcatcher实现局域网登录。

2025-04-18 17:02:06 1354 1

原创使用Docker搭建开源Email服务器

开源的Email服务器比较多，例如：poste.io、MailCatcher、Postal、mailcow等。由于poste.io支持docker安装，页面比较美观，使用简单，支持SMTP + IMAP + POP3等协议，安全系数比较高的Web邮箱服务器。

2025-04-18 15:14:01 1016

原创制作Unoconv项目的Docker镜像

在Linux下将Office转换为pdf的很多包仅支持Windows，Unoconv是一个用LibreOffice转化文档的项目，已经归档（2025-3-31）。迁移后的新版本是unoserver，unoserver不太好用，我没安装成功，推荐使用Unoconv。参考地址。

2025-04-17 12:54:58 614

原创在线Markdown转化微信格式的编辑器

Markdown 文档自动即时渲染为微信图文，让你不再为微信内容排版而发愁！只要你会基本的 Markdown 语法，就能做出一篇样式简洁而又美观大方的微信图文。

2025-03-29 16:06:52 173

原创简单使用LlamaIndex实现RAG

使用LlamaIndex构建RAG的思路如下图，LlamaIndex需要自定义向量模型和类大模型组件。graph TDA[（1）构建Documet对象列表，读数据文档] --> BB[（2）构建Node对象列表，使用分割器分割Document，其中分割器有SentenceSplitter、TextSplitter等] --> CC[（3）向量化和存储，自定义嵌入模型和存储到数据库中，可以使用SimpleVectorStore、ChromaVectorStore等] --> D。

2025-03-29 14:09:04 482

原创 Docker安装嵌入框架Text Embeddings Inference (TEI)

文本嵌入推理（TEI，Text Embeddings Inference ）是HuggingFace研发的一个用于部署和服务开源文本嵌入和序列分类模型的工具包。TEI兼容OpenAI的嵌入模型的规范。

2025-03-05 19:28:23 1769

原创 Python简单使用MinerU

MinerU是国产的一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。目前支持图像（.jpg及.png）、PDF、Word（.doc及.docx）、以及PowerPoint（.ppt及.pptx）等。

2025-02-22 23:23:38 2248 5

原创 Docker安装分布式vLLM

vLLM是一个快速且易于使用的LLM推理和服务库，适合用于生产环境。单主机部署会遇到显存不足的问题，因此需要分布式部署。

2025-02-14 20:00:00 2171 1

原创 Docker安装pypiserver私服

在Python环境中安装twine上传自定义包注意：dist目录中是打包后的tar.gz或者whl文件，# 上传依赖包# 返回值# 上传tar.gz# 上传.whl。

2025-02-07 12:33:59 515

原创使用Flask和Pydantic实现参数验证

""""""#将对象转化为json字符串#将json字符串转化为json字典#设置返回值字典#Python中"..."3个点是Ellipsis对象，主要用于切片操作和类型注解‌#pydantic中Field的"..."3个点表示必填项"""#如果不使用Field设置验证参数，可以使用@field_validator注解#自定义验证器#cls是一个用于类方法的参数，代表类本身ifv<0:raiseValueError('年龄不能为负数')returnv。

2025-01-18 22:06:27 755

原创 Docker私有仓库管理工具Registry

Registry是私有Docker仓库管理工具，Registry没有可视化管理页面和完备的管理策略。可借助Harbor、docker-registry-browser完成可视化和管理。Harbor是由VMware开发的企业级Dockerregistry服务。docker-registry-browser是对Dockerregistry的简单管理和可视化。

2025-01-17 17:22:50 644

原创安装和使用docling

在modelscop上查找“docling-models”，并下载下来；或者在HuggingFace上查找，并下载“ds4sd/docling-models”。

2024-12-15 19:02:46 5447 13

原创使用PyMuPdf将pdf文件转化为img

将pdf转化为img方法比较多，本文介绍一下pdf2image和PyMuPDF，使用pdf2image依赖poppler才能够实现转化pdf，由于安装配置poppler比较麻烦（Poppler 是用于处理 PDF 文档的开源库。它可以对pdf文件进行页面提取、文本提取、注释和书签等了一系列高级功能），因此选择了PyMuPDF库。

2024-12-08 21:10:12 538

原创简单使用vllm

vLLM是一个快速且易于使用的LLM推理和服务库。它支持分布式部署、容器化部署和OpenAI的数据格式等，并且内置了大模型服务，可以直接用命令启动。vllm与Ollama有一定的区别，Ollama适合个人和小服务，vllm适合企业和提供服务，vllm的性能较高，并且并发性也较好。vLLM是一个Python库，它包含预编译的C++和CUDA（12.1）二进制文件，因此需要有GPU支持。

2024-10-22 13:46:58 2397

原创 Tornado简单使用

Tornado 是一个基于Python的Web服务框架和异步网络库，它最初由 FriendFeed 开发，后来被 Facebook 收购并开源，通过利用非阻塞网络 I/O, Tornado 可以承载成千上万的活动连接，完美的实现了长连接、WebSockets, 和其他对于每一位用户来说需要长连接的程序.

2024-10-20 19:21:09 847 3

原创 Ubuntu22.04安装RTX3080

更新依赖包。

2024-10-19 16:13:20 1041

原创安装和简单使用Milvus

Milvus是国产的高性能分布式向量数据库。

2024-10-17 21:23:31 2484

原创安装GraphRAG

GraphRAG是微软开源的一种基于图的检索增强生成 (RAG) 方法。# 参考地址# Github地址。

2024-10-13 21:29:19 1469

原创 k8s安装ingress-nginx

将"registry.k8s.io/ingress-nginx/kube-webhook-certgen:v1.3.0@sha256:549e71a6ca248c5abd51cdb73dbc3083df62cf92ed5e6147c780e30f7e007a47。⚠️ 注意：需要将"deploy.yaml"源文件中的文件更改为国内的地址，因为registry.k8s.io是kubernetes的镜像源国内无法访问。⚠️ 在主节点上执行，主节点上无法访问ingress暴漏出的服务。

2024-08-04 12:54:59 766 1

原创 ubuntu22安装k8s-1.24.17

⚠️ 注意：此处的集群环境⚠️ 注意：docker版本：20.10.24，为了兼容k8s版本，此版本自带docker compose。

2024-08-01 11:49:12 1229

原创不错的开源大模型

【代码】不错的开源大模型。

2024-07-07 21:22:26 382

原创智能解析科学文献PDF文件的工具包

智能解析科研文献PDF的工具，我发现的主要有grobid和papermage。

2024-06-30 17:58:19 814 3

原创解析PDF文件中的图片为文本

解析PDF文件中的图片，由两种思路，一种是自己读取PDF文件中的图片，然后用OCR解析，例如：使用PyMuPDF读取pdf文件，再用PaddleOCR或者Tesseract-OCR识别文字。另一种使用第三方框架，直接读取文字，例如：OCRmyPDF。读取pdf的包PyMuPDF可以获取PDF中的文本、布局和图片等，并且内嵌了Tesseract-OCR需要独立安装Tesseract项目的tessdata，有兴趣可以试试。

2024-06-23 22:18:50 1561

原创 Docker Swarm持久化

Docker Swarm持久化有bind、volume和NFS三种方式，bind和volume两种方式适合挂载单个宿主机，不适合集群；NFS适合集群服务，但需要安装NFS系统。注意：Docker Swarm需要先安装集群。由Docker Swarm构建的集群，使用filebrowser测试。注意：使用搭建filebrowser集群过程中，会发现刷新一次就要登录一次，因为构建的集群中每个容器副本登录都是独立的，但是集群中设置了负载均衡，所以，每刷新一次访问的容器副本不一样，导致刷新一次会登录一次。

2024-06-10 11:51:14 909 1

原创 Python实现半双工的实时通信SSE（Server-Sent Events）

实现实时通信一般有WebSocket、Socket.IO和SSE（Server-Sent Events）三种方法。WebSocket和Socket.IO是全双工的实时双向通信技术，适合用于聊天和会话等，但相对于SSE比较笨重，SSE适合用于服务器主动向客户端实时推送数据，例如：用于大模型实时对话。WebSocket是一种HTML5提供的全双工通信协议，它基于TCP在客户端和服务器之间建立持久性的连接，实现两者之间实时双向数据通信。

2024-06-08 10:38:05 1339 1

原创基于大模型和RAG技术实现的开源项目

为解决大模型的不足，使用RAG技术增强大模型生成内容的针对性和可读性能力，有很多不错的开源项目。例如下面的项目。

2024-05-26 20:53:28 2153

原创搭建CMS系统

内容管理系统（Content Management System，CMS）是一种用于管理、发布和修改网站内容的系统。开源的CMS系统有WordPress、帝国CMS等，国产的Halo很不错。WordPress参考地址Halo参考地址。

2024-05-26 09:45:06 816

原创不错的开源项目

优点：主题较多，成熟，缺点：非国产。

2024-05-25 20:47:30 1332

原创 Qdrant向量数据库的使用

Qdrant（读作：quadrant）是一个矢量相似性搜索引擎和矢量数据库。它提供了一个方便的API来存储、搜索和管理点向量的生产就绪服务，并提供了额外的有效负载专门用于扩展过滤支持。这使得在各种神经网络或基于语义的匹配、多面搜索和其他应用方面更加有用。Qdrant要比Weaviate向量库好用。

2024-05-20 20:53:26 7246

原创简单使用ollama

Ollama是一个开源的大型语言模型部署工具，它可以帮助用户快速在本地部署运行大模型。类似于Docker一样，仅仅用几行命令就可以运行一个大模型。

2024-05-19 22:08:47 2346

原创使用weaviate实现向量存储

当下开源的向量数据库比较多，主要分嵌入式向量数据库（数据库和应用在一起）和客户端-服务器模型向量数据库（客户端和服务器分离），比较出名数据库如下：嵌入式包括Chroma、lancedb，客户端和服务器分离的包括：Milvus、Faiss、Qdrant和Weaviate等。本文选择Weaviate。Weaviate是一个人工智能原生矢量数据库，强调与知识图的灵活高效交互，支持单节点和集群部署，支持关键词检索和语义检索。

2024-05-19 21:17:21 4520

原创使用docker安装doccano

数据标注的工具比较多，比较出名的有Doccano、Label Studio等。Label Studio ：图像标注、文本标注、音频标注、视频标注、时间序列标注，功能比较多。Doccano：主要是针对文本的标注，包括文本分类，序列标注和序列到序列的标注等功能。参考地址。

2024-05-16 13:49:07 805

原创 Python使用ThreadPoolExecutor线程池和Queue消息队列

concurrent.futures模块是从 Python3.2 后引入的异步执行模块，主要用于在多核CPU和网络I/O中进行高效的并发编程。这个模块提供了ThreadPoolExecutor（线程池）和ProcessPoolExecutor（进程池）两个类。可使用直接创建线程池，需要设置最大的线程数，用submit()执行线程。Python中的Queue是线程安全的消息队列，put()和get()配合使用，可使用put()创建消息，使用get()消费消息，使用qsize()获取消息长度。

2024-05-15 13:43:54 1013 1

原创使用BGE-M3和K近邻实现语义搜索

随着大模型和检索增强生成（Retrieval-augmented Generation， RAG）不断的发展，文本语义检索很重要。文本语义检索离不开文本向量生成，在文本向量生成上面有几个比较好的模型，例如：北京智源人工智能研究院构建的BGE（BAAI General Embedding）、北京希瑞亚斯科技有限公司构建的M3E（Moka Massive Mixed Embedding）、SentenceTransformers可以实现文本的句子、段落的向量化，也可实现图片的向量化。

2024-05-12 17:34:10 2443

原创使用docker安装seafile

Seafile 是一款开源的企业云盘，支持全平台（浏览器、Windows、Mac、Linux、Android、IPhone等）客户端。Seafile 内置协同文档 SeaDoc ，让协作撰写、管理和发布文档更便捷。最重要的这是国产软件！用起来感觉比NextCloud要好一点。

2024-05-12 11:56:38 2625 2

原创开源翻译大模型

在开发过程中，会遇到定制化翻译工具的需要，开源的翻译模型可以解决相应的问题。

2024-03-31 16:59:40 7174 1

原创 Python线程终止方法

Python线程终止有很多思路，本文介绍使用事件终止、状态终止和异常终止3种思路。事件终止和状态终止必须等待耗时任务结束后才能结束，异常终止可以立刻终止。

2024-03-08 14:28:15 2881 1

xmlPull的jar包.zip

空空如也