自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 MTEB排行榜上AI Embedding模型大盘点

下面,我将为大家整合目前市面上一些优秀的embedding模型,以及它们的相关信息和链接,希望能帮助到对这一领域感兴趣的朋友。Voyage团队认为业界对嵌入模型的重视程度远远不够,因此他们投入了5年时间,收集了海量的训练数据和预/后处理方法,打造出了SOTA的嵌入模型。网易有道开源的BCEmbedding模型,具备中英双语和跨语种能力,覆盖多领域,设计了标签分配方法,使得Embedding模型可以尽可能召回,而Reranker模型则负责精排和低质量过滤。市面上优秀的embedding模型。

2024-05-07 21:50:49 7081 1

原创 一文打尽Topic Model方法——RAG系列(2)

对文档向量进行聚类,分成不同的簇,每个簇就代表一个主题,同一个簇的文档向量求 average,得到的向量作为该主题的 Topic 表示,再用离该 topic vector 最近的 NNN 个词作为该 Topic 的表示。聚类选择的是 HDBSCAN 这种 density-based 的聚类方法,但是在求主题向量时,是从 centroid-based 的角度,即是通过同一簇下的向量求平均得到主题向量,这会导致得到的主题向量是不准确的,从而造成主题表示是不准确的。好了,今天的分享就到这里。

2024-04-29 18:19:33 965

原创 国内注册使用HeygenAI教程

然而,并非所有用户都通过这种方式获得了成功,这表明平台的访问限制措施具有一定的复杂性,解决方案的有效性可能因人而异。近期,Heygen平台对其商业模式进行了调整,特别是在会员服务方面进行了优化,以提高用户的参与度和体验。平台通过调整积分获取机制,鼓励用户更加积极地参与到平台的互动中来,每次互动可以获得1积分,这是对用户活跃度的一种认可。同时,为了保障平台的安全性和用户体验,Heygen平台加强了对验证码的保护措施,确保用户信息的安全。平台对于账户的管理也更加严格,旨在维护一个健康、有序的网络环境。

2024-04-11 18:19:32 4429

原创 RAG进阶——初探llamaIndex的Document Summary Index

我们展示了使用文档摘要进行基于LLM的检索和基于嵌入的检索。检索到的所有与所选文档对应的节点都将被检索。文档摘要索引将从每个文档中提取摘要,并存储该摘要以及与文档相对应的所有节点。文档摘要索引已经配置为进行高层次查询,您可以通过指定的查询获取响应。LLM检索已经配置,您可以通过指定的查询获取检索到的节点。本演示展示了对不同城市的维基百科文章进行的文档摘要索引。嵌入检索已经配置,您可以通过指定的查询获取检索到的节点。文档摘要索引已建立,您可以通过指定的文档ID获取摘要。使用默认模式构建文档摘要索引。

2024-03-05 23:46:04 1766 1

原创 揭秘 LlamaIndex OPTIMIZING:通往高级LLM应用开发的捷径

在当今AI领域的热潮中,LlamaIndex 作为一款赋能大型语言模型(LLMs)并革新其应用场景的热门工具,已悄然成为众多开发者和企业眼中的焦点。它不仅连接了大模型与外部数据源之间的鸿沟,更是在 LLMOps 领域树立起一面鲜明的旗帜。然而,对于许多跃跃欲试的技术爱好者而言,LlamaIndex 所蕴含的进阶功能犹如隐藏在代码丛林中的瑰宝,等待着我们去发掘。今天,就让我们一同深入探索这个神秘的“黑匣子”,无需一行行研读英文文档,也能轻松掌握那些赋予 LlamaIndex 强大力量的关键特性。

2024-02-29 23:34:30 1541 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除