Apple MLX vs Llama.cpp vs Hugging Face Candle Rust 获得本地LLM

最新推荐文章于 2025-05-28 15:46:11 发布

知识大胖

最新推荐文章于 2025-05-28 15:46:11 发布

阅读量247

点赞数

分类专栏： NVIDIA GPU和大语言模型开发教程 SwiftUI源码大全文章标签： llama rust 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iCloudEnd/article/details/135962452

版权

NVIDIA GPU和大语言模型开发教程同时被 2 个专栏收录

1585 篇文章 ¥89.90 ¥99.00

订阅专栏

SwiftUI源码大全

1424 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文对比了Apple M1芯片上三个流行的LLM库——MLX、Llama.cpp和Hugging Face的Candle Rust的推理/生成速度。通过在MacBook上测试Mistral-7B和Phi-2模型，发现Llama.cpp表现最佳，其次是Candle Rust，MLX速度最慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Mistral-7B 和 Phi-2 用于试验跨库最快的推理/生成速度。

在这里插入图片描述

介绍

在 NLP 部署方面，推理速度是一个关键因素，尤其是对于那些支持 LLM 的应用程序。随着 Apple M1 芯片等移动架构数量的不断增加，评估法学硕士在这些平台上的性能至关重要。在本文中，我比较了三个流行的 LLM 库 - MLX、Llama.cpp和Hugging Face 的Candle Rust在Apple M1 芯片上的推理/生成速度。旨在帮助开发人员完成任务，他们必须考虑性能、实施的便利性以及与可用工具和框架的兼容性，选择最合适的库在本地计算机上部署 LLM。为了测试推理速度，我使用了两个高级的LLM模型；Microsoft 的 Mistral-7B 和 Phi-2。根据结果，我们为想要提高 LLM 性能的开发人员提供了一些建议，特别是针对 Apple M1 芯片的性能

安装说明

我不会深入讨论安装过程的细节，但每个库的起点已在下面讨论。

骆驼.cpp
主要目标llama.cpp是在 MacBook 上使用 4 位整数量化运行 LLaMA 模型。该库支持除 Llama 之外的多种模型。以下是开始使用Llama.cpp的步骤

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知识大胖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。