# 打造智能数据管道:用Databricks Lakehouse解锁AI潜力
## 引言
在大数据和人工智能的发展浪潮中,能够一站式管理数据、分析和AI模型的平台显得尤为重要。Databricks Lakehouse平台正是这样一个解决方案。本文将带您快速了解如何在Databricks上使用大语言模型(LLMs),并利用LangChain应用来构建智能工具。
## 主要内容
### Databricks LLM入门概览
Databricks LLM类封装了一个完成型端点,支持两种类型的端点:
- **Databricks Model Serving**:推荐用于生产和开发。
- **Cluster driver proxy app**:推荐用于交互式开发。
### 重要限制
值得注意的是,Databricks LLM类是一个较旧的实现,存在多个局限性:
- 仅支持同步调用,不支持流式或异步API。
- 不支持批量API。
要实现这些功能,请使用新的`ChatDatabricks`类,后者支持所有`ChatModel`的API,包括流式、异步和批量处理等。
### Databricks模型的设置
要访问Databricks中的模型,您需要:
1. 创建一个Databricks账号。
2. 设置信凭(在Databricks之外运行时)。
3. 安装必要的软件包。
#### 信凭配置(仅适用于Databricks之外)
对于在Databricks之外运行LangChain应用的情况,您需要手动设置Databricks工作区主机名和个人访问令牌(DATABRICKS_HOST 和 DATABRICKS_TOKEN)环境变量。有关获取访问令牌的更多信息,请参见[认证文档](https://docs.databricks.com/security/authentication.html)。
```python
import getpass
import os
os.environ["DATABRICKS_HOST"] = "https://your-workspace.cloud.databricks.com"
os.environ["DATABRICKS_TOKEN"] = getpass.getpass("Enter your Databricks access token: ")
安装软件包
LangChain Databricks集成在langchain-community
包中,此外还需要mlflow >= 2.9
才能运行笔记本中的代码。
%pip install -qU langchain-community mlflow>=2.9.0
代码示例
以下示例展示了如何利用Databricks LLM进行简单的调用:
from langchain_community.llms import Databricks
llm = Databricks(endpoint_name="YOUR_ENDPOINT_NAME")
response = llm.invoke("How are you?")
print(response)
# 输出示例:'I am happy to hear that you are in good health and as always, you are appreciated.'
输入与输出的转化
有时,您可能需要包装一个具有不兼容模型签名的服务端点。通过transform_input_fn
和transform_output_fn
参数,可以定义额外的前/后处理。
def transform_input(**request):
full_prompt = f"""{request["prompt"]}
Be Concise.
"""
request["prompt"] = full_prompt
return request
def transform_output(response):
return response.upper()
llm = Databricks(
endpoint_name="YOUR_ENDPOINT_NAME",
transform_input_fn=transform_input,
transform_output_fn=transform_output,
)
response = llm.invoke("How are you?")
print(response)
# 输出示例:'I AM DOING GREAT THANK YOU.'
常见问题和解决方案
网络限制问题
由于某些地区的网络限制,开发者可能需要考虑使用API代理服务来提高访问的稳定性。
配置错误
确保对于在Databricks之外的应用,已正确设置环境变量,并确保没有硬编码的敏感信息。
总结
Databricks Lakehouse提供了一站式的数据和AI管理解决方案,是大数据时代的不二选择。继续深入了解Databricks的强大功能,请参考以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---