Skip to content

概览

即便 Ollama 已经是一个强大的用于在本地运行大型语言模型的工具,并且 CLI 的用户体验与使用 Docker CLI 相同,但可惜的是,目前还无法在 Kubernetes 上直接复刻相同的用户体验,特别是同一集群上在运行多个模型时,涉及大量资源和配置。

这就是 Ollama Operator 发挥作用的地方:

  • 在您的 Kubernetes 集群上安装 operator
  • 应用所需的 CRDs
  • 创建您的模型
  • 等待模型被获取和加载,就是这样!

多亏了 lama.cpp 的出色工作,不再担心 Python 环境、CUDA 驱动程序。 通往大型语言模型、AIGC、本地化代理、🦜🔗 Langchain 等的旅程只需几步之遥!

能力

在同一集群上运行多个模型的能力
与所有 Ollama 模型、API 和 CLI 兼容
可以在 常规 Kubernetes 集群K3s 集群 (Respberry Pi(树莓派),TrueNAS SCALE,等等), kind, minikube 上运行
易于安装、卸载和升级
一次拉取,全节点共享(就像普通镜像一样)
易于与现有的 Kubernetes 服务、Ingress,微服务网关等结合使用
除去 Kubernetes 以外,什么都不需要配置

需求

Kubernetes 集群

我必须要有一整套云上或者自部署的 Kubernetes 集群才能用 Ollama Operator 吗?

其实并不是,对于任意的 macOS,Windows 设备而言,只需要安装了 Docker Desktop 或者 macOS 独享的 OrbStack,配合用于在本地运行 Kubernetes 集群的 kindminikube 工具即可在本地启动一个自己的 Kubernetes 集群。

Kubernetes 并没有想象中那么难,只要有 Docker 和一个 Kubernetes 工具,就可以在本地运行 Kubernetes 集群,然后安装 Ollama Operator,就可以在本地运行大型语言模型了。

  • Kubernetes
  • K3s
  • kind
  • minikube

内存需求

要运行 7B 机型,节点上至少应有 8GB 内存;要运行 13B 机型,节点上至少应有 16GB 内存;要运行 33B 机型,节点上至少应有 32GB 内存。

磁盘需求

与一般容器镜像的大小相比,下载的大型语言模型的实际大小非常大。

  1. 建议使用快速稳定的网络连接下载模型。
  2. 如果要运行大于 13B 的模型,则需要高效的存储设备来存储模型。

贡献者

The avatar of contributor named as Neko Ayaka Neko Ayaka

页面历史

布局切换

调整 VitePress 的布局样式,以适配不同的阅读习惯和屏幕环境。

全部展开
使侧边栏和内容区域占据整个屏幕的全部宽度。
全部展开,但侧边栏宽度可调
侧边栏宽度可调,但内容区域宽度不变,调整后的侧边栏将可以占据整个屏幕的最大宽度。
全部展开,且侧边栏和内容区域宽度均可调
侧边栏宽度可调,但内容区域宽度不变,调整后的侧边栏将可以占据整个屏幕的最大宽度。
原始宽度
原始的 VitePress 默认布局宽度

页面最大宽度

调整 VitePress 布局中页面的宽度,以适配不同的阅读习惯和屏幕环境。

调整页面最大宽度
一个可调整的滑块,用于选择和自定义页面最大宽度。

内容最大宽度

调整 VitePress 布局中内容区域的宽度,以适配不同的阅读习惯和屏幕环境。

调整内容最大宽度
一个可调整的滑块,用于选择和自定义内容最大宽度。

聚光灯

支持在正文中高亮当前鼠标悬停的行和元素,以优化阅读和专注困难的用户的阅读体验。

ON开启
开启聚光灯。
OFF关闭
关闭聚光灯。

聚光灯样式

调整聚光灯的样式。

置于底部
在当前鼠标悬停的元素下方添加一个纯色背景以突出显示当前鼠标悬停的位置。
置于侧边
在当前鼠标悬停的元素旁边添加一条固定的纯色线以突出显示当前鼠标悬停的位置。