💥 案发现场在搭建 8x RTX 4090 的 Ollama 高并发集群时,我编写了脚本来启动多个实例。然而在调试过程中,当我试图停止脚本或重启服务时,遇到了一个让人血压升高的现象:并没有任何模...
🚀 背景与痛点最近在部署一台拥有 8 张 NVIDIA RTX 4090 的高性能服务器时,我遇到了一个典型的“算力浪费”问题。场景复现:使用 Ollama 运行 Gemma 27B 模型。一张...
引言:为什么要本地运行 LLM?随着 Llama 3、Mistral 和 Qwen 等开源模型越来越强,很多开发者开始寻找替代 OpenAI API 的方案。本地运行 LLM 不仅完全免费,还能...
引言在 2024 年的 AI 开发浪潮中,开发者往往面临两个阶段的挑战:入门阶段: 如何把大模型(LLM)接入应用?(使用 LangChain)进阶阶段: 如何构建能够自我纠错、多轮思考的智能体...
引言:AI 应用开发的“下半场”在大语言模型(LLM)应用开发的初期,我们都在做“填空题”:把 Prompt 发给模型,拿回结果。但在 2024 年之后的“下半场”,重点已经从简单的问答(Cha...
用管理员权限登录Open WebUI并按照图示操作:到这里其他人就能看到允许可见的模型了:
本文基于官方文档整理,并结合了实战中遇到的 Docker Compose 版本过低(V1 vs V2)以及 80 端口占用问题,提供了一套能够直接落地、一次跑通的解决方案。🛠 一、 环境准备(关...
前言:磁盘扩容的痛点对于运维和开发人员来说,云服务器或虚拟机(VMware/ESXi/PVE)磁盘空间告急是家常便饭。通常我们在云控制台或虚拟机设置里把硬盘从 50G 调整到了 100G,但进入...
前言在 Linux 服务器上部署本地大模型,Ollama 凭借其极致的易用性成为了首选方案。但在生产环境或多人共享环境下,默认配置往往不够用:并发数仅为 1,模型加载超时时间较短。本文将记录一套...