soarli 发布的文章

故障排查：Ollama 服务停止后显存不释放？教你三招彻底清理“僵尸显卡”

💥 案发现场在搭建 8x RTX 4090 的 Ollama 高并发集群时，我编写了脚本来启动多个实例。然而在调试过程中，当我试图停止脚本或重启服务时，遇到了一个让人血压升高的现象：并没有任何模...

🚀 背景与痛点最近在部署一台拥有 8 张 NVIDIA RTX 4090 的高性能服务器时，我遇到了一个典型的“算力浪费”问题。场景复现：使用 Ollama 运行 Gemma 27B 模型。一张...

引言：为什么要本地运行 LLM？随着 Llama 3、Mistral 和 Qwen 等开源模型越来越强，很多开发者开始寻找替代 OpenAI API 的方案。本地运行 LLM 不仅完全免费，还能...

引言在 2024 年的 AI 开发浪潮中，开发者往往面临两个阶段的挑战：入门阶段：如何把大模型（LLM）接入应用？（使用 LangChain）进阶阶段：如何构建能够自我纠错、多轮思考的智能体...

引言：AI 应用开发的“下半场”在大语言模型（LLM）应用开发的初期，我们都在做“填空题”：把 Prompt 发给模型，拿回结果。但在 2024 年之后的“下半场”，重点已经从简单的问答（Cha...

用管理员权限登录Open WebUI并按照图示操作：到这里其他人就能看到允许可见的模型了：

本文基于官方文档整理，并结合了实战中遇到的 Docker Compose 版本过低（V1 vs V2）以及 80 端口占用问题，提供了一套能够直接落地、一次跑通的解决方案。🛠 一、环境准备（关...

前言：磁盘扩容的痛点对于运维和开发人员来说，云服务器或虚拟机（VMware/ESXi/PVE）磁盘空间告急是家常便饭。通常我们在云控制台或虚拟机设置里把硬盘从 50G 调整到了 100G，但进入...

前言在 Linux 服务器上部署本地大模型，Ollama 凭借其极致的易用性成为了首选方案。但在生产环境或多人共享环境下，默认配置往往不够用：并发数仅为 1，模型加载超时时间较短。本文将记录一套...