前言
在拥有了 8张 RTX 4090 这样的顶级算力后,训练一个 Stable Diffusion 的 LoRA 模型对我们来说只是几分钟的事。但很多同学发现,算力再强也解决不了一个核心问题:模型“不听话”。
- 要么过拟合(Overfitting):生成的角色永远穿着训练集里的那套衣服,换都换不掉。
- 要么概念污染(Bleeding):想画一种画风,结果生成的图里莫名其妙出现奇怪的物品。
其实,训练高质量 LoRA 的核心不在于显卡,而在于“数据清洗”和“打标策略”。今天这篇博客就来复盘一下,如何训练出一个高还原度、且泛化性极强的“专一”模型。
一、 核心心法:减法原则
首先要纠正一个误区:训练 LoRA 不需要“大数据”。
对于微调(Fine-tuning)而言,20 张高质量图片胜过 200 张垃圾图。我们要追求的是“信噪比”。
1. 素材准备(Less is More)
- 数量控制:
- 单人/单物 LoRA:15 - 30 张足矣。
- 画风/概念 LoRA:30 - 50 张。
- 背景处理(关键):
- 如果你练的是角色或产品,必须保证 50% 以上的素材是白底/透明底。
- 原理: 复杂的背景是最大的干扰源。如果你的训练集里每一张图都有红色的灯笼,AI 就会认为“红色灯笼”是这个角色身体长出来的一部分。
二、 打标策略:决定生死的“白名单机制”
这是 90% 新手翻车的地方。打标(Captioning)的逻辑必须清晰:你告诉 AI 忽略什么,AI 才会剩下什么。
我们需要区分“固有特征”和“可变特征”。
场景演示:训练特定角色“林黛玉”
我们的目标是:保留她的脸和发型(固有特征),但衣服、动作、背景要能随意切换(可变特征)。
| 打标方式 | 写入 txt 的标签 | AI 的心理活动 | 结果 |
|---|---|---|---|
| 错误示范 | 1girl, solo | “这图里除了 1girl,剩下的白裙子、花篮、大观园背景,肯定都是林黛玉的特征!我都学进去!” | 严重过拟合。换不了衣服,换不了背景。 |
| 正确示范 | 1girl, solo, white dress, holding flower, garden | “哦,原来这白色的东西叫 dress,手里的叫 flower。主人没提脸长什么样,那剩下的脸和发型肯定就是林黛玉的特征了。” | 极度专一。衣服被剥离,脸部特征被精准提取。 |
总结口诀:
想保留的特征(如脸),绝对不要打标。
想剥离的特征(如衣服、背景),疯狂打标。
三、 训练参数:高维低参
利用 Kohya_ss 进行训练时,针对“写实类/高还原”模型,推荐以下参数组合。这不是玄学,是经验总结。
1. 底模选择 (Base Model)
- 铁律: 训练真人/写实物体,请务必使用 SD1.5-pruned.ckpt 或 SDXL-base。
- 避坑: 不要用 ChilloutMix、Anything 等已经融合过无数次的模型做底模。底子越纯,泛化性越好。
2. 维度设置 (Network Rank/Dim)
- Network Rank (Dim): 128
- Network Alpha: 64 (通常设为 Dim 的一半)
- 解析: 高 Rank 意味着模型有更大的“脑容量”去记录面部微小的细节。
3. 正则化 (Regularization) —— 必选项
如果你想让模型“指哪打哪”,一定要加正则化图片。
- 做法: 准备 200 张通用的“woman”或“girl”图片放在
reg文件夹。 - 作用: 防止 AI 练傻了,忘记了“通用的人”长什么样,也防止 AI 认为“全世界的人都必须长得像林黛玉”。
四、 验证环节:X/Y Plot 压力测试
训练完不要直接无脑用,写个脚本跑一张 X/Y Plot。
- 测试 1:还原度测试
- Prompt:
1girl, <触发词>, upper body - 看脸像不像。
- 测试 2:抗干扰测试(宇航服测试)
- Prompt:
1girl, <触发词>, wearing spacesuit, cyberpunk city background, neon lights - 判断标准:
- 如果图里的人还是穿着古装:过拟合(衣服没剥离干净)。
- 如果图里的人脸崩了:欠拟合。
- 如果脸是林黛玉,但成功穿上了宇航服站在霓虹灯下:完美模型 (S级)。
结语
在高校科研或商业落地中,我们不仅要会“炼丹”,更要懂“药理”。
拥有 8 卡 4090 集群给了我们快速试错的资本,但清晰的数据逻辑才是训练出 S 级模型的关键。
下一步进阶预告:
有时候模型脸很完美,但画风却被带偏了怎么办?下一期我们将讲解 “LoRA 分层控制 (Block Weight)” 技术,教你如何精确控制 LoRA 只影响五官,而不干扰光影和构图。
版权属于:soarli
本文链接:https://blog.soarli.top/archives/797.html
转载时须注明出处及本声明。