news 2026/7/2 7:59:17

kohya-ss/sd-scripts 图像生成与训练脚本完全指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
kohya-ss/sd-scripts 图像生成与训练脚本完全指南

kohya-ss/sd-scripts 图像生成与训练脚本完全指南

【免费下载链接】sd-scripts项目地址: https://gitcode.com/gh_mirrors/sd/sd-scripts

项目概述

kohya-ss/sd-scripts 是一个功能强大的 Stable Diffusion 图像生成与训练工具集,提供了从基础图像生成到高级模型训练的全套解决方案。该项目基于 Diffusers 库构建,支持多种 Stable Diffusion 模型和扩展功能。

核心功能模块

图像生成模块

项目提供了多个图像生成脚本,满足不同需求:

gen_img_diffusers.py- 基于 Diffusers 的主要图像生成脚本,支持文本到图像、图像到图像、局部修复等多种模式。

sdxl_gen_img.py- 专为 SDXL 模型设计的图像生成工具,优化了大型模型的生成效率。

gen_img.py- 传统的图像生成脚本,兼容早期版本。

训练模块

DreamBooth 训练

  • train_db.py - 完整的 DreamBooth 训练实现
  • 支持 U-Net 和 Text Encoder 的训练

LoRA 训练

  • train_network.py - 标准的 LoRA 网络训练
  • sdxl_train_network.py - SDXL 专用的 LoRA 训练

Textual Inversion 训练

  • train_textual_inversion.py - 基础文本反转训练
  • train_textual_inversion_XTI.py - 扩展的文本反转训练

主要脚本详解

图像生成脚本

gen_img_diffusers.py 是该项目的核心图像生成工具,具有以下特点:

  • 支持无令牌长度限制的文本到图像生成
  • 解析提示词中的权重设置
  • 兼容 Stable Diffusion 1.x 和 2.x 系列
  • 支持 LoRA 模型和 ControlNet v1.0
  • 可加载自定义 VAE 模型
  • 支持 Textual Inversion 嵌入

基础使用示例

python gen_img_diffusers.py --ckpt model.ckpt --outdir outputs --xformers --fp16

高级功能

ControlNet 支持

  • 通过 control_net_lllite.py 和 control_net_lllite_for_train.py 实现
  • 支持多种预处理方法
  • 可同时使用多个 ControlNet 模型

LoRA 应用

  • 支持多 LoRA 同时使用
  • 可调整各个 LoRA 的权重
  • 区域特定的 LoRA 应用

模型管理工具

模型转换

convert_diffusers20_original_sd.py 提供了模型格式转换功能:

  • Diffusers 格式与原始 Stable Diffusion 格式互转
  • 支持 safetensors 格式

模型合并

merge_models.py 支持将多个模型合并:

  • 权重平均合并
  • 支持不同模型的融合

LoRA 管理

extract_lora_from_models.py 可从现有模型中提取 LoRA 权重

merge_lora.py 和 sdxl_merge_lora.py 提供了 LoRA 模型的合并功能

实用工具集

图像处理工具

resize_images_to_resolution.py 提供图像尺寸调整功能:

  • 批量调整图像分辨率
  • 支持多种插值方法

标签生成

tag_images_by_wd14_tagger.py 使用 WD14 标签器为图像生成标签

数据集准备

prepare_buckets_latents.py 为训练准备数据集

安装与配置

环境要求

  • Python 3.10.6
  • Git
  • PyTorch 2.1.2(推荐)

依赖安装

pip install torch==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118 pip install --upgrade -r requirements.txt pip install xformers==0.0.23.post1 --index-url https://download.pytorch.org/whl/cu118

性能优化

内存管理

  • 启用 xformers 减少显存占用
  • 使用半精度计算(fp16/bf16)
  • 调整批量大小平衡速度与质量

生成质量提升

  • 合理设置采样步数(推荐28-50步)
  • 使用高清修复功能获得更佳效果
  • 尝试不同引导尺度找到最佳平衡点

文档资源

项目提供了详细的使用文档:

  • 训练指南:docs/train_README-zh.md
  • 数据集配置:docs/config_README-en.md
  • DreamBooth 训练指南:docs/train_db_README-zh.md
  • LoRA 训练文档:docs/train_network_README-zh.md

总结

kohya-ss/sd-scripts 为 AI 图像创作提供了从基础生成到专业训练的完整工具链。通过掌握这些工具的使用方法,用户可以根据自己的需求进行各种定制化的图像生成和模型训练。

【免费下载链接】sd-scripts项目地址: https://gitcode.com/gh_mirrors/sd/sd-scripts

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 2:45:15

ms-swift多模态训练支持图像+视频+语音混合输入:全模态融合新体验

ms-swift多模态训练支持图像视频语音混合输入:全模态融合新体验 在智能体日益逼近“类人交互”的今天,用户早已不满足于一个只会复述文本的AI助手。他们希望系统能看懂监控视频中的异常行为、听清客户电话里的抱怨情绪、结合商品图片生成营销文案——这正…

作者头像 李华
网站建设 2026/6/29 23:26:27

LoRA训练终极指南:从零基础到高效部署的完整攻略

LoRA训练终极指南:从零基础到高效部署的完整攻略 【免费下载链接】LoRA_Easy_Training_Scripts A UI made in Pyside6 to make training LoRA/LoCon and other LoRA type models in sd-scripts easy 项目地址: https://gitcode.com/gh_mirrors/lo/LoRA_Easy_Train…

作者头像 李华
网站建设 2026/6/23 14:00:19

Mirai Console QQ机器人框架终极指南:从零打造智能聊天助手

Mirai Console QQ机器人框架终极指南:从零打造智能聊天助手 【免费下载链接】mirai-console mirai 的高效率 QQ 机器人控制台 项目地址: https://gitcode.com/gh_mirrors/mi/mirai-console 你是否曾梦想拥有一个能自动回复消息、管理群聊、执行定时任务的智能…

作者头像 李华
网站建设 2026/7/1 1:15:57

5分钟掌握Android滑动布局:SwipeRevealLayout让交互更流畅

5分钟掌握Android滑动布局:SwipeRevealLayout让交互更流畅 【免费下载链接】SwipeRevealLayout Easy, flexible and powerful Swipe Layout for Android 项目地址: https://gitcode.com/gh_mirrors/sw/SwipeRevealLayout 还在为Android应用添加滑动操作而烦恼…

作者头像 李华
网站建设 2026/7/1 2:14:27

Tooll 3视觉编程系统:构建下一代动态图形创作平台

Tooll 3视觉编程系统:构建下一代动态图形创作平台 【免费下载链接】t3 Tooll 3 is an open source software to create realtime motion graphics. 项目地址: https://gitcode.com/GitHub_Trending/t3/t3 在数字艺术创作领域,实时图形处理技术正经…

作者头像 李华
网站建设 2026/6/13 21:35:08

5分钟掌握open-eBackup:从零开始的数据保护实战指南

5分钟掌握open-eBackup:从零开始的数据保护实战指南 【免费下载链接】open-eBackup open-eBackup是一款开源备份软件,采用集群高扩展架构,通过应用备份通用框架、并行备份等技术,为主流数据库、虚拟化、文件系统、大数据等应用提供…

作者头像 李华