资讯中心 >资讯详情

莫奈,Stable Diffusion 和 Dell Pro Max Tower T2

AI 绘画日新月异,展现出前所未有的创造力,内容创作者可以通过自然语言交互的方式用AI软件创造出令人惊艳的画面。想象力和语言表达能力是AI绘画时代的新画笔和新颜料,这让我们不禁想象,如果莫奈这样的大师再世,用现今的AI技术和硬件,能创作出怎样的杰作?斯人已去,我们能做的便是借助AI工具与顶尖硬件,对大师的风格进行一次非专业的致敬尝试。

莫奈和他的不朽杰作

克劳德·莫奈(Oscar-Claude Monet,1840年11月14日-1926年12月5日),全名奥斯卡-克劳德·莫奈,法国印象派画家,印象派创始人之一,出生于巴黎,被誉为“印象派领导者”。莫奈创作了扬名于世的《印象·日出》,这幅油画描绘的是透过薄雾观望阿佛尔港口日出的景象。直接戳点的绘画笔触描绘出晨雾中不清晰的背景,多种色彩赋予了水面无限的光辉,并非准确地描画使那些小船依稀可见。真实地描绘了法国海港城市日出时的光与色给予画家的视觉印象。这幅画在1874年开幕的印象派画家第一次联合展览会上展出,这幅作品是莫奈画作中最具典型的一幅。
莫奈类似画风的派佳作还有很多,例如《滑铁卢桥》《翁费勒的塞纳河口》《日落之时》等经典作品,它们无一不呈现出莫奈作为19世纪法国最负盛名印象派大师的杰出天赋。

Stable Diffusion

作为 AIGC 绘画最为知名和广泛传播的开源软件,Stability AI 开发的 Stable Diffusion 是很多AI绘画创作者的启蒙工具。Stable Diffusion 丰富、灵活的参数控制和天马行空的AI画风,让很多未曾接触过AI绘画的人第一次体验到AI的魔力。

从2022年开始,Stability AI 陆续推出了SD 1.0,SD 2.0,SDXL,SD3.0,SD 3.5五个版本,功能逐步提升的同时模型参数量也随之提高,从SD1.0的8亿增加到SD3.5的最高130亿,为本地部署带来更高的硬件需求:

这当中最为成功的版本是 SD1.0,SDXL 和 SD3.5。SD2.0 相对 SD1.0 性能改善有限,属于过渡性版本,下载量较少;SD 3.0 则因为 Stability AI 核心团队的出走(他们独立创业开发了跟SD3.5对标的另外一款优秀的AI生图软件Flux)和一些显著的缺陷(特别是人物绘画方面)被诟病较多。细分版本中 Huggingface 累计下载量最大的是 SD1.5(5亿+),SDXL1.0 Base(3亿+) 和 SD3.5 Large(800万+)。SD1.5和SDXL1.0 Base可以通过上手较为简单的 WebUI 进行操作。出图要求不是很高的前提下,这两个版本对显存的要求也在大多数人可以接受的范围之内。围绕这两个版本开发的各种插件(Controlnet/Lora)等数量众多、风格迥异,为启蒙并丰富开源AI绘画生态做出极大贡献。

WebUI 界面示意:

2024年底发布的SD 3.5 Large性能有大幅改进,新模型对于自然语言的理解和生图细节及表现力上都有让人惊艳的表现,但由于参数量达到了惊人的8.9~13B,SD3.5 Large的部署难度也爬上了一个新台阶,并且需要用更复杂的 ComfyUI 作为运行环境:

ComfyUI 界面示意:

SD3.5 Large 硬件要求也水涨船高,需要更大显存的显卡运行模型(24G以上),更大内存用来加载T5文本编码器(原版T5编码器至少64G,量化版至少32G),更大容量的高速固态硬盘来保存训练生成的过程模型、插件以及训练数据……,然而这些对于使用 Stable Diffusion 作为生产力工具、既要速度又要质量还要创意的广大 AIGC 内容创作者们而言显然都是值得的!

如果我们用这三个不同版本的 Stable Diffusion 原始模型来生成莫奈印象派画风的图像效果会如何呢?我们通过下面的小测试来做个比较,使用相同的硬件配置和相同的提示词(Prompt: Monet style painting, impressionism painting, foggy morning sunrise, port, boat, smoky cloud. 中文:莫奈风格绘画,印象派画作,雾气弥漫的清晨日出,港口、船只与缭绕的烟云)来看三个模型是否可以生成类似《印象·日出》风格的图片,结果如下。 从三幅图片可以看到三个模型在语义理解和图片生成效果上的差异,

  • SD1.5 基本理解语义,但没有具体体现出日出、港口、船只等细节,莫奈的画风有体现但并不强烈;

  • SDXL 语义理解准确,在细节和美感上有很大提升,但画面因为过于精致而缺少印象派绘画的特点;

  • SD3.5 语义理解更为准确,这体现在画面中更多贴近语义的细节处理和更富于美感的展现,但跟 SDXL 一样,它并没有体现莫奈的画风。

是否有办法让三个模型都能掌握莫奈的画风呢? 这需要通过模型训练来实现。Stable Diffusion 模型的训练主要有两类,大模型微调(DreamBooth)和 LoRA训练。LoRA(Low-Rank Adaptation)训练与基于底模的微调是 Stable Diffusion 中两种主流的个性化模型训练方法。微调是对原始大模型(如 SD1.5 或 SDXL)的所有权重进行直接更新,使其“记住”新概念(如印象派画风),效果强大但会生成一个完整的新模型(2–7GB),显存消耗大、训练时间较长。而 LoRA 则是一种轻量化适配技术:它冻结原始模型的所有参数,仅在关键层(如注意力模块)中插入可训练的低秩矩阵(通常仅几十到几百MB),通过微小的增量调整来注入新知识。LoRA 模型体积小、训练快、显存需求相对较低,但表达能力略弱于全模型微调。简言之,微调是“重做整个引擎”,LoRA 是“加装一个智能插件”——前者效果极致但成本高,后者高效灵活适合大多数应用场景。我们将进行两种方式的训练测试,来看模型是否可以达到我们需要的效果以及过程中硬件的使用情况。考虑 Stable Diffusion 训练对硬件的超高需求,显然我们需要一台能力超群的电脑来帮助我们实现这个目标。 

Dell Pro Max Tower T2

 

 Dell Pro Max Tower T2 工作站,是 Dell Pro Max 品牌替换原 Dell Precision 工作站品牌之后推出的首款主流塔式工作站。它的上一代产品 Dell Precision 3680 是戴尔出货量最大的塔式工作站,多次在京东618和双11等促销时段荣膺品类排行第一名。Dell Pro Max Tower T2 作为升级产品,延续了 Dell Precision 3680 的全部优势,并在主要部件上进行了升级,搭载了最新英特尔® 酷睿™ Ultra (系列2) CPU,支持最新的 NVIDIA RTX PRO™ Blackwell 系列专业显卡,最高电源规格从 Precision T3680 的 1000W升级到 1500W,最大支持单张双宽 600W GPU,可以支持有需求的用户向更高配置进行扩展。

此次评测采用的T2测试样机配置如下,为了观察不同规格显卡在训练时的表现,我们准备了三张 NVIDIA Ada Lovelace 架构专业显卡做对比(NVIDIA RTX PRO™  Blackwell系列显卡截至发稿尚未上市,后续再安排评测): 

测试显卡主要参数对比:

无论是大模型微调还是 LoRA 训练,都离不开高性能硬件的支撑。由于训练耗时较长,系统的整体稳定性也至关重要。此外,我们进行的是一项向伟大艺术家莫奈致敬的“艺术创作”,这就要求电脑必须具备出色的噪音控制与散热管理能力,以确保我们的“AI艺术家” Stable Diffusion 能够专心致志、持续稳定地工作。幸运的是,Dell Pro Max Tower T2 在机箱与内部散热设计上充分考虑了这些需求:其采用的CPU独立导风罩、三个高速散热风扇以及为显卡设计的侧面镂空等方案,共同实现了高效散热与低噪音控制。

“炼丹”

如业内所言,AI模型训练有如炼丹,也似烧瓷。由于AI训练过程的不可解释性,其中变数很多,可谓“入窑一色,出窑万彩”。充分的准备工作是让大模型“成功修炼”的前提,具体如下:

  • 准备丹炉 – 就是选择一个模型训练用的软件(提供一个封装好各种环境依赖如Python/Pytorch/训练脚本等)和一个靠谱的硬件平台(不仅需要提供训练所需的显存、内存、存储,还需要长时间运行的可靠性)

  • 准备炼丹原料 – 就是准备训练所需的数据集,在我们的case里就是莫奈的画作(当然不是博物馆里的原件,是网上随处可见、不涉及版权问题的图片….

  • 准备炼丹的参数 – 这个部分需要根据训练的目的(LoRA/Dreambooth),数据集的大小和电脑的配置(主要是显存,内存/硬盘辅助)综合决定

  • 炼丹失败的思想准备……

市面上可选的“软丹炉”很多,基本的训练逻辑大同小异,本次训练所用的软件是B站知名技术博主秋叶(致敬!)整理提供的 SD Trainer 训练整合包,该整合包提供了 LoRA 训练和大模型微调训练所需的软件环境,以及处理训练数据集的相关工具。我们将尝试训练 SD1.5,SDXL,SD3.5 的 LoRA 模型来让大模型通过调用 LoRA 生成莫奈印象派风格的画面;同时也将尝试这三个模型的 Dreambooth 训练来尝试让大模型通过训练内化训练素材图的风格,从而真正“学会”莫奈的画风,这样即使不用 LoRA 插件,大模型也能生成我们想要的画面。

在开始训练之前,我们需要准备用于训练的素材图。我们先从网上下载一些莫奈的画作图片,然后对这些素材进行裁剪和打标,以满足训练对数据格式的要求。我们一共准备了20张莫奈最有代表性的作品的高清图作为训练素材。首先我们需要使用SD Trainer的图片裁剪和打标工具进行处理,生成20对图片(512*512)和文字标签(画面内容的文字描述,以便让AI理解)的数据集:

 

然后要进行的是训练器的参数设置,根据不同的训练需求选择 LoRA 或者 Dreambooth 模式并设置相应参数。参数设置的选项很多,涉及训练工作负载的主要是训练参数(最大训练轮次epoch,批量大小batch size),以及学习率和优化器(optimizer)设置,这些参数对于硬件消耗特别是显存有直接的影响,其他参数更多起到辅助作用。

在我们的例子里为了对比不同训练模式下三款显卡的表现,我们对训练参数做同统一设置,LoRA 和 Dreambooth的训练轮次 epoch设置为10(即一共进行10轮训练),重复次数 repeat 设为10 (即每张图片让AI学习10次),batchsize设为1(每次让AI学习1张图),根据数据集中的图片数量(20)计算训练一共要进行的步数(step)是2000 steps。

LoRA 训练截图示意:

Dreambooth 训练截图示意:

“开炉”

训练数据汇总如下:

注:为了测试 NVIDIA RTX™ 5880 Ada 的极限性能,最后一行数据是基于80张分辨率为512*512的训练图集进行的,参数设置后文有详细描述。

主要结论:

1. Dreambooth 微调所需要的显存和训练时长显著高于 LoRA 训练,这反映了前文介绍的两种训练的差异,重新做一个模型 vs 制作一个插件对硬件资源的要求是完全不同的

2. 显卡显存的大小对于显卡可以支持的训练模式和负载有决定性作用,从表中数据可以看到 NVIDIA RTX™ 4500 Ada Generation 和 NVIDIA RTX™ 5000 Ada Generation 很好的支持了所有的 LoRA 训练和 SD1.5 的 Dreambooth 微调,仅在 SDXL Dreambooth 训练时出现了显存少量溢出的情况。NVIDIA RTX™ 5880 Ada Generation 借助48G的超大显存和较高的综合算力,在两种训练场景下均游刃有余,并且在最后一行的极限负载下也顺利完成了训练(基于80张图片的数据集,Batchsize设为80,即每次repeat同时训练80张图 vs 另外两张显卡的20张图的数据集/每次repeat训练20张图以充分利用48G的超大显存)。

3. 显卡的算力决定了训练的速度,从训练时间数据可清楚的看到,相同训练模式和负载的下三张显卡完成训练所需时长随显卡等级升高而递减,这是显卡CUDA核心数/功耗/带宽/频率等参数差异带来的综合结果

4. 专业卡的稳定性是高强度、长时间训练的关键保障,NVIDIA RTX™ 4500 Ada Generation/NVIDIA RTX™ 5000 Ada Generation 虽然在训练工程中出现显存溢出的情况,但得益于专业卡的稳定性和优良制造工艺依旧顺利地完成了训练任务,这对于动辄几个、十几个小时、十万亿级参数训练的场景下是至关重要的。

5. 时间就是金钱,效率就是生命,价值和价格永远成正比,NVIDIA RTX™ 5880 Ada Generation 作为一款旗舰专业显卡,充沛的显存和算力有效支持了各个预设训练场景以及极限测试场景,其相对较高的价格对比它所能节省的时间、所能承载多种工作负载、所能提供的稳定性和由此带来的综合效率提升是完全值得的。

向大师致敬

由于 Dell Pro Max Tower T2 一如既往的稳定表现和 NVIDIA 专业显卡的加持,训练过程十分顺利,我们可以用练好的模型实际生图来检验效果了。先来看一下 SD1.5 的效果吧,可以看到 SD1.5+LoRA 的生成画面相比SD1.5底模生成的画面更贴近提示词的语义,画面内容有更明显的印象派风格; SD1.5 Dreambooth 微调模型在不调用 LoRA的情况下,相同的提示词直接生成了风格更为显著的画面,画面细节满足了提示词的要求:

 

SD1.5+LoRA WebUI 生图截图:

SD1.5 Dreambooth WebUI 微调模型生图截图:

SDXL LoRA 和 Dreambooth微调模型生成的图片如下,可以看到 SDXL+LoRA 生成的画面相比 SDXL 底模生成的画面有了明显的莫奈画风,但问题是这张图片跟莫奈的《印象·日出》原作过于接近,AI的想象能力没有得到充分释放,但再看 SDXL Dreambooth 微调模型生成的图片则兼具了SDXL底模生图的细节和美感,同时通过训练获得了印象派的画风。

最后我们来欣赏一下 SD3.5+LoRA 的生图效果,从下图可以看到, LoRA 模型生成的图片保持了底模生图的细节和美感,同时以AI特有的想象力在原作画风的基础上生成了从未存在过的全新画面。

SD3.5+LoRA ComfyUI 生图截图:

总结:

此次评测以硬件性能测试为主,训练中大部分情况下我们只用20张图片的数据集,是为了方便对比不同的训练模式在相同的工作负载下对于硬件的消耗。在 AIGC 从业者实际生产力应用场景下,为了获得更好的训练效果,无论是LoRA还是Dreambooth训练的要求肯定远大于此(更多的图片、更大的尺寸、更复杂的文本标签、更复杂的训练参数和更长的训练时间等)以达到更好、更多样的训练效果,因此对于硬件会提出更高的要求。如前文所述,Dell Pro Max Tower T2 全面支持NVIDIA 专业显卡,最高支持 NVIDIA RTX™ 5880 Ada Generation (48G),其他核心部件如CPU,内存,存储均有很强的扩展能力,搭配企业级部件的组合、优良的散热管理,可为长时间运行训练、大量生图工作负载带来充分保障,是AIGC创作者可以信赖的选择。

除了 Stable Diffusion 之外,还有很多AIGC生图、视频甚至音频的开源软件,这些工具的普及给广大专业内容创作者提供无限发挥想象力的可能性的同时,也让诸如笔者这样没有经过专业美术训练的普通人,也可以借助AI的力量,仅凭想象力和寥寥数语就可以让AI生成脑海里的画面,甚至可以尝试模仿大师的画风!实现这一切自然还需要趁手的“兵器”,AIGC软件具备神奇的潜力,但部署相对复杂、参数灵活多变、硬件开销较大,广大AIGC创作人需要 Dell Pro Max Tower T2 这样一台血统纯正、调教优良的工作站,搭配 NVIDIA RTX™ 专业显卡 才能真正支持不同工作负载的本地训练和生图,从而实现真正的AIGC创作自由!

热门文章