歸藏(guizang.ai) Profile picture
May 8, 2023 20 tweets 5 min read Read on X
手把手教你训练你自己的AI歌手,最重要的一步来了。如何训练歌手的模型。这一步主要由两部分组成数据处理和模型训练。
这个林俊杰是我自己训练的4800步的模型,对比一下上一篇教程里的孙燕姿模型有两万多步,数据的质量也很重要。
感谢各位的支持,下面是具体步骤🧶
详细教程和文件下载可以看这里:mp.weixin.qq.com/s/IeeW1PbMUbxM… Image
首先我们需要准备你训练的人的声音素材,尽量找质量比较高人声比较清晰的音频。

歌手的声音素材是比较好找的,因为他们的歌就是天然的素材,我们在训练的时候最少要准备30分钟以上的人声素材,一般一个小时到两个小时最好。但是声音的质量大于时间长度,不要为了凑数搞一些质量不那么好的素材。
在准备好足够的声音素材之后我们开始对素材进行处理,跟第一期一样,先把我们的素材转换为WAV格式,批量转换的话还是用格式工厂之类的本地软件比较快。

获取到我们个WAV格式素材之后,继续进行跟上个教程一样的步骤利用UVR去掉我们素材的伴奏以及混响之类的声音,只留下单纯的人声。 ImageImage
处理完成后扔掉分离出来的伴奏,只留下人声素材,整理好备用。类似我下图这样扔到一个文件夹里。
接下来我们要对处理好的人声文件进行分割,因为如果训练的时候每段文件过长的话容易爆显存。 Image
这个时候就要用到下载文件里的【slicer-gui】这个软件了,它可以自动把声音素材分割成合适的大小。我们先打开slicer-gui,刚开始的参数按我的来就行。

把你你准备好的人声素材拖到【Task List】里面,在Output位置设置好输出文件夹的位置,然后点Start就可以开始分割了。 Image
处理好的文件,基本上就是下面这个文件的样子,处理完成后在输出文件夹把文件从大到小排序,看一下最大的文件时多长的,分割完的素材每一段尽量不要超过15秒。不然有可能会爆显存。

如果你发现有几条素材比较大的话可以拖进slicer-gui里面重新分割一下,参数按我下面图片设置就行。 Image
所有数据处理好之后,我们准备开始训练了首先需要把准备好的素材移动到so-vits-svcdataset_raw这个文件夹下,注意不要直接把素材放在dataset_raw文件夹里,拿个文件夹装好放进去,所有的目录不要有中文字符。 Image
我们开始模型训练,运行so-vits-svc根目录的【启动webui.bat】打开Web UI界面,切换到训练Tab下面。然后点击识别数据集,这时候上面就会展示你数据集文件夹的名字,也会是你模型的名字。 Image
之后就是选择与训练分支了,【vec768-layer12】好像效果会好一些,所以这里我选了这个分支。后就是点击【数据预处理】。

注意这里有个大坑,昨天折腾了我好久,你需要看一下你数据集里面有多少条数据,如果有几百条的的话,你需要把虚拟内存调大点,至于如何调整虚拟内存,这个百度就行,有很多教程。 Image
开始数据预处理之后这个框会有非常多的信息,基本都是进度到百分之几了,如果预处理出错,在这个框的最后会展示报错信息,如果没错这个回显的基本就到100%就结束了。 Image
如果你数据预处理完了,不想看那一堆信息的话可以点那个【清空输出信息】。

数据处理完之后我们来看一下下面的几个参数,调整一下,准备开始训练。

每多少步生成一次评估日志这里,用默认的200步就行 Image
【每隔多少步(steps)验证并保存一次模型】这里默认的800步也就够了,他的意思是每训练800步就会保存一次模型,这个保存的模型你是可以用的

【仅保留最新的X个模型】这个就是字面意思如果每800步保存一次模型的话,你训练到8800的时候第800步的模型就会被自动删除,一个模型大概有1G左右这里看你的硬盘 Image
如果设置成0的话就永远不会自动删除。

【批量大小】这个参数跟你的显卡的显存有关,6G建议是4,我的4070Ti是12G我昨天设置的8,我有点怂,其实12也行,我怕爆显存。 Image
上面几个参数设置完之后,我们选择当前训练分支跟我们数据预处理的时候的一致就行,然后点击写入配置文件,输出信息那里会有写入的结果,如果有报错也会显示在那里。 Image
如果你是第一次训练点击这个【从头开始训练】就行,如果你之前训练过你还想继续训练的话就点这个【继续上一次训练进度】。如果你之前有训练进度,然后你点了【从头开始】的话你的训练进度就会被清空,从新开始从第0步训练。 Image
在你点击按钮之后会弹出这样一个弹窗里面就是训练进度,我框起来的地方就是每200步输出的信息,那个loss的值就是判断模型质量好坏的标准,越低越好。
如果你觉得现在的已经可以了的话按CTAL+C键就会停止训练,你可以去推理tab下尝试你的模型,如果不满意还是可以重新回来训练的。 Image
注意你如果设置的每800步保存的话起码要到800才能暂停训练,不然没有保存的模型供你使用。下面这个图就是模型已经保存的提示。 Image
如果你觉得可以了暂停训练之后回到推理 Tab 就能看到你刚才训练的模型了,可能会有好几个因为你选的最多保留十个。按照我们第一期的内容正常使用就可以了。 Image
以上就是AI歌手的最后一部分内容了,感谢各位,如果觉得对你有帮助的话可以帮助藏师傅转发传播。
详细教程和文件可以在这里查看:mp.weixin.qq.com/s/IeeW1PbMUbxM… Image

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 歸藏(guizang.ai)

歸藏(guizang.ai) Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @op7418

Jan 22
搞了一个牛皮 Skills !

从任何 Youtube 视频链接剪辑为带有双语字幕的短视频和发布文案!

一键完成火爆 Youtube 视频的拆解和发布。

- 自动下载视频和原始字幕
- 自动分析总结字幕并对视频进行分段
- 选择需要剪辑的具体分段
- 翻译已选分段对应多语言字幕
- 将双语字幕烧录进已剪辑视频
- 生成社交媒体配对发布文案
安装及项目地址:

github.com/op7418/Youtube…
之前推荐用 Claude Code+yt-dlp 下载视频,很多人嘲讽说有点脱裤子放屁。

其实是这个 Skills 流程的前置探索,哈哈
Read 7 tweets
Sep 13, 2025
用 Lovart&Seedream 4.0 搞了一套超级牛皮的提示词!

可以将任何文案转换为成套的小红书图文,而且可控性极强,你可以调整任何一页的文案

基本上可以说是自媒体图文生成的终极方案了

👇下面是具体的教程: Image
如果你懒得等施工🚧可以在这里看长文:

mp.weixin.qq.com/s/FcTi0L8RSB5-…
Lovart前天开启了超级优惠活动:

9.10-9.20 Nano Banana 和 Seedream 4.0 模型免费用不扣积分

9.20 前开通基础(Basic)会员的,全年不限量免费用 Seedream4.0 & NanoBanana 两个模型

同时 Veo3 模型全系打三折,Pro+ 会员可灵和 hailuo 模型 20 号以前免费用

最近大家估计都发现了给用户让利才是最好的宣传,哈哈。
Read 16 tweets
Sep 7, 2025
用即梦 (Seed dream) 4 图像模型给自己做一个非常有质感的头像

这还原的也太好了,关键的 ID 要素都还原了,而且有那种非常有质感的笔触效果

提示词在下面👇 Image
提示词:参考图一的风格和样式为图2的角色生成一个图标,图标下方的文字应该为“guizang”

垫了下这个画头像老哥的图,注意自己玩可以不要盈利哈,尤其是垫图这种方式
也可以给你喜欢的游戏或者动漫角色画

优化后的提示词:参考图1的风格和样式为图2的角色生成一个图标,同时只要参考图2的头部位置,像一个头像图标,图标下方的文字应该为“Jinx” Image
Read 5 tweets
Sep 2, 2025
卧槽

今天就一顿捣鼓解决了 Nano Banana 最恶心的一个问题

你现在可以自定义他生成和修改后的图片比例了

👇下面是详细教程: Image
用 Nano Banana 多的朋友可能发现了,就是 Nano Banana 在有多张图片输入的时候,输出图的比例会跟其中一张相同,只不过这个过程很不可控。

藏师傅经过一顿科研发现,你可以用这个方法重新跑一次拯救你的旧图,而且新生成的图片也可以再跑一次重新定义生成比例。
我们需要两张图片来完成这个任务:

首先肯定是你之前生成的结果图,或者是你从其他地方获取的图片只是想更改比例也可以的。

比如我前几天做的这个 AI 书法舞女,由于书法字体每张截图都不一样大,导致生成的图片大小也不一样,很烦,为了生成视频我还得自己裁切,这样就容易丢失信息。 Image
Read 10 tweets
Aug 30, 2025
大聪明(赛博禅心)刚才发了个 Nano Banana 一图读懂XXX的提示词

非常适合用来学习和解释一些概念,浅显易懂

但他那个是针对 Lovart 搞的,我优化了一下,现在单独用Nano Banana也可以稳定生成,而且排版更加一致

下面👇是提示词 Image
Image
Image
Image
提示词:

Help me generate multiple 16:9 doodle-style images to explain the concept of "futures" to middle school students. The images should have a consistent colorful, thick-pencil hand-drawn style, be rich in information, feature English text, use solid color backgrounds, have outlines around the cards, and include uniform titles, similar to a PowerPoint presentation.
上面中文部分是我自己figma排的,需要中文的话可以用图片Vibe Coding一下
Read 5 tweets
Aug 26, 2025
开个帖子记录一下 Gemini 2.5 Flash Image 模型我发掘的一些用法,会持续更新,建议收藏

首先这个模型支持多图参考,为了你提示词好写,你可以给多张图片加上标记

比如这里就是 A 的背景、B 的沙发以及 C 的人物 Image
ID 保持真的很牛批,比如让藏师傅变瘦 Image
Image
这国内的美颜相机、醒图之类的难了啊,现在做这类产品直接提示词就行
Read 30 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(