歸藏 Profile picture
May 8 20 tweets 5 min read Twitter logo Read on Twitter
手把手教你训练你自己的AI歌手,最重要的一步来了。如何训练歌手的模型。这一步主要由两部分组成数据处理和模型训练。
这个林俊杰是我自己训练的4800步的模型,对比一下上一篇教程里的孙燕姿模型有两万多步,数据的质量也很重要。
感谢各位的支持,下面是具体步骤🧶
详细教程和文件下载可以看这里:mp.weixin.qq.com/s/IeeW1PbMUbxM… Image
首先我们需要准备你训练的人的声音素材,尽量找质量比较高人声比较清晰的音频。

歌手的声音素材是比较好找的,因为他们的歌就是天然的素材,我们在训练的时候最少要准备30分钟以上的人声素材,一般一个小时到两个小时最好。但是声音的质量大于时间长度,不要为了凑数搞一些质量不那么好的素材。
在准备好足够的声音素材之后我们开始对素材进行处理,跟第一期一样,先把我们的素材转换为WAV格式,批量转换的话还是用格式工厂之类的本地软件比较快。

获取到我们个WAV格式素材之后,继续进行跟上个教程一样的步骤利用UVR去掉我们素材的伴奏以及混响之类的声音,只留下单纯的人声。 ImageImage
处理完成后扔掉分离出来的伴奏,只留下人声素材,整理好备用。类似我下图这样扔到一个文件夹里。
接下来我们要对处理好的人声文件进行分割,因为如果训练的时候每段文件过长的话容易爆显存。 Image
这个时候就要用到下载文件里的【slicer-gui】这个软件了,它可以自动把声音素材分割成合适的大小。我们先打开slicer-gui,刚开始的参数按我的来就行。

把你你准备好的人声素材拖到【Task List】里面,在Output位置设置好输出文件夹的位置,然后点Start就可以开始分割了。 Image
处理好的文件,基本上就是下面这个文件的样子,处理完成后在输出文件夹把文件从大到小排序,看一下最大的文件时多长的,分割完的素材每一段尽量不要超过15秒。不然有可能会爆显存。

如果你发现有几条素材比较大的话可以拖进slicer-gui里面重新分割一下,参数按我下面图片设置就行。 Image
所有数据处理好之后,我们准备开始训练了首先需要把准备好的素材移动到so-vits-svcdataset_raw这个文件夹下,注意不要直接把素材放在dataset_raw文件夹里,拿个文件夹装好放进去,所有的目录不要有中文字符。 Image
我们开始模型训练,运行so-vits-svc根目录的【启动webui.bat】打开Web UI界面,切换到训练Tab下面。然后点击识别数据集,这时候上面就会展示你数据集文件夹的名字,也会是你模型的名字。 Image
之后就是选择与训练分支了,【vec768-layer12】好像效果会好一些,所以这里我选了这个分支。后就是点击【数据预处理】。

注意这里有个大坑,昨天折腾了我好久,你需要看一下你数据集里面有多少条数据,如果有几百条的的话,你需要把虚拟内存调大点,至于如何调整虚拟内存,这个百度就行,有很多教程。 Image
开始数据预处理之后这个框会有非常多的信息,基本都是进度到百分之几了,如果预处理出错,在这个框的最后会展示报错信息,如果没错这个回显的基本就到100%就结束了。 Image
如果你数据预处理完了,不想看那一堆信息的话可以点那个【清空输出信息】。

数据处理完之后我们来看一下下面的几个参数,调整一下,准备开始训练。

每多少步生成一次评估日志这里,用默认的200步就行 Image
【每隔多少步(steps)验证并保存一次模型】这里默认的800步也就够了,他的意思是每训练800步就会保存一次模型,这个保存的模型你是可以用的

【仅保留最新的X个模型】这个就是字面意思如果每800步保存一次模型的话,你训练到8800的时候第800步的模型就会被自动删除,一个模型大概有1G左右这里看你的硬盘 Image
如果设置成0的话就永远不会自动删除。

【批量大小】这个参数跟你的显卡的显存有关,6G建议是4,我的4070Ti是12G我昨天设置的8,我有点怂,其实12也行,我怕爆显存。 Image
上面几个参数设置完之后,我们选择当前训练分支跟我们数据预处理的时候的一致就行,然后点击写入配置文件,输出信息那里会有写入的结果,如果有报错也会显示在那里。 Image
如果你是第一次训练点击这个【从头开始训练】就行,如果你之前训练过你还想继续训练的话就点这个【继续上一次训练进度】。如果你之前有训练进度,然后你点了【从头开始】的话你的训练进度就会被清空,从新开始从第0步训练。 Image
在你点击按钮之后会弹出这样一个弹窗里面就是训练进度,我框起来的地方就是每200步输出的信息,那个loss的值就是判断模型质量好坏的标准,越低越好。
如果你觉得现在的已经可以了的话按CTAL+C键就会停止训练,你可以去推理tab下尝试你的模型,如果不满意还是可以重新回来训练的。 Image
注意你如果设置的每800步保存的话起码要到800才能暂停训练,不然没有保存的模型供你使用。下面这个图就是模型已经保存的提示。 Image
如果你觉得可以了暂停训练之后回到推理 Tab 就能看到你刚才训练的模型了,可能会有好几个因为你选的最多保留十个。按照我们第一期的内容正常使用就可以了。 Image
以上就是AI歌手的最后一部分内容了,感谢各位,如果觉得对你有帮助的话可以帮助藏师傅转发传播。
详细教程和文件可以在这里查看:mp.weixin.qq.com/s/IeeW1PbMUbxM… Image

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 歸藏

歸藏 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @op7418

May 8
AIGC Weekly #20更新了,本期主要介绍了谷歌泄露的文件引发的讨论以及New Bing的一堆更新内容等和其他一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看:op7418.zhubai.love/posts/22673345… Image
🥰本周精选(1):

谷歌泄露文档“我们没有护城河,OpenAI也没有”:semianalysis.com/p/google-we-ha…

Stability AI CEO Emad表示他同时文章中的大部分观点,但以创新为护城河很难建立企业:
Alex Dimakis也表示同意这些观点大学和开源社区应该组织更多的活动来管理数据集:

Andrej Karpathy表示预训练LLM基础模型仍然非常昂贵。由于最近的PEFT(参数高效训练)技术非常有效,因此微调LLM正在变得非常便宜且有效 Image
Read 15 tweets
May 8
答应大家的AI歌手教程来了,手把手教你训练你自己的AI歌手,主要分为使用模型和训练模型两部分,这里是第一部分如何使用模型生成音乐的部分,主要介绍了音源的处理,模型的使用和后期音轨的合成。
看在藏师傅生病肝教程的份上希望各位多多支持,下面是具体步骤🧶
详细教程和文件下载可以看这里:mp.weixin.qq.com/s/bXD1u6ysYkTE… Image
要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去,所以我们需要先对你垫进去的声音进行处理。
首先要安装UVR_v5.5.0,完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的Ultimate Vocal Removermodels就行。 Image
Read 14 tweets
May 7
测试了一下粤语的效果。AI孙燕姿《爱的太迟》,这个效果好太多了。
答应大家的教程来了,这是第一部分如何使用模型:
Read 4 tweets
May 7
前几天B站首页刷到了一个AI孙燕姿唱的黑色毛衣,给我听傻了,确实太像了。
所以这几天研究了一下,成果就是这个AI孙燕姿唱的红颜旧,还是有一些小瑕疵,音源的质量有点差。已经花两天大概摸清楚了使用和训练模型的方法,藏师傅再整个保姆级教程?
这里是另一个尝试,这个效果好点
答应大家的教程来了,这是第一部分如何使用模型:
Read 4 tweets
May 6
周六了,继续上传一下我上周 #晚安提示词 生成的所有图片,同时也对内容结构进行了更新,你现在能在页面看到所有图片相关主题的提示词和对应的推特教程了。
页面链接:walling.app/kDaEnjcPrTTkWy… Image
Read 5 tweets
May 5
#Midjourney晚安提示词 今天看到一篇文章主要是用Midjourney的Blend功能生成品牌的延展图形的,然后我就想试一下。上面的两张图片是原图,下面两张是混合生成。
下面是一些使用的技巧: twitter.com/i/web/status/1… ImageImageImageImage
我之前居然从来没用过blend功能,了解了一下是为了方便移动端使用做的一个功能官方说本质上相当于两段提示词一起使用,拿我之前的一些图进行了混合有一些居然有很好的效果。 Image
首先是如何使用,输入/blend来使用,最多支持五张图混合,但建议2-3张就行,多了效果不好。 Image
Read 8 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(