歸藏(guizang.ai) Profile picture
May 8, 2023 14 tweets 4 min read Read on X
答应大家的AI歌手教程来了,手把手教你训练你自己的AI歌手,主要分为使用模型和训练模型两部分,这里是第一部分如何使用模型生成音乐的部分,主要介绍了音源的处理,模型的使用和后期音轨的合成。
看在藏师傅生病肝教程的份上希望各位多多支持,下面是具体步骤🧶
详细教程和文件下载可以看这里:mp.weixin.qq.com/s/bXD1u6ysYkTE… Image
要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去,所以我们需要先对你垫进去的声音进行处理。
首先要安装UVR_v5.5.0,完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的Ultimate Vocal Removermodels就行。 Image
在处理之前你需要把你声音的格式转换成WAV格式,因为So-VITS-SVC 4.0只认WAV格式的音频文件,现在处理了后面会省事点。可以用这个工具处理:aconvert.com/cn/audio/mp4-t… Image
处理完音频文件后我们就要开始利用UVR去掉背景音了,一共需要过两次,每次的设置都是不同的,下面两张图分别是两次的参数。 ImageImage
接下来我们就要运行整合包的Web UI来推理声音了,如果你用的其他人的模型的话你需要先把模型文件放进整合包对应的文件夹下面:

首先是模型文件夹下面后缀为pth和pt的两个文件放到整合包的logs44k文件夹下。

之后是模型文件里那个叫config.json的json文件,放到整合包的configs文件夹下面。 Image
接下来我们就可以运行整合包的Web UI了,打开整合包根目录下的【启动webui.bat】这个文件他会自动运行并打开Web UI的网页,经常玩Stable Diffusion的朋友肯定对这个操作不陌生。

下面就是Web UI的界面我们使用模型的时候主要用的是推理这个功能。 Image
之后就是选择我们的模型,如果你刚才已经把模型放到合适的位置的话你现在应该能在下图的两个位置选择到你的模型和配置文件,如果有报错会在输出信息的位置显示。 Image
选择完模型之后我们需要点击加载模型,等待一段时间Loading之后模型会加载完成。Output Message这里会输出加载的结果。 Image
之后就是上传我们处理好的需要垫的音频文件了,把文件拖动到红框位置就行。
接下来是两个比较重要的选项怕【聚类f0】会让输出效果更好,但是如果你的文件是歌声的话不要勾选这个选项,不然会疯狂跑调。【F0均值滤波】主要解决哑音问题,如果你输出的内容有比较明显的哑音的话可以勾选尝试一下。 ImageImage
设置好之后我们点击【音频转换】按钮之后经过一段时间的运算,就可以生成对应的音乐了。
【output audio】的位置就是生成的音频了可以试听,如果觉得OK的话可以,点击右边三个点弹出的下载按钮下载。 ImageImage
我们现在生成的是一段只有人声的干声,这时候我们刚才剥离出来的伴奏就有用了,把两段音频合成就行,我用的剪映,直接把两段音轨拖进去导出就行,也可以加张图片变成视频。 Image
好了模型的使用部分到这里就结束了,理论上你现在如果有孙燕姿的模型的话已经可以生产AI音乐了。垫的音频文件也有一些要求,首先肯定是人声要清晰,伴奏最好少点去的也干净同时效果也会更好。感谢支持。
详细教程和文件可以在这里查看:mp.weixin.qq.com/s/bXD1u6ysYkTE… Image
对了上面林俊杰的模型是我自己炼的,步数比较少,效果没有孙燕姿这个好,轻拍

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 歸藏(guizang.ai)

歸藏(guizang.ai) Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @op7418

Feb 19
Obsidian 加 Cursor 就是最强AI知识库!

最近发现用 Cursor 这些 AI IDE 可以完美充当 Obsidian 的 AI 辅助插件

写了个教程,主要是三个使用方式:

- 帮助你用模糊的问题检索你的笔记库
- 帮助你基于笔记库进行研究
- 帮你生成和修改笔记

下面是详细内容👇: Image
这里是完整的教程,需要有好的阅读体验和上下文的可以看这里:mp.weixin.qq.com/s/3mlhd5lRBSz3…
教程里为了照顾大多数人我会用默认中文而且免费的 Trae 演示。

但是由于现在 AI IDE 都大同小异,所以你用 Cursor 或者 Windsurf 也可以看懂甚至,快捷键和按钮位置都一样的。

没收钱嗷,别冤枉我,单纯就这玩意免费,好上手
Read 9 tweets
Feb 8
节后开工,Deepseek爆火出圈,让许多人首次免费体验到顶级AI模型的震撼

巨大的流量带来了两类乱象:

API 购买和配置复杂
无良媒体和产品用蒸馏的 R1 版本欺骗用户

很多朋友找我问怎么才能简单方便的用到满血 R1,找了一圈发现还是纳米AI搜索靠谱

👇下面给不太了解 AI 的朋友解释一下: Image
一顿操作买了个 API

Deepseek R1 是开源的,所以在官方服务崩溃之后,很多第三方云服务商看到了机会,开始部署模型。

模型部署之后其实是需要一个前端界面去展示 API 的输出结果的,很多用户其实非常小白,可能对我们圈内人来说很正常的操作,然后使用对他们来说难如登天。

很多人一顿操作买了 API 之后才发现痛苦的旅程刚开始,API Key 是什么东西?我不是买了吗,为什么还需要客户端?这一堆东西我该填到哪?

所以对于小白用户来说最好还是有一个直接可以聊天的 ChatBot 客户端可以直接给他们用,纳米AI搜索这点就做的很好。

在纳米AI搜索使用满血的 Deepseek R1 只需要下面这几步:

下载纳米AI搜索 APP-点击导航栏的大模型-选择 Deepseek R1-联网满血版,开聊就行,如果需要联网搜索的话可以点击下方的联网搜索按钮。Image
真假 Deepseek R1

比较严重的第二个问题是以次充好和一些无良媒体骗用户本地部署模型。

这两个问题其实都来源于一个原因,Deepseek 在发布 R1 的时候其实还一起放出了其他模型。

R1 一起发布的还有用 R1 生成的推理数据蒸馏过的 6 个开源小模型,他们的模型名字里面也包含了 R1,但是和满血R1有很大的差别。

我们知道 Deepseek R1 之所以厉害是因为进行了 RL 也就是强化学习的训练,而了类似 DeepSeek-R1-Distill-Qwen-32B 这类模型是利用 R1 的数据在原来的模型基础上(比如 Qwen-32B)进行 STF 训练出来的。

虽然他们训练之后相较于原来的开源模型在各项能力上获得了大幅提升,但由于没有经过 RL 强化学习的训练和较小的模型尺寸原因,模型能力是远远赶不上满血的 671B R1 模型的。Image
Read 5 tweets
Feb 4
整理了一下各行业的专家使用 Open AI Deep Research 后的一些反馈和案例

希望可以对他擅长做的事情有一些参考

具体的引用来源在下面👇 Image
医学专家让 Deep Research 协助处理癌症病例,表示生成的报告无可挑剔

Ethan Mollick 表示 OpenAI 更像是聘请一位固执己见的博士研究人员,跟谷歌的不太一样。

Read 8 tweets
Jan 25
怎么好几天了信息流上还全是Deepseek R1

R1给海外从业者和企业负责人带来的冲击太大了

昨晚有几件关于 R1 的事情导致了讨论继续发酵

👇下面有详细的来源引用 Image
lmarena R1出分了,目前排第三仅次于两个Gemini模型,硬提示、编码、数学排第一

WebDev Arena R1的成绩也出了,排第二仅次于 Claude 3.5 Sonnet

Read 6 tweets
Jan 24
Open AI 发布了 Operator

可以帮你操作浏览器的 AI Agents

目前只有美国 IP 的 Pro 用户才能使用

下面是一些官方介绍和体验案例,可能会帮你省 1500 Image
Open AI 官方介绍

Operator 由一种名为计算机使用代理(CUA)的新模型驱动。

合了 GPT-4o 的视觉能力与通过强化学习实现的高级推理

经过训练可以与用户界面进行交互

遇到挑战或犯错,Operator 可以利用其推理能力进行自我纠正

Operator 阅读 Tripadvisor 上的酒店评论以找到斯德哥尔摩最好的酒店桑拿

Read 9 tweets
Jan 22
海螺语音上线,测试了一下这可能是国内最好的配音产品了

支持超过17 种语言的配音
多种情绪表达的精准控制
支持数百种音色库满足不同需求
音频质量真的非常高,清晰、自然
提供丰富的自定义选项

详细的测试结果在下面👇
海螺语音的功能真的很强大而且细致,有一个庞大的音色库支持超过17种语言,每种语言又有非常多的音色,再加上男声和女声还有年龄。

可以通过筛选找到你需要的任何身份和年龄背景的音色,比如我们的视频脚本需要一个年迈的有正义感的老人,就可通过这个筛选快速获取到。 Image
另外在选择了音色后也可以对音色进行非常详细的自定义。我们通过控制这四个自定义选项,可以调教出非常不同的声音,即使你选的同一个音色,真的很好玩,可以试试。 Image
Read 6 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(