歸藏(guizang.ai) Profile picture
May 8, 2023 14 tweets 4 min read Read on X
答应大家的AI歌手教程来了,手把手教你训练你自己的AI歌手,主要分为使用模型和训练模型两部分,这里是第一部分如何使用模型生成音乐的部分,主要介绍了音源的处理,模型的使用和后期音轨的合成。
看在藏师傅生病肝教程的份上希望各位多多支持,下面是具体步骤🧶
详细教程和文件下载可以看这里:mp.weixin.qq.com/s/bXD1u6ysYkTE… Image
要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去,所以我们需要先对你垫进去的声音进行处理。
首先要安装UVR_v5.5.0,完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的Ultimate Vocal Removermodels就行。 Image
在处理之前你需要把你声音的格式转换成WAV格式,因为So-VITS-SVC 4.0只认WAV格式的音频文件,现在处理了后面会省事点。可以用这个工具处理:aconvert.com/cn/audio/mp4-t… Image
处理完音频文件后我们就要开始利用UVR去掉背景音了,一共需要过两次,每次的设置都是不同的,下面两张图分别是两次的参数。 ImageImage
接下来我们就要运行整合包的Web UI来推理声音了,如果你用的其他人的模型的话你需要先把模型文件放进整合包对应的文件夹下面:

首先是模型文件夹下面后缀为pth和pt的两个文件放到整合包的logs44k文件夹下。

之后是模型文件里那个叫config.json的json文件,放到整合包的configs文件夹下面。 Image
接下来我们就可以运行整合包的Web UI了,打开整合包根目录下的【启动webui.bat】这个文件他会自动运行并打开Web UI的网页,经常玩Stable Diffusion的朋友肯定对这个操作不陌生。

下面就是Web UI的界面我们使用模型的时候主要用的是推理这个功能。 Image
之后就是选择我们的模型,如果你刚才已经把模型放到合适的位置的话你现在应该能在下图的两个位置选择到你的模型和配置文件,如果有报错会在输出信息的位置显示。 Image
选择完模型之后我们需要点击加载模型,等待一段时间Loading之后模型会加载完成。Output Message这里会输出加载的结果。 Image
之后就是上传我们处理好的需要垫的音频文件了,把文件拖动到红框位置就行。
接下来是两个比较重要的选项怕【聚类f0】会让输出效果更好,但是如果你的文件是歌声的话不要勾选这个选项,不然会疯狂跑调。【F0均值滤波】主要解决哑音问题,如果你输出的内容有比较明显的哑音的话可以勾选尝试一下。 ImageImage
设置好之后我们点击【音频转换】按钮之后经过一段时间的运算,就可以生成对应的音乐了。
【output audio】的位置就是生成的音频了可以试听,如果觉得OK的话可以,点击右边三个点弹出的下载按钮下载。 ImageImage
我们现在生成的是一段只有人声的干声,这时候我们刚才剥离出来的伴奏就有用了,把两段音频合成就行,我用的剪映,直接把两段音轨拖进去导出就行,也可以加张图片变成视频。 Image
好了模型的使用部分到这里就结束了,理论上你现在如果有孙燕姿的模型的话已经可以生产AI音乐了。垫的音频文件也有一些要求,首先肯定是人声要清晰,伴奏最好少点去的也干净同时效果也会更好。感谢支持。
详细教程和文件可以在这里查看:mp.weixin.qq.com/s/bXD1u6ysYkTE… Image
对了上面林俊杰的模型是我自己炼的,步数比较少,效果没有孙燕姿这个好,轻拍

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 歸藏(guizang.ai)

歸藏(guizang.ai) Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @op7418

Mar 31
作为收集控,信息检索一直困扰我。

AI出现解决了查找问题,但AI知识库新难点变成了:如何快速导入已有知识和解析多种文件类型?

纳米AI通过非常骚的方式解决了这两大痛点。

👇下面是详细的介绍,其他做类似产品的人也可以参考 Image
快速导入

在导入数据的时候他们充分思考了我们日常工作的知识来源和沉淀的位置。

在个人知识库点添加内容你会发现,除了大家都会做的文件上传和网页解析之外,他们还做了直接导入收藏夹。

相信很多普通用户自己是没有专门的内容收藏工具的,基本都是建一个收藏夹文件然后将链接存进去,现在直接就能批量导入和解析。

而且还支持深度解析,不止可以处理网页的文字内容,里面的图片和图表内容也可以变成LLM可以理解的方式存储下来。Image
快速导入 2

上面说了常规的网页渠道外,他们还敏锐的发现了两个重要的打工人存放资料的渠道并且做了适配,那就是微信和桌面。

你可以快速的选择自己的微信传输的文件和桌面存放的文件。

微信这个就别说了,我这个差生有这么多的工具,在着急的时候依然是把文档和内容往微信的文件传输助手里面扔。

至于桌面知识库,有人说上面上传本地文件不是可以选电脑的任何位置吗,为什么还要单独搞一个桌面知识库。
问这话的朋友一看你就对我们广大打工人的计算机水平过于自信了。

我前段时间就说过相当多的上班族其实并不会用电脑,他们完全没有分区和硬盘的概念,或者图省事所有的常用文件都在桌面上。

做这个功能的产品对白领工作者的工作状态有相当深的认识。Image
Read 9 tweets
Mar 25
来了!一套提示词帮你实现小红书、公众号封面自由

而且 Deepseek V3 也能用

这套提示词是模块化设计的,风格部分与其他部分解耦,可以说是产品化方案了。

👇下面是具体的使用方式 Image
不想等施工🚧的可以看这里:mp.weixin.qq.com/s/OFCgFrXNQgIT…
而且昨晚 Deepseek V3 0324 发布之后,发现 V3 0324 也可以实现跟 Claude 3.7 差不多的效果

另外微信公众号提示词生成的风格会一次性生成矩形和正方形的封面,你只需要一次上传就行,然后在公众号后台裁切选择合适的部分。 Image
Read 20 tweets
Mar 20
我写了一套提示词帮大家从文档生成可视化网页,但对很多人来说还是有点难

主要是因为:
想要效果好必须用 Claude 3.7
还得将需要整理的内容复制或者整理到文档里面

当时发出来也希望大佬们可以搞个产品给大家用

发现秘塔已经搞定了,能一键生成可视化网页,非常强

下面是介绍和使用方法👇 Image
比如我最近一直在看 MCP 相关的内容,秘塔搭载了 Deepseek R1 的研究模式非常强大,搜索的结果非常全面。

但以往的话这种纯文本内容和表格其实不太方便理解,尤其是一些有阅读障碍的人,看到密密麻麻的字已经开始头疼了。

这个时候只需要点击回答底部的「生成互动网页按钮」就能打开一个新世界。

可以看到现在搜索结果已经变成了一个非常条理的网页,不再是一条线传下来全是文字,每个标题和要点的关系都很清晰还加上了图标辅助定位和理解。

相信相较于上面的文字大家都会更喜欢这个结果。
Image
Image
也不只是秘塔的搜索结果才能生成网页,他还能读取你提供链接里的文章内容生成网页。

只需要输入网页链接后点击「打开互动网页」的按钮就行,这下真一键了。

生成过程的动效也很炫酷,哈哈,看着滚动的代码的感觉很爽。

这里就是基于我的公众号生成的网页,明显更加美观,而且秘塔生成的网页也是可以一键分享的,点击右上角的「分享」按钮就可以获取到链接。Image
Image
Read 4 tweets
Mar 14
发现夸克推出了 AI 超级框功能,顺便试了一下,这玩意现在已经这么强了吗?

你可以直接提出你的问题和需求,不需要思考比如该选什么模型和用什么工具这些本来不用你思考的问题。

直接帮你调用夸克非常完善的工具基建完成任务,甚至可以组合多个工具完成。

👇下面是具体的介绍和案例: Image
解决这个事情其实挺难的,因为需要模型去调用各种 Agents 工具完成任务。需要几个条件:

首先这个公司需要有各种基础工具的基建,比如健康类知识、比如办公软件基建;

另外需要有丰富且强大的模型生态,模型能力强但是无法调用工具也无法完成这些任务。

如果用这些条件一排除你会发现能做好这些事情的可能居然只有阿里了。

Qwen 系列模型目前非常强大和完善,无论是多模态还是推理都非常强,而且最新的qwq 32B 在支持推理的基础上还能调用工具。

夸克很早就在布局各种工具和信息,比如专门的健康类搜索,都是医生和药典信息,还有 AI PPT 功能模板丰富而且非常美观,里面有整整一页的各种工作和学习工具。
首先我们用的最多的还是 AI 搜索能力:

夸克的 AI 搜索一些专业领域都做了专门的优化,模型一旦识别到你的意图,就会在专门的可信内容搜索后整理结果。

健康内容,他会直接搜索认证医生和药典的答案,而且非常清晰的标注了来源

影视类型的内容还会有专门的展示样式,能看到评分和详细介绍

学术内容会从权威学术网站直接搜索结果,帮你避免了 AI 自己和应用来源的幻觉问题,哪怕你没有启用深度搜索,在设计复杂计算和推理的问题上也会自己调用Image
Read 5 tweets
Mar 5
最近很多人问我

为啥我用 Claude 写的应用就没那么漂亮?

所以教大家一些非常简单的技巧

用上了以后你也能搞定这么漂亮的界面

👇下面是具体的技巧和完整提示词
完整内容这里,懒得等施工可以看:mp.weixin.qq.com/s/tUOAfd4OI56Q…
第一个技巧:

不用非得用语言来描述你想要的界面样式,可以去一些设计平台找一些你喜欢的设计稿将图片上传到图片让模型参考。

如果你不知道去哪找的话,国内推荐站酷、海外的话推荐 Dribbble 和 Layers。

在跟 Claude 说的时候就可以忽略那些不好描述的地方,重点描述静态图片无法表现的部分,比如下面的这个卡片组件。

我就让 Claude 注意交互的动画和输入框聚焦之后的渐变动画上,界面内容和风格就让他按图片生成。Image
Read 8 tweets
Mar 5
AI 大神 Andrej Karpathy 教你使用大语言模型

这次不讲原理,真的是个人都能看懂了

基本详细介绍了目前 LLM 最常见的几个功能的用法

比如总结内容、Python 解释器、Claude Artifacts、Cursor、NotebookLM、图片和视频生成等

翻译了一下视频,👇下面也有文字总结
总结书籍章节和文档

目的: 快速理解书籍、章节或文档的内容,尤其是复杂或较旧的文本。

工具: LLM,如 ChatGPT 或 Claude。

他的使用方法:将文本内容复制并粘贴到 LLM 中。
要求 LLM 总结内容。
在阅读全文之前,将摘要用作起点。
在阅读时提出问题以澄清理解。

益处:提高记忆保持率和理解力。
使复杂文本更易于访问。
鼓励参与具有挑战性的材料。
用于复杂计算的 Python 解释器

目的: 执行超出简单心算的计算,利用 LLM 编写和执行代码的能力。

工具: 带有 Python 解释器的 ChatGPT。

他的使用方法:提出对于心算来说过于复杂的数学问题。
ChatGPT 使用其 Python 解释器工具编写并运行 Python 程序来解决问题。
Python 程序的运行结果返回给 LLM,然后由 LLM 将其呈现给用户。

益处:复杂计算的准确结果。
克服了 LLM 内部“基于记忆”计算的局限性。

注意: 不同的 LLM 具有不同的工具集。有些可能无法访问 Python 解释器或类似工具,这可能会导致复杂任务的结果不准确。
Read 16 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(