歸藏 Profile picture
Jun 17 7 tweets 3 min read Twitter logo Read on Twitter
Meta 昨天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括

基于上下文的文本转语音合成
跨语言风格转换
跨语言风格转换
多样化的语音采样

详细的功能介绍和原理在下面🧵:
大致原理

在Voicebox之前,生成式语音AI需要使用精心准备的训练数据为每个任务进行特定的训练。Voicebox采用了一种新的方法,仅通过原始音频和相应的转录来学习。与用于音频生成的自回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频片段的末尾部分。 twitter.com/i/web/status/1…
基于上下文的文本转语音合成

使用仅为两秒的输入音频样本,Voicebox可以匹配样本的音频风格并用于文本转语音生成。未来的项目可以在此基础上发展,为无法说话的人提供语音,或者允许人们自定义非玩家角色和虚拟助手使用的声音。 twitter.com/i/web/status/1…
跨语言风格转换

给定一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的语音样本和文本段落,Voicebox可以产生该语言的文本朗读。 twitter.com/i/web/status/1…
语音降噪和编辑

Voicebox的上下文学习使其在生成语音以无缝编辑音频录音片段方面表现出色。它可以重新合成被短时噪音破坏的语音部分,或者替换掉错误发音的单词,而无需重新录制整个语音。 twitter.com/i/web/status/1…
多样化的语音采样

通过从多样化的野外数据中学习,Voicebox能够生成更贴近现实世界中人们交流方式的语音,覆盖了上述六种语言。将来,这种能力可以用于生成合成数据,以帮助更好地训练语音助手模型。 twitter.com/i/web/status/1…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 歸藏

歸藏 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @op7418

Jun 14
昨晚另一个比较重要的内容是 Framer 发布了他们 AI 建站功能,只需要输入你对网页的需求他就会帮你创建一个网页。

如果你的诉求是简单的落地页之类的,他还是可以比较好的胜任的。下面的两个分别是我用英文和中文做的。

如果你想要深入了解Framer AI。这里有一个方便的教程来帮助你开始🚀 Image
首先我们需要访问framer.com/ai 点击页面右上角的登录或者注册按钮登录就可以了。

然后点击后台的这个 AI 生成的按钮。
进入页面以后非常简单直接点击预览区域的那个 Start with AI 按钮。 ImageImage
接下来是一个简单的输入框,需要在其中输入对网页内容或视觉要求的描述。如果您不确定需要包含哪些内容,可以向 ChatGPT 提问。例如,我想推广我的提示词猎手插件,我让 GPT 帮我规划了网页内容。然后,将您的要求输入并确认,它就会开始生成内容。因此如果您的提示词是中文,生成的内容也将是中文的。 Image
Read 8 tweets
Jun 13
Open AI终于发力了,今天更新了一堆新的内容,每个都很重磅:

- 16k 上下文 3.5 Turbo 模型(今天向所有人提供)
- 新的 GPT-4 和 3.5 Turbo 模型
- Chat Completions API 中的新函数调用功能
- V2 嵌入模型降价 75%
- GPT-4的API权限将开放给更多的人

下面是详细介绍🧵
openai.com/blog/function-… Image
首先是新的GPT-4的模型

`gpt-4-0613` 包括一个更新和改进的模型,带有函数调用。
`gpt-4-32k-0613` 包括与 `gpt-4-0613` 相同的改进,同时上下文长度再度扩展,以便更好地理解更大的文本。

未来几周内邀请候补名单中的更多人试用 GPT-4,直到完全删除候补名单
新的GPT-3.5 Turbo和16K模型

`gpt-3.5-turbo-0613` 包括与 GPT-4 相同的函数调用以及通过系统消息提供的更可靠的可控性。

`gpt-3.5-turbo-16k` 的16k 上下文意味着该模型现在可以在单个请求中支持约 20 页文本。
Read 5 tweets
Jun 12
AIGC Weekly #25更新了。本期主要内容有Meta 关于产品接入 AI 的规划、ChatGPT APP开始支持 iPad 和 Siri 等。上周一些产品推荐和值得阅读的文章。详细信息可以在链接里查看:op7418.zhubai.love/posts/22750100…

上周三也更新了一期,不过没有发精简版,感兴趣可以这里看上一期内容:op7418.zhubai.love/posts/22782792… Image
🥰本周精选:

Meta 宣布即将全面给自己旗下产品接入 AI 能力:

Meta发布了一个根据输入的文本生成音乐的工具MusicLM:huggingface.co/spaces/faceboo…

ChatGPT 开始支持 iPad 和 Siri 我做了一个快捷指令可以帮你更好的使用:icloud.com/shortcuts/0013… Image
⚒️产品推荐:

Clipdrop 发布类似 PS AI 的免费图像编辑工具:clipdrop.co/uncrop

Blobr:五分钟用任何 API 创建 ChatGPT 插件:blobr.io/api-gateway-ch…

Runway 的 Gen-2 正式开放测试:app.runwayml.com/video-tools/

TimeComplexity:代码复杂度计算器:timecomplexity.ai Image
Read 8 tweets
Jun 7
最近很多人在 Twitter 上说感觉 GPT 最近模型质量下滑,怀疑 Open AI 偷偷更换了模型,所以 Open AI 重拳出击掏出了一个 GPT 提示词书写的最佳实践指南。我这里整理和翻译了一下这六种技巧。

也可以去这里看原文:platform.openai.com/docs/guides/gp… Image
他们一共提出了六类提示词优化策略:

• 在查询中包含详细信息以获得更相关的答案
• 为模型赋予特定的角色
• 使用定界符清楚地指示输入的不同部分
• 指定完成任务所需的步骤
• 提供例子
• 指定所需的输出长度
写清楚说明
GPT 无法读懂你想法。如果输出太长,要求简短的答复。如果输出太简单,请要求专家级的写作。如果你不喜欢这种格式,请展示你希望看到的格式。GPT 对你想要什么的猜测越少,你获得好的结果的可能性就越大。

• 在你的查询中包含详细信息以获得更相关的答案
• 给模型设定对应的角色
•… twitter.com/i/web/status/1…
Read 8 tweets
May 29
语言模型效果的评估一直是一个比较头疼的问题,如果差距很大其实我们是可以感知出来的,但是一些能力上差不多的模型就不太好进行排名,有时候数值上的优势并 不能代表整体感受。
所以下面详细介绍一下Chatbot Arena 排行榜这个项目。
lmsys.org/blog/2023-05-2… Image
他们采用了 Elo 评分机制来评价语言模型,简单来说就是让用户使用同一条提示判断两个匿名语言模型的输出结果的好坏。然后将所有用户的评分汇总之后进行计算最终得分。
ELO 评分体系是一种为棋类和其他竞技性游戏设计的评级和排名系统。ELO 评分体系的基本原理是,每位选手都会被赋予一个初始评分,然后在与其他选手比赛后,根据比赛结果对评分进行调整。如果一个选手在比赛中获胜,他们的评分将上升,而失败的选手的评分将下降。
Read 9 tweets
May 22
AIGC Weekly #22更新了,抱歉更的有点晚,最近工作有些忙。详细信息可以在链接里查看:op7418.zhubai.love/posts/22697280…

本期主要内容有:
Chat GPT特点如何下载及充值
Open AI CEO国会质询重点
Drag Your GAN锚点编辑图像
ClayAI驱动的CRM软件
Takomo可视化部署和链接AI模型
了解大型语言模型背后的理论课程 Image
🥰本周精选:

上周Open AI终于发布了ChatGPT的iOS应用,介绍了一些应用值得关注的特点以及注册美区Apple ID、购买App Store礼品卡充值Plus的详细教程:

OpenAI首席执行官Sam Altman参加了一个长达三个小时的国会会议,介绍了一下会议的主要内容:
上周Drag Your GAN这篇论文的演示视频刷屏了,介绍了一下相关信息以及GAN模型及Diffusion模型的对比:vcai.mpi-inf.mpg.de/projects/DragG… Image
Read 11 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(