小互 Profile picture
Jun 10 6 tweets 2 min read Twitter logo Read on Twitter
Whisper Web:直接在您的浏览器中进行 ML 驱动的语音识别

🚀 这个工具是随着Transformers.js v2.2.0的发布而推出的,你只需要几行代码就可以开始使用这个工具,非常简单。现在支持 100 多种不同语言的多语言转录和翻译!

可以通过这个链接在线进行操作演示: huggingface.co/spaces/Xenova/
你也可以使用设置菜单切换模型,以及选择语言和任务:
Transformers.js发布了2.2.0版本,这个版本带来了一些新的功能。其中最重要的是,它现在支持使用Whisper进行多语言语音识别和翻译。用户现在可以在浏览器中直接转录和翻译超过100种不同的语言。例如,你可以使用它来转录英语,也可以使用它来转录法语,并将法语翻译成英语。github.com/xenova/transfo…
"Transformers.js" 是一个开源项目,它允许你在浏览器中直接运行机器学习模型,无需服务器。

支持不同模态的常见任务:

自然语言处理:文本分类、问答、语言建模、摘要、翻译、多项选择和文本生成。
计算机视觉:图像分类、对象检测和分割。
音频:自动语音识别和音频分类。
多模态:零射击图像分类
演示链接错误了,点这里:huggingface.co/spaces/Xenova/…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 小互

小互 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @xiaohuggg

Jun 11
漫画

AI ➡️

真人 ImageImageImageImage
ImageImageImageImage
ImageImageImageImage
Read 4 tweets
Jun 11
“中国的九章量子计算机在AI相关任务上的速度是最快的经典超级计算机的1.8亿倍!”被称为中国“量子之父”潘建伟领导的团队称。

他们表示,这种设备可以应用于数据挖掘、生物信息、网络分析和化学建模研究。九章计算机在完成一项世界上最快的经典超级计算机需要近五年才能解决的任务时,用时不到一秒。 Image
他们通过实现两种在AI中常用的算法——随机搜索和模拟退火——来测试九章量子计算机。

这些算法即使对超级计算机来说也是一项挑战,研究人员决定使用200000个样本来解决它。在当前的技术水平下,即使是最快的超级计算机也需要大约700秒的时间来处理每个样本,总共需要五年时间,九章用时不到一秒完成!
美国也一直在研究量子计算机,发现参与计算过程的亚原子粒子即使受到周围最轻微的干扰,也容易出错。这就是量子计算机在隔离环境和极低温度下运行的原因。而九章则是以光作为计算的物理介质,也不需要在极低的温度下工作。然而,研究人员声称它不需要非常低的温度即可运行。 Image
Read 4 tweets
Jun 9
MusicGen:一种简单且可控的音乐生成模型。 可以通过给定的文本提示和旋律特征来生成音乐。

它只需要一个步骤就可以完成音乐的生成,这比需要多个步骤的模型更有效率。

并且可以根据给定的条件来控制音乐的生成。这意味着你可以通过改变输入的条件来改变生成的音乐,从而创造出各种各样的音乐。
MusicGen是基于EnCodec音频令牌化器构建的。与之前的工作不同,MusicGen是一个单阶段的变压器语言模型,它使用了一种高效的令牌交错模式,因此无需级联多个模型(例如,分层或上采样)。

让我们逐一解释这些术语: Image
1、EnCodec音频令牌化器:它将音频数据转换成一种格式,使得模型可以更容易地处理。类似一种翻译器,它把音频数据翻译成模型可以理解的语言。

2、单阶段的变压器语言模型:它只需要一个步骤就可以生成音乐。这与其他需要多个步骤的模型不同,一些模型可能需要先生成一个粗糙的草图,然后再逐步细化。
Read 8 tweets
Jun 9
截至今天ChatGPT已经有266个插件了,如果你要想使用特定插件完成某些工作,真是犹如大海捞针,不知道该如何选择!

现在好了,有人搞了个Pluginpedia的插件,这个插件可以帮你搜寻插件商店里面的所有插件!

安装后,你需要什么类型的插件只需要告诉它就行,它会帮你推荐和介绍!

用魔法打败魔法!😁 Image
插件介绍: Image
Read 4 tweets
Jun 7
@BostonDynamics 刚刚宣布了他们的机器狗Spot的最新功能和改进。Spot已经在全球范围内的35个国家部署了超过1000台,用于处理一些行业中最艰难、最危险的任务。

在这次发布会中,波士顿动力宣布了一系列Spot的新功能,使得机器狗拥有了视觉、听觉和仪表度数,可以执行更复杂的任务,也方便人们操控! ImageImageImageImage
Spot的新功能

1、Spot可以进行更多的自动化任务,加装了热成像、声学成像和仪表读数。这些功能使Spot能够更有效地进行设备检查,提前发现可能的设备故障。

2、Spot的新硬件设计包括了一个音频和视觉信号系统,以及一个紧急停止按钮。这些新功能使Spot在工作现场的人员能更好地理解和预期Spot的行为。 ImageImageImageImage
3、Spot现在可以自动检测移动的物体,如人或叉车,并在其路径中自动保持安全距离。

4、Spot的行走方式也进行了改进,使其在滑动表面和湿地板上行走更为稳定。

5、Spot的机械臂现在可以自动开门,使其能够在自动行走任务中自行从一个房间移动到另一个房间。 ImageImageImage
Read 5 tweets
Jun 7
Apple Vision Pro 操控演示:直接触摸功能,可直接空中拿起物体操控,还有可对3D物体进行转动和缩放。Safari 网页浏览是通过指尖按下和滚动使用 ,键盘看起来也非常直观,因为每个键都会根据与手指的距离改变其颜色强度。
Apple 的 Designing for Spatial Input 会话展示了如何使用多个输入与 Apple Vision Pro 交互,该视频展示了手部跟踪手势的实际操作。

👉 捏合选择(相当于 iPhone touch)
👉 捏合并拖动滚动
👉 两个手势来缩放和旋转。
Apple Vision Pro 的注视功能在很大程度上借鉴了 Meta 的 Gaze 和 Unity 的 Gaze 功能

VisionOS 中你可以进行:

👉 凝视悬停
👉 凝视选择

信息来源:@Dilmerv
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(