宝玉 Profile picture
Mar 25 7 tweets 4 min read
这个Apple PodCast下载转字幕的脚本基本上可以用了,需要借助Google Colab colab.research.google.com ,按照上面的步骤执行,输入你要下载的PodCast Url,目前只支持MP3和M4A格式的音频。

自动生成srt字幕。

github.com/JimLiu/whisper…
第一次写Jupyter Notebook,有限的几次写Python代码的经验。其中解析音频地址部分是GPT-4帮助下完成的。

其余部分大量参考(复制粘贴)了whisper-youtube github.com/ArthurFDLR/whi… 和 N46Whisper github.com/Ayanaminn/N46W…
之前的版本我发现有一个问题,就是从字幕看不出来是谁在说话,这还是不够好,于是我研究了一下,终于找到一个库可以帮助分辨是谁在说话,然后将它和Whisper配合起来用,效果很不错,可以精准的分辨出来是谁在说话。

下图就是我生成的结果(手工替换了Speaker名字),我对照音频验证了一下,非常准确。
借助的是一个声纹识别的包叫Pyannote.audio

github.com/pyannote/pyann…

实际实现的时候,要分别用Whisper和Pyannote对语音进行解析,Pyannote还只支持wav文件。Pyannote在解析后,可以将每个发言人的时间段标记出来,然后将Whisper生成的字幕两个一起对比,就可以将发言人和文本对应上。
这里有一个Notebook有对Whisper和Pyannote的Diarization进行分析实验。

github.com/lablab-ai/Whis…
我直接使用了一个第三方库,帮助把字幕和发言人合并,但它不能生成字幕文件。不过对我来说足够用了。

github.com/yinruiqing/pya…
生成的结果有一个问题就是某个发言人的文字全部都堆在一起了,没有标点符号分割,不过这对于ChatGPT倒不是问题,如果用来生成摘要已经足够了,如果想生成质量比较好的文字版,还需要让ChatGPT重新加上标点和修改一下错别字。

相关代码我已经放到了GitHub上:github.com/JimLiu/whisper…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with 宝玉

宝玉 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @dotey

Mar 24
刚用Cursor的时候,发现代码生成速度快了,质量差了,说明切换回GPT-3.5了,估计成本烧不起了,何况还有不少人在薅羊毛当ChatGPT用。

GPT-4和GPT-3.5在生成代码上相比,有很大的差异:
首先是GPT-4速度慢多了,但相应的质量高的不止是一点点;

然后GPT-3.5的代码你只能看,几乎不能运行,一堆Bug,但是GPT-4的Bug很少,大部分时候一次编译通过;

还有就是GPT-3.5像是从各个地方给你复制粘贴代码拼凑在一起的产物,GPT-4你能感觉到它是懂逻辑的,能根据上下文帮助你调整代码。
如果Cursor只能使用GPT-3.5,那和Copilot相比毫无优势了!

刚去官网 cursor.so 看了一下,已经删除GPT-4的宣传语了。
Read 4 tweets
Mar 23
1/3 刚在微博分享了个PDF,微博不支持上传PDF,但是能上传图片,不过最多18张。这个PDF有45页,明显不够发的,不过4页合并成一张刚好。但没有工具支持这样的需求。

那就写代码好了,但又嫌烦,不过没关系,让AI帮忙!
2/3 我就打开Cursor编辑器,给它一个prompt(大意):
Write a function to convert all the pages of a pdf to images, and merge every 4 images to 1 image with 2 rows and 2 colums.
3/3 于是Cursor就帮我生成了一坨代码,一运行出错,错误信息扔给它,原来是没有装poppler,pdf2image需要poppler,按照提示安装了,在运行就好了。

后来最后一张图只有1页,留白太多,Edit修改了一下最终成型,前后估计一二十分钟就搞定了。

gist.github.com/JimLiu/a5e7555…
Read 4 tweets
Mar 23
微信上看到的一份《OpenAI 闭门讨论会V3纪要》,质量很不错,内容参考图片。
Read 14 tweets
Mar 21
之前发的第一帖不知道怎么被删了,🧵都乱掉了,重新发一个百度更懂中文系列🧵 twitter.com/i/web/status/1…
Read 15 tweets
Mar 20
开个主题🧵,更新收集一下AI画的沙雕图,不仅限于百度的
Read 11 tweets
Mar 20
有人问我订阅GitHub Copilot 还有必要去体验Cursor编辑器 Cursor.so

我的答案是:非常非常有必要。几点理由:

1. Cursor是接入的GPT-4,光这一条理由就足够了,生成的质量差别比较大,支持的代码长度也更大,何况还是免费的!Copilot还要收费呢。
2. Cursor能支持整个代码文件,它可以理解整个代码(长度限制肯定还是有的),基于整个代码做出操作,这点Copilot是做不到的,甚至代码稍微长一点都不行。
3. Cursor接入了ChatGPT,你可以针对当前代码去提问去debug,这在运行时遇到错误的时候非常有帮助。
4. Cursor的代码重构(编辑)体验很好,显示修改的部分,你可以选择接受或者拒绝,尤其是代码
5. Copilot只能作为VSCode插件存在,Xcode什么的就不支持了,或者特别麻烦
Read 4 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(