Jeffery Kaneda 金田達也 Profile picture
May 26, 2023 7 tweets 3 min read Read on X
🎉AI的多模态时代已经来临!如今,大型语言模型让AI具备了思考的能力,以下的一些出色项目则赋予了AI感知的能力,让它能听、看、说、画画、制作视频等。

它们是各种多模态Agent,可以处理文档📄、图片🖼️、音频🎵、视频🎥等,一切只需人类的一句吩咐。

下面,让我们一起看看它们的精妙设计和实现👇:
ImageImageImageImage
🧩 CoDi: 组合扩散模型
CoDi是一款多模态工具,能够将任何混合模式(文本、图像、视频、音频)映射到任何其他混合模式。目前的GPT-4模型能做的是将(文本、图像)转化为文本,但预计很快就会有越来越多的模型在模态输入/输出方面表现出更大的灵活性。

🎬 体验 CoDi:codi-gen.github.io
🤖 Hugging Face Transformers Agent
可以通过和Transformers以及Diffusers对话,控制超过10万个Hugging Face模型。支持处理文本、图像、视频、音频、文件等。
📚 通过建立明确的指令来告知Agent它的目标、提供工具、展示示例以及任务。它会使用链式思维理解任务,并使用所给工具输出Python代码。 Image
🌈 Facebook ImageBind:统一嵌入空间
ImageBind将图像、音频、文本等多种模态融合在一个统一的嵌入空间中,实现了视听两用的智能感知能力,如图像到音频、音频到图像、文本到图像和音频,甚至是深度图、热图和惯性测量单元(IMU)等。
💻 使用ImageBind:imagebind.metademolab.com
🐼 PandaGPT:多模态生成模型
PandaGPT采用ImageBind编码输入数据,使用Vicuna跟踪语言指令。PandaGPT能够解锁数据在六个模态(图像/视频、音频、文本、深度、热图、IMU)中的各种新颖多模态能力,例如复杂的理解/推理、多轮对话等。
🐦推文链接: Image
🧰 Azure Cognitive Services Toolkit in Langchain
利用这个工具包,你可以创建由Azure Cognitive Services驱动的多模态代理。你的代理可以解析图像、表单和文本,并将所有结果大声朗读给你听。
📘文档链接:python.langchain.com/en/latest/modu…
🐦推文链接:

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Jeffery Kaneda 金田達也

Jeffery Kaneda 金田達也 Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @JefferyTatsuya

Jan 13, 2024
分享一个新的趋势

随着Whisper变得更加精确,本地化成本降低,语音输入将成为主流。

🗣️ 相比键盘输入,语音输入更加自然,无需担心口语中的嗯、啊等词汇,因为LLM(大型语言模型)会进行相应的纠正。

📢 原本习惯的键盘输入逐渐成为了限制他们速度的瓶颈。

👨‍💻 现在连编程也能通过语音完成
1️⃣ 这个人通过语音输入编程
🔊 用 @cursor_ai 作IDE, @superwhisperapp 做转录工具,速度极快
🚀 按下cmd-k,说出需求,迅速完成任务
🧠 语音输入提升编码体验,打字显得缓慢无趣
🔗 []
2️⃣ 这个人是语音输入的先驱
🗣️ 使用“Speakularity”,Whisper对接快捷键,快速粘贴转录
✅ Whisper准确无误,与苹果TTS截然不同
💬 需适应“写作语气”,摒弃口头禅,提高写作速度
🔗 []
Read 6 tweets
Dec 11, 2023
开源模型发展非常快,其中一个趋势是“天下武功、唯快不破”!很多模型被改得小很多,而性能却能提示10倍以上:

🚀1️⃣ StreamDiffusion: 在GPU上以100fps生成图像,每张图像只需10毫秒。
📉2️⃣ EfficientSAM: 参数减少20倍,运行速度提升20倍,性能几乎不变(44.4 AP对比46.5 AP)。
🎧3️⃣ smolWhisper: 参数减少10倍,速度提升5倍,性能与large-v2相近。
🖼️4️⃣ ArtSpew: 在消费级GPU上以每秒150张的速度生成图像。
⚙️5️⃣ QuIP#: 使用2位量化,性能接近fp16,可在24G GPU上运行LLaMA 2 70B。
🌪️6️⃣ Mistral MoE模型: 在OpenCompass的新基准测试中,Mixtral-8x7B超越了llama-2-70B。 Image
StreamDiffusion: "🚀 本地电脑上,StreamDiffusion现在能以惊人的100fps生成图片!只需10毫秒,你就能拥有一张512x512的图像。快速且高效!了解更多: "
Read 8 tweets
Nov 26, 2023
如果你会写些Python甚至不会编码,现在用GPT-4 Vision + Streamlit 配合,也能编写很高质量的app。

这篇文章列出了7个应用场景,给我们很强大的方法来快速搭建应用。 Image
1️⃣. 绘制原型并运行app

下面的原型图手绘而成。左侧面板包括图标、导航链接、复选框和下拉框。右侧展示了应用程序名称、文本、折线图和“下载”按钮。

将下面的原型图粘贴到 ChatGPT中,输入prompt:Create a Streamlit app from this mock-up. You will use the Echarts library.

程序就出来了!
Image
Image
2️⃣ 将任何静态图表转化为动态可视化

不仅可以将涂鸦转化为完全功能的 Streamlit 应用程序,还可以将任何静态可视化转化为漂亮、交互式、动态数据可视化。
Image
Image
Read 9 tweets
Nov 16, 2023
OpenAI + Zapier 已经可以定制企业的各种工作流Agent了。

OpenAI的GPT,配合上Actions和Zapier,可以自动化处理超过1000个应用程序上的工作。

以下是来自 @rowancheung 将Action添加到定制GPT的高级教程: Image
首先,什么是Action? Action允许您使用 API 将自定义 GPT 连接到外部应用程序。

在这个例子里将GPT 连接到 Zapier,代表用户发布内容到 LinkedIn。 从下面的教程中,将看到Action可以创建 AI 代理。
步骤 1:配置您的 GPT (可以看其他教程)

步骤 2:配置action

进入配置,点击“添加action”,然后点击“从 URL 导入”。 在这个例子里,连接到 Zapier,以执行的动作,无需编码。

或者,如果会编程,可以导入 OpenAPI 模式。
Read 10 tweets
Oct 14, 2023
#GPT4V #DALLE3 的组合展开了巨大的想象空间。

两者的热度进一步发酵,更多能力被挖掘出来

🖼️ 递归循环:蒙娜丽莎变纹理
🛠️ 7种图像应用方向
🎨 宫崎骏风格:高中实景
🔄 图片风格转换
👕 快速设计T恤
📉 学习曲线误导
🐧 视觉模型指令越狱
📱 游戏宣传图生成
✏️ 数学公式转代码
🚗 E2E无人驾驶争议
1️⃣🔄 GPT-4V与DALL-E 3联合,对同一图片进行循环描述和生成,结果导致了一种“熵增现象”:蒙娜丽莎变为分形纹理图。[]
2️⃣🛠 GPT-4V有7个主要用途:描述、解读、建议、转换、提取、协助、评估,涉及动物识别、食物推荐、图片转代码等多个应用领域。[]
Read 15 tweets
Oct 10, 2023
快近十位朋友都跟我提,要投入到DALL·E 3,说Midjourney有点悬了😂

为啥这么火爆?
🌟 不再需要写那种神奇咒语式的提示,完全懂你说的自然语言,还支持中文!
🌟 绘制文本超准确
🌟 前后呈现都能保持统一
🌟 还和ChatGPT结合了,用户量巨大!

接下来,让我们一起看DALL·E 3有多厉害:
1️⃣ DALL·E 3 vs MJ,哪个更胜一筹?🤔
2️⃣ 创造你自己的动画场景,像宫崎骏的电影!🔥🐗😼🐶
Read 23 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(