Jeffery Kaneda 金田達也 Profile picture
https://t.co/XMkEfLzyoK https://t.co/0qz9yvuFCZ https://t.co/GpfkVcbZfM https://t.co/mlvyUoCrnI MyCircleO: https://t.co/JwGdZKc1gJ (与我预约时间并会谈) Hiring

May 26, 2023, 7 tweets

🎉AI的多模态时代已经来临!如今,大型语言模型让AI具备了思考的能力,以下的一些出色项目则赋予了AI感知的能力,让它能听、看、说、画画、制作视频等。

它们是各种多模态Agent,可以处理文档📄、图片🖼️、音频🎵、视频🎥等,一切只需人类的一句吩咐。

下面,让我们一起看看它们的精妙设计和实现👇:

🧩 CoDi: 组合扩散模型
CoDi是一款多模态工具,能够将任何混合模式(文本、图像、视频、音频)映射到任何其他混合模式。目前的GPT-4模型能做的是将(文本、图像)转化为文本,但预计很快就会有越来越多的模型在模态输入/输出方面表现出更大的灵活性。

🎬 体验 CoDi:codi-gen.github.io

🤖 Hugging Face Transformers Agent
可以通过和Transformers以及Diffusers对话,控制超过10万个Hugging Face模型。支持处理文本、图像、视频、音频、文件等。
📚 通过建立明确的指令来告知Agent它的目标、提供工具、展示示例以及任务。它会使用链式思维理解任务,并使用所给工具输出Python代码。

🌈 Facebook ImageBind:统一嵌入空间
ImageBind将图像、音频、文本等多种模态融合在一个统一的嵌入空间中,实现了视听两用的智能感知能力,如图像到音频、音频到图像、文本到图像和音频,甚至是深度图、热图和惯性测量单元(IMU)等。
💻 使用ImageBind:imagebind.metademolab.com

🐼 PandaGPT:多模态生成模型
PandaGPT采用ImageBind编码输入数据,使用Vicuna跟踪语言指令。PandaGPT能够解锁数据在六个模态(图像/视频、音频、文本、深度、热图、IMU)中的各种新颖多模态能力,例如复杂的理解/推理、多轮对话等。
🐦推文链接:

🧰 Azure Cognitive Services Toolkit in Langchain
利用这个工具包,你可以创建由Azure Cognitive Services驱动的多模态代理。你的代理可以解析图像、表单和文本,并将所有结果大声朗读给你听。
📘文档链接:python.langchain.com/en/latest/modu…
🐦推文链接:

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling