Thread by @JefferyTatsuya on Thread Reader App

🎉AI的多模态时代已经来临！如今，大型语言模型让AI具备了思考的能力，以下的一些出色项目则赋予了AI感知的能力，让它能听、看、说、画画、制作视频等。

它们是各种多模态Agent，可以处理文档📄、图片🖼️、音频🎵、视频🎥等，一切只需人类的一句吩咐。

下面，让我们一起看看它们的精妙设计和实现👇：

🧩 CoDi: 组合扩散模型
CoDi是一款多模态工具，能够将任何混合模式（文本、图像、视频、音频）映射到任何其他混合模式。目前的GPT-4模型能做的是将（文本、图像）转化为文本，但预计很快就会有越来越多的模型在模态输入/输出方面表现出更大的灵活性。

🎬 体验 CoDi：codi-gen.github.io

🤖 Hugging Face Transformers Agent
可以通过和Transformers以及Diffusers对话，控制超过10万个Hugging Face模型。支持处理文本、图像、视频、音频、文件等。
📚 通过建立明确的指令来告知Agent它的目标、提供工具、展示示例以及任务。它会使用链式思维理解任务，并使用所给工具输出Python代码。

🌈 Facebook ImageBind：统一嵌入空间
ImageBind将图像、音频、文本等多种模态融合在一个统一的嵌入空间中，实现了视听两用的智能感知能力，如图像到音频、音频到图像、文本到图像和音频，甚至是深度图、热图和惯性测量单元(IMU)等。
💻 使用ImageBind：imagebind.metademolab.com

🐼 PandaGPT：多模态生成模型
PandaGPT采用ImageBind编码输入数据，使用Vicuna跟踪语言指令。PandaGPT能够解锁数据在六个模态（图像/视频、音频、文本、深度、热图、IMU）中的各种新颖多模态能力，例如复杂的理解/推理、多轮对话等。
🐦推文链接：

🧰 Azure Cognitive Services Toolkit in Langchain
利用这个工具包，你可以创建由Azure Cognitive Services驱动的多模态代理。你的代理可以解析图像、表单和文本，并将所有结果大声朗读给你听。
📘文档链接：python.langchain.com/en/latest/modu…
🐦推文链接：

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Share this page!

Enter URL or ID to Unroll