Jeffery Kaneda　金田達也's Threads

Jan 13, 2024 • 6 tweets • 2 min read

分享一个新的趋势

随着Whisper变得更加精确，本地化成本降低，语音输入将成为主流。

🗣️ 相比键盘输入，语音输入更加自然，无需担心口语中的嗯、啊等词汇，因为LLM（大型语言模型）会进行相应的纠正。

📢 原本习惯的键盘输入逐渐成为了限制他们速度的瓶颈。

👨‍💻 现在连编程也能通过语音完成

1️⃣ 这个人通过语音输入编程
🔊 用 @cursor_ai 作IDE， @superwhisperapp 做转录工具，速度极快
🚀 按下cmd-k，说出需求，迅速完成任务
🧠 语音输入提升编码体验，打字显得缓慢无趣
🔗 []

https://twitter.com/geoffreylitt/status/1745953276338536830

Dec 11, 2023 • 8 tweets • 2 min read

开源模型发展非常快，其中一个趋势是“天下武功、唯快不破”！很多模型被改得小很多，而性能却能提示10倍以上：

🚀1️⃣ StreamDiffusion: 在GPU上以100fps生成图像，每张图像只需10毫秒。
📉2️⃣ EfficientSAM: 参数减少20倍，运行速度提升20倍，性能几乎不变（44.4 AP对比46.5 AP）。

🎧3️⃣ smolWhisper: 参数减少10倍，速度提升5倍，性能与large-v2相近。
🖼️4️⃣ ArtSpew: 在消费级GPU上以每秒150张的速度生成图像。
⚙️5️⃣ QuIP#: 使用2位量化，性能接近fp16，可在24G GPU上运行LLaMA 2 70B。
🌪️6️⃣ Mistral MoE模型: 在OpenCompass的新基准测试中，Mixtral-8x7B超越了llama-2-70B。

Nov 26, 2023 • 9 tweets • 4 min read

如果你会写些Python甚至不会编码，现在用GPT-4 Vision + Streamlit 配合，也能编写很高质量的app。

这篇文章列出了7个应用场景，给我们很强大的方法来快速搭建应用。

1️⃣. 绘制原型并运行app

下面的原型图手绘而成。左侧面板包括图标、导航链接、复选框和下拉框。右侧展示了应用程序名称、文本、折线图和“下载”按钮。

将下面的原型图粘贴到 ChatGPT中，输入prompt：Create a Streamlit app from this mock-up. You will use the Echarts library.

程序就出来了！

Nov 16, 2023 • 10 tweets • 3 min read

OpenAI + Zapier 已经可以定制企业的各种工作流Agent了。

OpenAI的GPT，配合上Actions和Zapier，可以自动化处理超过1000个应用程序上的工作。

以下是来自 @rowancheung 将Action添加到定制GPT的高级教程：

首先，什么是Action？ Action允许您使用 API 将自定义 GPT 连接到外部应用程序。

在这个例子里将GPT 连接到 Zapier，代表用户发布内容到 LinkedIn。从下面的教程中，将看到Action可以创建 AI 代理。

Oct 14, 2023 • 15 tweets • 4 min read

#GPT4V #DALLE3 的组合展开了巨大的想象空间。

两者的热度进一步发酵，更多能力被挖掘出来

🖼️ 递归循环：蒙娜丽莎变纹理
🛠️ 7种图像应用方向
🎨 宫崎骏风格：高中实景
🔄 图片风格转换
👕 快速设计T恤
📉 学习曲线误导
🐧 视觉模型指令越狱
📱 游戏宣传图生成
✏️ 数学公式转代码
🚗 E2E无人驾驶争议 1️⃣🔄 GPT-4V与DALL-E 3联合，对同一图片进行循环描述和生成，结果导致了一种“熵增现象”：蒙娜丽莎变为分形纹理图。[]

https://twitter.com/conradgodfrey/status/1712564282167300226

Oct 10, 2023 • 23 tweets • 5 min read

快近十位朋友都跟我提，要投入到DALL·E 3，说Midjourney有点悬了😂

为啥这么火爆？
🌟 不再需要写那种神奇咒语式的提示，完全懂你说的自然语言，还支持中文！
🌟 绘制文本超准确
🌟 前后呈现都能保持统一
🌟 还和ChatGPT结合了，用户量巨大！

接下来，让我们一起看DALL·E 3有多厉害： 1️⃣ DALL·E 3 vs MJ，哪个更胜一筹？🤔

https://twitter.com/saana_ai/status/1709462503103807972

Jul 11, 2023 • 30 tweets • 1 min read

从下面文章里，GPT-4的细节已经大量泄露

GPT-4架构、基础设施、训练数据集、成本、愿景和MoE
揭秘GPT-4：OpenAI在其架构方面做出的工程权衡。

英文可以参考：@Yampeleg

下面情况具体的细节：semianalysis.com/p/gpt-4-archit… 推文 2：
参数计数：GPT-4的规模是GPT-3的十倍以上。我们相信它总共有大约1.8万亿个参数，分布在120层中。

Jul 2, 2023 • 5 tweets • 2 min read

#CoderAgent 看来在最快成熟

它是软件工程的未来。10倍的效率提升让每位工程师变为架构师

总结推荐：
- GPT-engineer，AI编程助手，实现一键生成代码库
- GPT-Migrate，代码语言或框架的迁移
- Smol-developer，初级开发者，全方位合成以人为本的程序
- Boxy，理解你的项目，快速生成并重构代码。

GPT-engineer

一键生成代码库，GPT-engineer如同你的个人AI编程助手。

特性：
🤔可以提出明确的问题
📜能生成技术规格说明
💻撰写所有必要的代码
🛠️易于添加你的推理步骤、修改和实验
⏰让你在几分钟内完成编程项目。

https://twitter.com/antonosika/status/1667641038104674306

Jun 20, 2023 • 4 tweets • 2 min read

招募一起触发LLM的安卓时刻的同道！📢🤝

开源技术进展到现在，看起来已经可以自己训练出对标 #ChatGPT 3.5可商用的模型了。

结合下面三个技术，可能性非常高，有感兴趣的吗？

🦙 OpenLLama：可商用的LLama代替品
⚙️ QLoRA：底成本、快速的训练方法
🐳 Orca：递进式学习算法

#buildinpublic Openllama 可商用的LLama代替品

https://twitter.com/_akhaliq/status/1670478728747466753

Jun 17, 2023 • 5 tweets • 1 min read

要编写优质的prompt，从日常实践来看，用下述结构，并且提出非常具体的要求，则基本可以让LLM输出你想要的结果

✅ 角色、技能、个性
✅ 目标
✅ 具体的上下文、关键词、负面词
✅ 输入规则
✅ 输出规则
✅ 输入输出的例子

附图是两个优秀的Prompt：AutoGPT核心指令+小红书写手。都覆盖了框架的大部分

1️⃣ 角色、技能、个性
角色：该提示以声明AI的明确角色开始。这已经成为了标准的最佳实践。它会切换到那个角色来思考问题
技能：要告诉它能做什么事情，有哪些工具可以用
个性：输出的语调、个性（尤其是需要生成内容）、沟通方式等
2️⃣ 目标
告知让它完成一个什么目标。这是最核心的，必须非常清晰明确

Jun 16, 2023 • 11 tweets • 1 min read

OpenAI推出的函数调用(function calling)功能其实是一个巨大的创新。它面向开发者，技术性强，但所有从业者都应理解。

下面我们深入浅出地解释它的原理和能力。

从本质上讲，对于LLM的开发者，这就像是为ChatGPT加上了插件。这让工程师为大脑加上了手脚，增加了它可以做的事情。

后面有具体例子：

基本流程如下，形成一个循环：
1️⃣开发者🇺给LL发🅿️指令并提供工具列表（function)。
2️⃣LLM返回如何执行🇹工具和对应的参数。
3️⃣🇺根据LLM返回的🇹工具和参数，在本地执行🇹工具，获取执行结果。
4️⃣利用这个结果重新组织🅿️指令，告知LLM这次的执行结果，再决定下次应该怎么执行和参数是什么
不断循环

May 26, 2023 • 7 tweets • 3 min read

🎉AI的多模态时代已经来临！如今，大型语言模型让AI具备了思考的能力，以下的一些出色项目则赋予了AI感知的能力，让它能听、看、说、画画、制作视频等。

它们是各种多模态Agent，可以处理文档📄、图片🖼️、音频🎵、视频🎥等，一切只需人类的一句吩咐。

下面，让我们一起看看它们的精妙设计和实现👇：

May 2, 2023 • 6 tweets • 3 min read

随着LLM的成熟，自然语言成为与计算机进行最自然的交互方式。例如：

🤖客服机器人收到客户自然语言的请求 "帮我定晚上6点的位置"
🏢企业工作流收到指令 "给一个月未活跃的用户发邮件介绍他最感兴趣的新产品"

那如何与传统软件进行对话呢？目前有以下几种能将自然语言转换为传统API调用的模型(1/N)

🧑‍💻 Zapier NLA：支持5000多个应用程序，如Gmail、Saleforce等

🦙 LlamaAcademy：使用API Doc对Llama进行训练，以便通过自然语言调用该套API的模型

🤖 SLAPA：自己能够搜索API，并学习如何调用的模型。

通过使用这些模型，就可以扩展LLM的能力，提供全方位的服务 (2/N)

Apr 25, 2023 • 5 tweets • 2 min read

其实AI代理之间已经能实现协作了
🎲 他们可以一起下棋
💬 通过CAMEL进行心灵探索
📈💻 AI股票交易员和AI程序员共同开发交易机器人
🎯 MultiGPT能自动组建团队，共同完成任务
如果AI代理自己形成一个网络或者社会，会不会发展出自己的独特的文明和文化？

1⃣ 有人做了实验，让两个Agent互相下棋

https://twitter.com/francip/status/1649191278461202433

Apr 24, 2023 • 14 tweets • 3 min read

AI代理人已经出现四星期，进入井喷状态，现在的一系列进展已经很惊人：

🌐快速建立自定义网站
💻编写SQL语句
📝完成待办事项
🔍进行研究和市场调研
💰调研销售前景
📊分析产品和股票市场数据
🤖编写和测试Python脚本
🎙️准备播客大纲
💪自主学习和改进

请看具体的项目如下：
#AutoGPT 在3分钟内建立自定义网站

https://twitter.com/SullyOmarr/status/1644160222733406214

Share this page!

Enter URL or ID to Unroll