Jiayuan Profile picture
Feb 11 13 tweets 2 min read
1/ 把 Meta 前两天发布的这篇论文读了一遍,mind blowing

这篇论文被近期 ChatGPT & Bing Chat 的风头盖过去了,不过我感觉论文中提到的内容可能是未来 Language Model 发展的一个重要的分支。

-- thread 🧵 --
2/ 简单来说,这篇论文提出了一种新的语言模型:Toolformer。

这个 LM 的特别之处是可以训练自己来使用各种工具,例如调用 API、做数值计算、请求网页内容,或者是其他任何操作。
3/ 我们都知道现在 ChatGPT / GPT-3 存在的一个很大的问题就是生成的结果受限于训练的数据集(ChatGPT 截止于 2021 年),对于一些实时性的内容是无法生成的。

另外就是无法进行很好的数值计算,简单的加减乘除也会算错。
4/ Bing Chat 一部分解决了这些问题,其实底层的原理也比较简单,先利用 Bing 进行关键词搜索,然后再把结果通过 embedding 的方式注入到 prompt 中去调用底层的大模型。

当然 OpenAI 和微软应该在上层工做了很多工程化的工作,所以 Bing Chat 的生成速度和准确性上都表现得非常好。
5/ 但是这种能力是非常有限的,比如你想要通过 Bing Chat 来搜索夏威夷的某个旅店价格,这个是可以做到的。

但是如果想让它帮你预定最实惠的那个酒店就不行了,因为它只能够生成内容,不能执行逻辑。
6/ 但是如果 LLM 能够知道「怎么预定酒店」这个操作的话,那么就可以完成上面的步骤了。

其实方法简单来说就是把很多预定酒店的操作过程喂给他来训练,然后它就能「学」会了。
7/ 简单做一层抽象,这个可以扩展到任何外部的 API 调用。

一些可能的场景:

- 让 LLM 在训练的过程中自己通过调用外部数据源的形式来优化训练;
- 生成结果的同时进行额外的操作,比如和 Office 365 中的文档进行交互;
- 让机器人自己学会工具的使用;
- 数值计算、更强大的逻辑能力等。
8/ 如果说 GPT-3 / ChatGPT / Bing Chat 等 LLM 只是「智能大脑」的话,Toolformer 模型就是给这些大脑加上了「手」,可以开始使用工具了。
9/ 未来不难看到一个集成了 ChatGPT(or 类似的)& Toolformer 的 AI 通过自训练学会了操作电脑,然后自己把自己的代码重写了一遍,完成了自举。
10/ 这篇论文是在 ChatGPT 的帮助下进行阅读的,10x 提升了效率,甚至还能把几篇不同的论文进行交叉比对。

给 9 岁小朋友解释这篇论文 👇
11/ 一些论文的要点 👇
12/ 以一个非 Deep Learning 从业者的视角读的这篇论文,所以理解上可能并不完全准确,欢迎在评论区进行勘误。
13/ 论文地址 👇

arxiv.org/abs/2302.04761

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Jiayuan

Jiayuan Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @Tisoga

Feb 2
受 Perplexity AI 启发,基于 OpenAI 写了一个搜索引擎的 demo,可以让 GPT-3 来基于当前的事实进行回答。

现在这个 demo 只是用 jupyter 糊了一点代码,后面会增加一个前端交互,然后把代码开源。
目前实现的效果:

1. 询问谁是 Gmail 的 founder
2. 询问 Paul Buchheit 最近关于 Google 和 AI 的观点

已经能够成功索引到 @paultoo 最近发表的相关推文,然后给出搜索(回答)结果了。
对比一下 ChatGPT 对相同问题的结果:

ChatGPT 基本上无法对于刚刚发生的事实性内容进行回答,连 Paul Buchheit 的生日也回答错了。
Read 5 tweets
Jan 18
如何从零开始 build 一个 GPT

这个视频中,作者根据 Attention is All You Need & GPT-3 的论文来从零开始构建一个 GPT,每一部分都有代码演示。

两篇涉及到的论文:

- Attention is All You Need: arxiv.org/abs/1706.03762
- Language Models are Few-Shot Learners
: arxiv.org/abs/2005.14165
可以直接运行的代码 👇

colab.research.google.com/drive/1JMLa53H…
Read 4 tweets
Dec 4, 2022
1/ 在 ChatGPT 中实现了一门新的编程语言:GPTLang,并用这个语言写了一个排序算法。

定义了一个新的命令 `gptlc`,用来编译 GPTLang 的代码。

下图是最终的效果:让 ChatGPT 用 GPTLang 写了一个选择排序,并在命令行编译运行。

这个 thread 将会详细讲述一下是如何一步步实现这门语言的。
2/ 首先我告诉了 ChatGPT 正在实现一门新的编程语言,能不能给一些 idea 或者建议,ChatGPT 给出了 GPTLang 的一些基本特性。
3/ 定义编译器命令为 `gptlc`,并且可以使用 `gptlc file.gpt` 来进行编译。

然后让 ChatGPT 给出一些常用的编译选项:
Read 17 tweets
Dec 1, 2022
OpenAI 刚刚 launch 了 #ChatGPT ,可以说是一款划时代的产品,这个 thread 记录一下都可以使用 ChatGPT 做哪些事情。
用来写项目的 pitch deck 和产品文案,基本上可以覆盖 copy.ai, jasper.ai, lex.page 这些服务提供的功能。

另外一点是,一些运营和 marketing 的工作可能在未来会面临比较大的挑战,AI 已经可以承担大部分的文案写作工作了。

技术方案 + 实现一条龙。

重复的、机械性质的 CRUD 工作未来很大可能会被 AI 取代,或者说出现一些 AI 辅助的工具来快速实现 CRUD。

实际上,我现在大部分的 CRUD 编码都是用的 Copilot。
Read 8 tweets
Oct 7, 2022
我在大学里是如何自学 CS 的?

在搜索资料的时候找到了之前做的一个总结,不是非常典型,但是也可以作为一个参考,在本科学校不是特别好的情况下如何自学 CS。

- a thread -
1/ 大一 C 语言课 final project 大家都在写 xx 管理系统的时候写了一个解释器,期间读了著名的 SICP(《计算机程序的构造和解释》)、王垠的解释器教程、不完全刷了 CS 61A,其他编译原理相关的书也随便翻了一下,还一并学会了 Emacs,最后写出了一个非常简单的 Lisp 解释器(C 写起来太累了)。
2/ 后来大二大三又用 Python 重写了一遍。

大二上算法课开始刷 CLRS(《算法导论》),直接打印了英文版来看(阅读英文原版的技术书也是从这个时候开始的),期间停了一段时间看了《Algorithms》,不完全刷了 MIT CS 6.001,偶尔刷一刷 leetcode。
Read 18 tweets
Oct 2, 2022
如何高效地阅读英文长文?

使用到的工具:Matter、彩云小译、iPad。

- a thread -
Step 1:使用 Matter 来生成阅读网页

Matter 是一个类似于 Instapaper 的稍后读工具,但是在文章的排版上会比 Instapaper 更加优美,第一步借助 Matter 来生成阅读模式的长文网页。

这里以 Paul Graham 的这篇 How People Get Rich Now 为例,可以看到 Matter 的阅读模式非常简洁。 Image
Step 2:使用彩云小译翻译这个网页

因为我们的目的并不是为了学习英文,而是为了更加高效地阅读长文,使用母语可以更快速地进行略读,抓住重点信息。

并且因为是 line by line 翻译的模式,对于一些翻译得不是很明白的地方,也可以参照英文来读。
Read 6 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(