starzq.eth⛩️ Profile picture
Mar 7, 2023 12 tweets 5 min read Read on X
看到不少人推荐 #ChatPDF, 上传 PDF 文件后调用 ChatGPT 生成总结和问答。刚好我申请的微软 New Bing 也通过了,用同一份 PDF 做了下比较,结论如下:

1. New Bing: 总结能力惊艳(见下图),但限制了交互次数
2. ChatPDF: PDF上传方便,但总结能力一般
3. 都会瞎编内容

具体评测和使用地址👇

1/10 New Bing Search
1️⃣ New Bing

我用的 PDF 文件是《Web3.0创作者经济报告》by @BlockBeatsAsia

由于 mac 版本暂不支持 PDF 上传,于是我输入线上🔗代替。不得不说,这个总结和表达能力让我作为人类深深感受到了危机感

看到倒数第 3 条社交协议的时候发现有点不对,质问之后态度还算诚恳。btw最后一条也是瞎编的

2/10
指定某个问题【总结音乐创作者的机会】,New Bing 回答的也不错

另外目前微软限制了一次对话最多 8 次交互,问题多的时候有点不方便,希望早日放开,增加广告版或收费版也可以接受

快速进入白名单小技巧:在注册 bing.com 时使用的微软账户,国家选为美国,3 天左右就通过了

3/10
2️⃣ ChatPDF

地址 ChatPDF.com, 为了稳定使用 chatGPT, 仍然推荐使用自己的 API key,配置方法见下方引用的推文

4/10
PDF 上传成功后,会自动生成总结,但的确质量不太行

5/10
ChatPDF 貌似对中文支持不太好,输入【将这份pdf总结为7个要点】后竟然报错,改为英文后正常输出

这次质量比默认的要好,但和 New Bing 相比还是云泥之别。看来 New Bing 基于的 GPT-3.5 的确要比普通的 ChatGPT 强大很多

6/10
多问 ChatPDF 几个问题后也出现了瞎编的情况,看来目前基于 GPT 的应用都很难避免

7/10
总结一下
1. 由于使用了 GPT-3.5, New Bing 的总结能力远超 ChatPDF
2. 两者都会瞎编内容,需要小心使用
3. New Bing 限制了一次对话最多 8 次交互,问题多的时候有点不方便,希望早日放开,增加广告版或收费版也可以接受

另外我试了演示视频里的 GAP 和 lululemon Q3 财报比较,的确震撼

8/10
感兴趣的朋友可以亲自探索一下这 2 个工具,有更好的用法或者其他更好工具,也欢迎在第一条推下留言。这是一种用了之后再也回不去的体验

最后再推荐下 futurepedia 这个网站,有 1200+ AI 工具的分类和介绍,满足你的各种需求

futurepedia.io

9/10
如果这条🧵对你有帮助

1. 请关注我@starzqeth,持续接收关于Web3、创作者经济、AI 和自我成长的干货内容
2. 请Retweet和Like第一条推文👇

10/10
补充下,GPT 或者 LLM 出现的瞎编,Ted Jiang 称之为“精确的模糊”,可怕的点是习惯之后就会让人觉得是“正确”的,丧失辨别真伪的能力(有空分享下 Ted Jiang 这篇文章,特别有洞察 )

如何更好的使用这类 AI 工具,也是一个值得讨论的话题
在 Web3 和 AI 的帮助下,每一位内容创作者都可以更好打造自己的品牌和 IP

如果你对以下话题感兴趣
· Web3 领域的品牌和 IP 发展
· NFT 和 AI 如何为企业、创作者和消费者带来改变

请订阅我的 newsletter, 我会定期分享案例与思考

web3brand.substack.com/?showWelcome=t…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with starzq.eth⛩️

starzq.eth⛩️ Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @starzqeth

Dec 17, 2023
0/ Andrej Karpathy: 一个大语言模型由你 Macbook 上的两个文件组成

OpenAI 联合创始人 Andrej 用 1个小时,深入浅出的从 6 个方面介绍了大语言模型 (LLM),真是连 60 岁老奶奶都能听懂

我整理出了2500字笔记和1张脑图,帮助你更结构化的理解 ChatGPT 背后的大语言模型,欢迎阅读和分享

👇🏻🧵Andrej Karpathy 大语言模型讲解脑图
1/ 大语言模型(LLM)是什么

🔸一个大语言模型就是两个文件,一个是存储参数的文件,另一个是运行这些参数的代码
🔸以 Meta 刚发布的 Llama 2 70B 为例,这是一个拥有 700 亿参数的神经网络模型,每个参数占用两个字节,因此存储参数的文件大小为 140 GB
🔸另外你还需要一些能运行神经网络的代码,可以是 C 语言或 Python,或任何其他编程语言。只需大约 500 行 C 语言代码,就可以运行以上模型。这些代码被包含在我们所说的运行文件中
🔸下载这 2 个文件到你的 MacBook 上,运行这段 C 代码,就可以得到一个可以和大语言模型交互的二进制可运行文件。比如你可以让它写一首关于 Scale AI 公司的诗,大语言模型就会生成对应的文本Image
2/ 如何训练出一个大语言模型(How to train your ChatGPT)

2 个阶段:Pre-Training(预训练)和 Finetuning(微调)

Stage 1 Pre-Training: 得到一个基础版神经网络模型 ( base model )

🔸从互联网上下载大约 10 TB 的文本

🔸构建一个包含 6,000 个 GPU 的集群

🔸把 10 TB 的文本压缩成一个神经网络文件。需要运行 12 天,花费 200 万美元,可以得到一个 Llama 2 7B 文件( Llama 2 70B 的 1/10)
- 如果考虑到像 ChatGPT、Claude 或 Bard 这样的顶尖神经网络,这些数字可能需要增加十倍甚至更多,这也解释了为什么如今这些神经网络的训练成本高达数千万甚至数亿美元

🔸这个神经网络的核心能力:预测文本序列中的下一个词

- 你可以这么理解这个过程:输入一段文本后,神经网络会预测下一个词是什么。举个例子,在 "cat sat on a" 这四个词的上下文中,神经网络可能会预测下一个词是“mat”,并且给出了 97% 的高概率。这就是神经网络要解决的核心问题
- 这种神经网络训练在某种意义上是一种数据压缩:因为如果你能够非常准确地预测下一个词,你就可以利用这个能力来压缩数据集
- 尽管下一个词预测看似是一个简单的任务,但实际上它是一个非常强大的目标。因为这个目标迫使神经网络在其参数中学习到大量关于世界的信息

🔸这个神经网络的运作机制

- 上千亿个参数散布在整个神经网络中,构建并维护了某种知识库
- 我们所了解的只是如何逐步调整这些参数,以使整个网络在下一个词预测的任务上表现得更好,但我们并不真正清楚这些参数具体是如何工作的
- 一个广为流传的例子,我们称之为“反转诅咒”。如果你和目前最先进的语言模型 GPT-4对话,你问,谁是汤姆·克鲁斯的母亲?它会告诉你是玛丽·李·菲弗,这是正确的。但如果你问,谁是玛丽·菲弗的儿子,它会告诉你它不知道。这种知识很古怪,它似乎是单向的。这些信息并不是简单存储后就能从各种角度获取,你必须从某个特定的角度去提问。
- 目前我们主要将它们视为基于经验的产品。我们可以给它们输入一些数据,然后评估输出结果

Stage 2 Finetuning: 得到一个助手模型(assistant model)

🔸我们实际上不仅仅需要文档生成器(预测文本序列中的下一个词),而是希望能向某个系统提问,并让它根据这些问题生成答案。所以我们真正需要的是一个助手模型

🔸生成助手模型的步骤和上面的训练过程相似,但我们会更换训练数据集,从 10 TB 互联网上爬取的文件,换成 10 万条高质量的数据标注,提升模型输出的质量
- 预训练阶段主要处理数十甚至数百 TB 的文本,但这些文本可能质量不高,因为它们都是从互联网上获取的
- 但在第二阶段,我们更看重质量而非数量。所以我们可能只有很少的文档,比如 10 万份,但这些文档都是问答形式(或者对比标注),并且都是非常高质量的,由专业人士基于标注指南创建

🔸在这些问答形式的文档上进行训练。这个过程被称为Finetuning(微调),只需 1 天就可以完成。

🔸接下来是进行大量的评估工作,部署模型,并监控和收集任何不当行为。对于每个不当行为,都需要修复并返回 Finetuning 第一步重复这个过程
- 修复方法通常是找到错误回应的对话,然后用正确的回应替换

🔸由于微调成本较低,可以每周或每天进行迭代,许多公司在微调阶段而非预训练阶段会更频繁地进行迭代

🔸完成这些步骤后,我们就能得到所谓的助手型模型

- 举个例子,如果你问它一个问题,比如:“你能帮我查一下这段代码吗?似乎有个 bug。请打印 hello world。”即使这个问题并不是训练集的一部分,模型在微调后理解它应该以一个有用的助手的风格回答这类问题

🔸可选的第三阶段:人类反馈强化学习(RLHF)
- 使用比较标签来提升模型性能

总结
🔸预训练阶段是在海量互联网数据上进行训练,重点是知识积累
🔸而微调阶段则更关注对齐,即将格式从互联网文档转变为问答形式,就像一个有用的助手一样Image
Read 9 tweets
Nov 13, 2023
这几天 OpenAI GPTs 被大量创建,这将极大改变我们获取知识的方式

我用 Twitter 的高级搜索功能,找到了最热门的 10 个 GPTs

方法:在搜索框里面输入"chat. openai. com/g min_faves:200 lang:en" (GPTs开头链接 + 最小点赞数 200 + 限定英文)

下面介绍 Top10 GPTs(亲测可用) 👇 🧵
1️⃣ Top1 - NomadGPT(数字游民 GPT), 113w 浏览

这个 GPT 是 Nomad List 的作者创建,可以访问Nomad List的实时数据,回答任何远程生活和工作的问题,基于你的预算、天气情况以及其他数千个数据点

不得不说,数字游民 / 远程工作,真的是 Web3 & AI 时代的趋势

chat.openai.com/g/g-0k9rvxdJn-…
2️⃣ Top2 - DesignerGPT(设计师GPT), 111w 浏览

通过这个 GPT 可以直接在ChatGPT中创建漂亮的网站,绝对命中刚需!

chat.openai.com/g/g-2Eo3NxuS7-…

Image
Read 18 tweets
Aug 16, 2023
【通过GPT 5 分钟将Twitter Space变成1000字文字稿】

上周五我们邀请到Galxe Co-founder Charles, 聊了一个半小时,关于DID/Brand/Open Loyalty的思考

Space结束后,我一般需要再花2-3小时将其变成【千字文字稿】。这次实践了GPT工作流,只花了5分钟就完成,读者也可以更快食用精华

具体方法👇

1/9 https://t.co/wQEVeaFx8B
通过GPT 5 分钟将Twitter Space变成【千字文字稿】,一共 3 步

1️⃣ 通过 Audiolab 将 Twitter Space 下载为 mp3
2️⃣ 用飞书妙计生成 Twitter Space 的采访稿
3️⃣ 用GPT将万字采访稿,变成【千字文字稿】精华

前 2 步我之前介绍过,可以直接查看下面🧵

2/9
3️⃣ 用GPT将万字采访稿,变成【千字文字稿】精华

经过前面 2 步,我得到了一份2w字的采访稿,接下来需要有办法将其喂给GPT

我使用的方法是通过ChatGPT Plus的 Code Interpreter上传。另一个替代的方法是把采访稿放到一个可以线上访问的页面里,比如 notion, 然后让 Google Bard或者Bing来读取

3/9 Image
Read 9 tweets
Aug 14, 2023
使用 AI 辅助创作了半年,分享5️⃣个 AI 给我带来的创作者赋能,效率 x60 #超级个体

通过这条🧵,你将学会如何用1️⃣ 分钟快速解决下面 5️⃣类问题🧵👇

[欢迎收藏🔖 后慢慢看]

1/8 Image
1️⃣ 查阅资料,回答各类"是什么"问题,比如:

- 美国年收入的中位数是多少?
- 流媒体和数字音乐的关系是什么?
- ……

before: 查看多个网页/信息源,然后自己翻译、梳理和汇总

now: 直接询问 Google Bard / Bing, 返回最新信息,这点比 chatgpt 强很多
(帮我上一篇文章至少节约了10个小时

2/8 https://t.co/fks7Gnxwa4
2️⃣ 分析 A 和 B 的优缺点

在写文章的过程中,经常会遇到做 A 和 B 的比较

before: 查看多个网页/信息源后自己整理和比较,比较花时间,而且可能有遗漏

now: 在 Google Bard / ChatGPT 中直接询问 "A 和 B 比较,优缺点是什么",基于回答再进一步扩展

3/8 Image
Read 9 tweets
Jul 31, 2023
【万字干货说明书: 打造个人品牌4步法】

从去年7月到现在,我利用业余时间持续输出了50+深度内容,推特follower从不到400增长到目前的1.8w, 并开启了Web3Brand这个内容品牌

我结合对10+顶尖创作者的学习,以及自己的亲身实践,毫无保留的输出这份Playbook,分享给大家,enjoy~

🧵 + slides👇

1/21 Image
「个人品牌打造」是我们 Web3Brand 研究的主要方向之一,在上个月我们的读者调研中,有超过2/3的读者对这个话题感兴趣,希望可以进一步探讨

于是我花了2周时间研究,然后用了一个周末的时间来做梳理和输出

全文近万字,欢迎查看完整文章,或者继续在🧵阅读概要:



2/21web3brand.io/p/4-steps-play…
TL;DR

个人品牌可以让你拥有一系列好处,且完全可以在业余时间通过以下4步来打造

1️⃣确定品牌定位:找到独特性,打造一致性
2️⃣建立内容系统:选题框架→扫描→素材→主题→文章
3️⃣建立增长系统:内容数 x 曝光量 x 粉丝转化率
4️⃣开启商业化

Justin Welsh年收入170万美元,个人品牌天花板很高

3/21 Image
Read 22 tweets
Jul 28, 2023
上周末看到 AI 明星公司 Jasper 裁员的消息,感触颇多,分享 2 个观点

1️⃣ GPT时代,价值会更多分配给「供给」和「增长」,套壳的应用越来越难生存

2️⃣ 个人发展可以和公司解耦,这会让你更灵活和自由

下面展开聊聊👇

1/10 Image
1️⃣ GPT时代,价值会更多分配给「供给」和「增长」,套壳的应用越来越难生存

我们把产品分为 3 部分
1. 供给
2. 匹配
3. (用户)增长

Web2平台起家的时候,既不拥有供给,也不拥有用户,而是通过建立对应的匹配机制(淘宝-人货匹配,Booking-人和酒店匹配),鸡生蛋,蛋生鸡,逐步把规模建立起来

2/10 Image
因为每个行业的需求和供给有差异化(商品、酒店、餐厅…),需要特定的匹配机制来解决交易摩擦,包括将 sku 信息化,同时推动建立支付和物流体系,这些部分加在一起形成了交易平台的核心竞争力

这些平台也被称为:中间商 / middlemen

3/10 Image
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(