歸藏(guizang.ai) Profile picture
产品设计师、模型设计师、 不会代码的独立开发者。关注人工智能、LLM 、 Stable Diffusion 和设计。 Interested in AI, LLM, Stable Diffusion, and design.
5 subscribers
Dec 20 5 tweets 3 min read
Anthropic 几个核心创始人罕见的一起录了一个播客

详细介绍了他们如何认识然后产生共识最后迫不得已创建公司的事情

整理了一下核心内容笔记:

- 创始历程与动机
- 公司文化特点
- 几个联创展望未来
- 有趣的AI历史细节

里面很多以前没说过的事情,强烈建议看看 Image
Image
Image
Image
创始历程与动机

1. 个人背景与转折点:
- Jared 原本是物理学教授,被Dario展示的AI模型结果所吸引
- Chris最早19岁就认识了团队成员,后来在Google Brain与Dario共事
- Tom原本是记者,2014年就开始关注AI发展,尽管当时很多人认为这个决定"疯狂"
- Daniela在Stripe工作了5.5年,经Greg介绍认识了团队

2. 关键时间节点:
- 2014-2015: Tom开始追踪ImageNet结果,注意到GPU在AI研究中的重要性
- 2015: Dario发表"Concrete Problems in AI Safety"论文,开创性地将AI安全与实际机器学习结合
- 2016: 多位成员加入OpenAI
- 2020: GPT-3成功后,团队意识到必须采取行动
- 2020-2021: 团队决定离开OpenAI创立Anthropic

3. 决策过程:
- Chris描述自己花了6个月时间纠结是否要投身AI安全领域
- Tom采用了一个有趣的策略:向雇主提出不可能被接受的条件,帮助自己下定决心
- 有些成员(如Chris)最初不想成立新公司,更倾向于建立非营利组织
- 最终选择创业是出于实用主义考虑,认识到需要资本支持

4. 核心动机:
- "None of us wanted to found a company. We felt like it was our duty."(没人想创业,但我们觉得这是责任)
- 看到GPT-3的成功后,意识到如果不采取行动,可能会错过改变行业的机会
- 希望避免科技行业常见的错误,建立一个不同的机构文化
- 团队成员共同特点是"betting with conviction"(带着信念下注)

5. 独特视角:
- 物理学家背景带来的影响:更愿意追求雄心勃勃的目标,不受AI寒冬的心理阴影影响
- 新闻记者背景带来的洞察:能够较早发现技术趋势
- 工程师视角的重要性:认识到不仅研究者,工程师也能为AI安全做出贡献
Dec 14 4 tweets 2 min read
Ilya 罕见发声在 2024 年 Neurips 大会上演讲

“我们所熟知的预训练将会终结”

大致介绍了:

- 深度学习的演进
- 为什么预训练已经达到上限
- 未来的发展方向
- 对超级智能的思考

我转录总结了后面三个部分,文字版本在下面 Image
Image
Image
预训练终结预测的关键论点:

1. 预训练终结的必然性
演讲者明确表示:"预训练将毫无疑问地结束"(Pre-training as we know it will unquestionably end)

2. 终结的核心原因:计算力与数据的不平衡发展

a) 计算能力方面持续增长:
- 硬件性能不断提升
- 算法效率持续改进
- 计算集群规模扩大
- 这些因素共同推动计算能力的指数级增长

b) 数据增长的天然限制:
- "我们只有一个互联网"(we have but one internet)
- 可用的优质数据是有限的
- 演讲者用了一个形象的比喻:"数据是AI的化石燃料"(data is the fossil fuel of AI)
- 就像化石燃料一样,数据是在特定时期产生的有限资源
- 我们已经达到了"峰值数据"(peak data)的状态

3. 数据限制的影响
- 虽然现有数据仍然可以支持相当长一段时间的发展
- 但最终必须面对数据量增长有限的现实
- 需要寻找新的解决方案和发展方向
Dec 2 10 tweets 2 min read
黑五最后一天了,整理了一下打折的 AI 软件内容。

看看有需要的可以赶快下手。 Image Perplexity 黑五优惠首月只需 5 美元。另外如果你朋友是会员的话,他可以免费送你一个月的会员。

Windsurf 将所有免费用户的试用期延长到了 12 月 11 号。

Screen Studio 我常用的视频剪辑和录制软件,使用BLACKFRIDAY24这个优惠代码可以获得40% 的优惠。

Monica 年卡超级会员4折$119,原价299,周末放出了会员群专属的优惠券可以实现折上折。

推特6折 5.4美元年会员,原价84,只能首次订阅的用户享受。

Suno月卡6折6$,原价10。

Framer基本版、专业版和启动版首年5折,只有首次订阅用户可以享受。

Recraft年度7折,月度3折(BLACKYEAR70/BLACKMONTH30 )

可灵海外版现在也有5折优惠。

桌面快捷启动器Raycast使用代码BF30可以优惠30%。

Bolt 结账时使用 CYBERBOLT 代码可以获得10%的优惠。

写作笔记软件Craft 5折,后续续费也是五折,很值。

AI 画图工具 Ideogram 5 折。

Lummi AI 图片素材库,年订阅用户打 5 折。
Nov 12 8 tweets 4 min read
Anthropic CEO 接受了 Lex Fridman 长达五个小时的访谈。

里面的信息非常丰富,老哥真的实诚。

整理了一下笔记,内容包括:

- AGI 何时到来
- Scaling Hypothesis的定义以及是否结束
- Anthropic的产品策略
- LLM可解释性研究
- AI发展时间线的介绍和预测 Image 大致访谈内容

关于扩展假设(Scaling Hypothesis):

- Dario从2014年在百度工作时就开始关注扩展假说
- 认为随着模型规模、数据量和训练时间的增加,模型性能会持续提升
- 观察到语言是最适合验证这一假说的领域
- 目前看来扩展假说仍在持续验证中,尚未遇到明显瓶颈

关于AI发展时间线:

- 预计2026-2027年可能达到人类水平的AI
- 认为在编程等专业领域,AI已经开始接近专业人士水平
- 虽然时间线预测有不确定性,但blockers在逐渐减少
关于Anthropic的产品策略:
- Claude系列产品分为Opus(最强)、Sonnet(中等)、Haiku(最快)三个等级
- 每一代产品都在努力推动性能边界
- 重视安全性,设有Responsible Scaling Policy

关于AI安全:

- 提出了ASL(AI Safety Level)分级系统,从1-5级
- 目前的模型在ASL 2级,预计2024年可能达到ASL 3
- 特别关注catastrophic misuse和autonomy risks两大风险

关于Claude的性格塑造:

- 负责设计Claude的性格特征
- 强调要让AI表现得像一个理想的对话者
- 平衡诚实性和有用性

关于提示工程:

- 重视提示的清晰性和具体性
- 建议反复迭代优化提示词
- 使用具体例子来说明需求

关于机制可解释性研究:

- 致力于理解神经网络内部运作机制
- 提出了线性表征假说
- 发现了多语义特征和电路结构
Oct 22 6 tweets 1 min read
今晚这是肿么了?

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。

而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本!

升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。 新版Claude 3.5 Sonnet介绍:

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。
Sep 29 6 tweets 2 min read
Karpathy 说 NotebookLM 播客功能中可能蕴含着类似 ChatGPT 的机会,一个新的 AI 交互范式。

我一直关注和等待的东西,终于有行业核心人物注意到了,这个机会可能比 ChatGPT 还要大的多。

写了篇内容详细介绍了一下这个新的 AI 范式里面的逻辑。

将已有的庞大文本内容利用日渐成熟的其他模态 AI 模型转换为更多可被用户消费的内容形态,从而满足更多的用户消费场景。Image Perplexity 的发现页面将全世界大量不同语言的新闻内容重新整合。

变为可以被不同语言消费的新闻信息流。

同时 TTS 的加入让用户的消费场景获得了极大的拓展,可以不用盯着屏幕了。
Mar 12 4 tweets 1 min read
Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。

Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术,可以为成熟的生产资源库做出贡献,可以训练和微调自己的人工智能模型,甚至试着在 Upwork 上给 Devin 提供真实的工作,它也能完成。 这里有关于Devin的详细介绍:
cognition-labs.com/blog
Feb 29 9 tweets 3 min read
之前推荐过的国内☁️云服务平台揽睿星舟最近上线了 ComfyUI,他们是真想把这玩意的云服务做好,很适合入门学习。

把常用的 ComfyUI 插件和模型都上传上去了,我把我自己常用的一个相对复杂的 Animatediff 工作流拖进去发现所有的插件和模型都是 OK 的,一键运行。

👇下面也会有启动的教程和地址 Image 你可以在这里使用注册和使用揽睿星舟,通过这个链接会有优惠券,如果你只是想体验的话配合无门槛优惠券充值一块钱就可以用:

我们开始简单的使用教程lanrui-ai.com/register?invit…
Feb 21 6 tweets 2 min read
见鬼了,谷歌居然开源LLM模型了,Meta要慌了。

Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。

下面是一些要点:

◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。

◈ 一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。

◈ 通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。

◈ 准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。

◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。

◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

◈ 允许所有组织进行负责任的商业使用和分发,无论规模大小。

◈未来还会发布Gemma更大模型变体。

了解更多:blog.google/technology/dev…Image Gemma模型与Gemini共享技术和基础设施组件。

这使得Gemma 2B和7B能够在与其他开放模型相比实现最佳性能。

Gemma在关键基准测试中超越了明显更大的模型。

详细的技术报告在这里:storage.googleapis.com/deepmind-media…
Feb 21 4 tweets 2 min read
Open AI传奇研究员Andrej Karpathy的新课,教你理解和构建GPT Tokenizer。

他可以把相当复杂的LLM概念用非常好理解的方式讲出来。希望了解LLM的强烈建议听一下他的课,包括一些历史课程。

用GPT-4翻译了一下这节课,感兴趣可以听一下。字幕文件下载和历史课程会放在下面⬇️
补充一下视频介绍:

分词器是大语言模型(LLM)处理流程中一个独立且关键的环节。它们有专属的训练数据集、采用特定的训练算法——字节对编码(Byte Pair Encoding),训练完成后,分词器能够执行两个核心功能:encode() 函数将普通文本字符串转换为词元,而 decode() 函数则能将词元还原为原始文本字符串。在这场讲座中,我们将一步步揭开 OpenAI GPT 系列分词器的构建过程。

我们将发现,许多大语言模型(LLM)表现出的异常行为和问题,其实都源于标记化(tokenization)这一环节。我们会针对这些问题进行详细讨论,探究标记化为何成为问题的关键所在,以及为什么最理想的情况是有人能够找到办法,完全去除这一处理阶段。Image
Dec 12, 2023 8 tweets 3 min read
写个如何用 Ollama 在 Mac 本地跑 LLM,并且用在 Obsidian 上处理自己的笔记和内容的小教程。视频是具体的演示,我把等待时间剪掉了。
我们开始具体的教程🧵: 首先需要去Ollama的网站下载安装包, 下载完之后直接安装然后打开就行。 ollama.ai
Image
Sep 22, 2023 6 tweets 2 min read
这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词影响画面

比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色

下面我们来看一下它支持的富文本格式和原理🧵 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色 Image
Sep 16, 2023 9 tweets 3 min read
由于Stability AI发布了他们的AI音乐升产品Stable Audio,体验之后我顺便调研了几个主流的AI音乐产品,尽量用同一种曲风生成了一些音乐试试,音乐的生成效果大家可以直接打开这个视频听就行,我也不是专家就不点评了,我个人最喜欢Stable Audio和Soundful的生成结果

下面有各个AI音乐平台的具体介绍: Stable Audio

Stable Audio 是 Stability AI 推出的用于音乐和音效生成的AI工具,输入你对音乐的要求之后就会生成一段音乐给你预览也可以下载,免费用户45秒,Pro用户可以生成90秒的音乐同时内容可以商用,每个月11.99美元,最多500次生成。可以商用是因为模型是用AudioSparx音乐库的正版音乐训练的。 Image
Sep 7, 2023 10 tweets 3 min read
AI视频生成工具Pika Labs火了,Pika在某些场景和生物表现上比“老牌”工具RunwayML要强一些。
Pike不像Runway那样有一个非常好用的网页界面,它和Midjourney一样都是在Discord里面使用的,而且官方没有个详细的新手教程。

所以这里我这里就搞了一个保姆级手把手教程: 首先是如何使用Pika

首先你需要访问他们的官网 点击JOIN BETA按钮。

之后就会打开Discord的服务器加入页面,点击接受邀请就好。如果你还没有Discord账号的话之后就会进入登录或者注册流程这里都是中文按步骤走就行。 pika.art

Image
Image
Aug 31, 2023 5 tweets 3 min read
我们来继续 Claude 提示工程教程的第二部分“一些有用的提示技巧”,详细的内容可以在这里查看:

让Claude说“我不知道”以防止出现幻觉
虽然Claude被训练成一个诚实的助手,但它仍然偶尔会产生“幻觉”——编造不真实的事实或细节,或者在输入中“找到”实际上并不存在的东西,以尽可能提供帮助。防止这种情况的一种方法是明确允许 Claude 在不知道你问题的答案时说“我不知道”。比如下面这个例子:

在回应之前给Claude“思考”的空间
有情况下明确指示Claude去生成额外的文本,它可以认真思考问题。
例如,以下是提示的一部分,旨在通过写下常见问题解答文档中的相关引用来让 Claude 需要“思考”问题:
让 Claude 一步一步思考
如果你要求 Claude 执行一项包含许多子任务的复杂任务,那么单独列出子任务会很有帮助。
当你自己不清楚子任务时,也就是你正在要求 Claude 解决问题,你可以通过明确地告诉 Claude 逐步思考来显著提高回答的推理和准确性。
为了获得最佳效果,我们建议将此请求放在提示的另一部分。
将复杂的任务分解为子任务
Claude 在由多个子任务组成的“复杂”任务上表现不佳。如果你已经知道这些子任务是什么(即你理解问题很好),你可以通过将提示分解为步骤来帮助 Claude。mp.weixin.qq.com/s/tfkpHOs2jhz3…


我们继续第二部分,这是比较重要的一个概念:提示链接

将 Claude 的响应输入到另一个提示的输入中。这种技术称为提示链接。
提示链接可以使你通过将多个较小和较简单的提示传递给Claude而完成一项复杂任务,而不是一个非常长且详细的提示。它有时可以比将任务的所有子任务放在单个提示中更有效。

将长而复杂的提示变成提示链有几个优点:
1、你可以编写不太复杂的指令。
2、你可以隔离 Claude 遇到问题的部分问题,以集中精力进行故障排除。
3、你可以分阶段检查 Claude 的输出,而不仅仅是在最后检查。

以下是提示链接的一些用例。

使用文档和引用回答问题
在这个例子中,我们给Claude一份文档,以及我们想要它根据文档回答的问题。让Claude使用文档文本和相关引用来回答问题,通常比单独使用文本或引用更准确。
响应验证/额外注意
提示链接也可以方便地自动要求 Claude 重新检查之前对提示的响应。使用 Ask Claude 中的示例来评估其输出:
并行任务
多步骤提示可以并行、串行或组合运行。
我们说,我们想要以三个不同的水平向读者解释某个概念:一年级学生、八年级学生和大学新生。此外,我们希望 Claude 先写一个大纲,然后将这个大纲扩展成一个完整的解释。

Jul 20, 2023 4 tweets 2 min read
ChatGPT又更新了一个非常好用的功能,你现在可以自定义自己的提示词了,终于不需要在每次新开一个聊天窗口就输一次提示词了。

👇下面来简单介绍一下如何开启这个功能以及如何使用: Image 如何开启这个功能:

- 点开右下角你的用户名
- 点开Setting按钮弹窗切换到beta features选择Custom instructions开启
- 开启后你可以点击右下角用户名的Custom instructions进行设置
Image
Image
Jul 19, 2023 13 tweets 4 min read
Niji官方最新推出了一系列免费的绘画课程-Niji Academy。这门实验性课程将艺术基础与人工智能技术巧妙结合

不管AI绘画技术如何发展,要创作出精彩图像所需的学习内容决非仅限于抄写他人的提示或敷衍其间

因此,我对Niji官方的课程选择感到非常欣喜。他们从最基础的地方开始讲起

👇下面是第一节课程 Image 由于篇幅很多我精简了一些内容,详细的内容可以去这里看:

这里是第一节的课后练习:https://t.co/mO4rimImQV

我也会跟着翻译这套课程的每一期笔记和相关的练习题,好我们开始第一期的内容:测量和抽象的基础知识:(如何绘制)一切的理论。mp.weixin.qq.com/s/CxEv5NQF_wzA…
mp.weixin.qq.com/s/bFZz7XygW3jA…
Jul 18, 2023 8 tweets 2 min read
Llama2发布了,这版本可以商用了,我详细整理了一些已知的信息:

- Llama2 的性能和参数
- 如何使用和限制条件
- Llama2 的模型架构
- Llama2 的训练方法论

👇下面是详细的信息 Image Llama2 的性能和参数

- Llama2有三个大小的版本分别是7B 13B和70B
- Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。
- 预训练的Token为2 万亿,上下文长度为4096
- 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。
Image
Image
Jul 15, 2023 12 tweets 4 min read
昨天这种将文字或者符号融合生成图片的效果很火,我这个教程会非常详细,主要内容包括:

- 相关内容的下载
- Stable Diffusion的安装
- ControlNet插件的安装和模型的使用
- 图片详细的生成过程和参数解释

这里是精简版的教程,如果你看这个不理解可以去看这个完整版: https://t.co/MIMW3xuZs1mp.weixin.qq.com/s/rvpU4XhToldo…
Image 首先我们需要下载和安装Stable Diffusion,
我们还是去秋葉aaaki的视频下载他做的整合包,这个步骤很简单就是直接解压就行。视频也有详细的安装教程。


之后在解压的文件夹找到这个启动器启动就行。 https://t.co/w909bTOwhbbilibili.com/video/BV1iM4y1…
Image
Jul 11, 2023 6 tweets 1 min read
刚才Anthropic发布了他们最新的模型 Claude 2,Claude2相较于之前的版本有了非常大的提升,同时你现在可以在他们的官网上跟Claude 2对话了(免费)。总的内容包括:

- 如何使用 Claude 2
- 官方的Claude 2机器人有哪些功能
- Claude 2相比之前的版本有哪些提升

下面是一些详细的信息: 如何使用 Claude 2

他们开放了一个官方的聊天机器人程序,你现在可以访问 来使用Claude 2跟他对话,需要注意的是目前只对美国和英国的IP开放。

通过谷歌授权或者自己注册登录即可,再也不用担心被封号了。并且目前是完全免费的!!claude.ai
Jul 8, 2023 6 tweets 2 min read
继续玩ChatGPT的代码解释器上瘾了,尝试了一下数据分析功能,卧槽,真的牛皮。
我的AIGC周刊是在竹白上更新的,而竹白的用户订阅数据是可以导出的,我就想看看能不能从里面找到一些比较有用的数据和规律。

👇下面是具体的分析过程: 导出的文件都是json格式的,刚开始我把订阅用户的邮箱文件发给它,想看一下订阅用户中不同类型的邮箱的比例,显然他完成的很好因为这个json文件里只有邮箱地址。

从结果来看跟预期的差不多Gmail占了40%第二大的就是QQ邮箱占18%。