歸藏(guizang.ai) Profile picture
产品设计师、模型设计师、 不会代码的独立开发者。关注人工智能、LLM 、 Stable Diffusion 和设计。 Interested in AI, LLM, Stable Diffusion, and design.
5 subscribers
Feb 4 8 tweets 2 min read
整理了一下各行业的专家使用 Open AI Deep Research 后的一些反馈和案例

希望可以对他擅长做的事情有一些参考

具体的引用来源在下面👇 Image 医学专家让 Deep Research 协助处理癌症病例,表示生成的报告无可挑剔

Jan 25 6 tweets 2 min read
怎么好几天了信息流上还全是Deepseek R1

R1给海外从业者和企业负责人带来的冲击太大了

昨晚有几件关于 R1 的事情导致了讨论继续发酵

👇下面有详细的来源引用 Image lmarena R1出分了,目前排第三仅次于两个Gemini模型,硬提示、编码、数学排第一

Jan 24 9 tweets 2 min read
Open AI 发布了 Operator

可以帮你操作浏览器的 AI Agents

目前只有美国 IP 的 Pro 用户才能使用

下面是一些官方介绍和体验案例,可能会帮你省 1500 Image Open AI 官方介绍

Operator 由一种名为计算机使用代理(CUA)的新模型驱动。

合了 GPT-4o 的视觉能力与通过强化学习实现的高级推理

经过训练可以与用户界面进行交互

遇到挑战或犯错,Operator 可以利用其推理能力进行自我纠正

Jan 22 6 tweets 2 min read
海螺语音上线,测试了一下这可能是国内最好的配音产品了

支持超过17 种语言的配音
多种情绪表达的精准控制
支持数百种音色库满足不同需求
音频质量真的非常高,清晰、自然
提供丰富的自定义选项

详细的测试结果在下面👇 海螺语音的功能真的很强大而且细致,有一个庞大的音色库支持超过17种语言,每种语言又有非常多的音色,再加上男声和女声还有年龄。

可以通过筛选找到你需要的任何身份和年龄背景的音色,比如我们的视频脚本需要一个年迈的有正义感的老人,就可通过这个筛选快速获取到。 Image
Jan 22 10 tweets 2 min read
华尔街日报对 Anthropic CEO 的访谈,透露了挺多内容的

- 即将推出网络访问功能
- Claude 即将实现双向语音交互
- 允许 Claude 跨项目记忆信息
- 不会单独推出推理模型
- 未来 2-3 年内,AI 模型将在工作能力超过所有人类
- 新模型 3-6 个月推出

下面是 Gemini 的详细总结👇 Image 1. 产品路线图与功能 (Product Roadmap & Features):

近期功能重点:
网络访问 (Web Access): 即将推出,是优先事项,尤其针对消费者和高级用户。Anthropic 在网络访问方面有独特的想法,区别于其他模型提供商。

语音模式 (Voice Mode): 最终将实现双向语音交互。目前 Claude 可以转录语音和朗读文本,但双向音频模式尚未实现,企业端需求较低,消费者端需求更高。

记忆功能 (Memory Feature): 即将到来,是虚拟协作愿景的重要组成部分,允许 Claude 跨项目记忆信息,类似于人类助手记住过往对话。

Reasoning Models (推理模型): 即将发布新的优秀模型,但拒绝透露具体细节和发布日期。Anthropic 对 reasoning models 的理解与传统观点不同,强调强化学习和模型的持续思考与反思能力。

非优先功能:
照片生成 (Photo Generation): 非优先事项,企业用例有限,安全和保障问题独特。如果消费者端需求足够大,可能会考虑与专业公司合作。

虚拟协作 (Virtual Collaborators):
是 Anthropic 的核心愿景,旨在打造能够像人类助手一样在电脑屏幕上完成各种任务的 AI 系统。
用户可以与虚拟助手对话并分配任务,任务可能持续一天甚至更长时间,助手能够自主分解和执行任务,并定期汇报。

虚拟协作是 "autonomous virtual collaborator" (自主虚拟协作器) 的早期体现,拥有虚拟操作人类的所有能力,预计今年上半年可能出现强大版本。
计算机使用功能是虚拟协作的早期实例化。
Jan 22 6 tweets 2 min read
我去,这下真的开启 AI 军备竞赛了

特朗普、孙正义、甲骨文 CEO、Sam 一起宣布了总投资 5000 亿美元的 AI 星际之门计划

详细信息我放下面👇

星际之门项目是一家新成立的公司

计划在未来四年内投资 5000 亿美元,为美国的 OpenAI 建设新的人工智能基础设施。

将立即开始部署 1000 亿美元。

Stargate 的初始股权投资者包括软银、OpenAI、甲骨文和 MGX。其中软银负责财务,OpenAI 负责运营。孙正义将担任主席一职。

Jan 21 10 tweets 3 min read
昨晚的信息流都被 DeepSeek 刷屏了

整理了一些大佬们对 R1 论文的发现 Image DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试

1. 过程奖励模型(PRM)的尝试
主要存在三个限制:
- 难以明确定义推理任务中的细粒度步骤
- 难以判断中间步骤是否正确
- 基于模型的PRM容易导致奖励欺骗(reward hacking)问题
结论:虽然PRM在重新排序和引导搜索方面表现不错,但收益有限,且增加了计算开销。

2. 蒙特卡洛树搜索(MCTS)的尝试
主要挑战:
- 与象棋等游戏相比,token生成的搜索空间呈指数级增长
- 需要设置节点扩展限制,可能导致陷入局部最优
- 价值模型的训练难度大,影响生成质量
- 难以复制AlphaGo通过价值模型迭代提升性能的成功经验
结论:MCTS虽然可以在推理阶段提升性能,但难以通过自搜索实现模型性能的迭代提升。
Jan 7 10 tweets 3 min read
50 系显卡价格发布了

5070算力相当于 4090,价格只有 4090 的三分之一! Image 突然犯病,什么美国队长 哈哈哈哈 Image
Jan 1 10 tweets 1 min read
开个帖子记录和回顾一下我和 AI 行业的 2024

- 模型层面的发展(LLM、视频、图像)
- 我最喜欢的AI产品创新
- 我目前用钱投票的所有AI产品 产业&模型

图像和视频领域出乎意料的快速发展,感谢Open AI在Sora发布时最后的良知爆发,多写了点架构的事情。
Dec 20, 2024 5 tweets 3 min read
Anthropic 几个核心创始人罕见的一起录了一个播客

详细介绍了他们如何认识然后产生共识最后迫不得已创建公司的事情

整理了一下核心内容笔记:

- 创始历程与动机
- 公司文化特点
- 几个联创展望未来
- 有趣的AI历史细节

里面很多以前没说过的事情,强烈建议看看 Image
Image
Image
Image
创始历程与动机

1. 个人背景与转折点:
- Jared 原本是物理学教授,被Dario展示的AI模型结果所吸引
- Chris最早19岁就认识了团队成员,后来在Google Brain与Dario共事
- Tom原本是记者,2014年就开始关注AI发展,尽管当时很多人认为这个决定"疯狂"
- Daniela在Stripe工作了5.5年,经Greg介绍认识了团队

2. 关键时间节点:
- 2014-2015: Tom开始追踪ImageNet结果,注意到GPU在AI研究中的重要性
- 2015: Dario发表"Concrete Problems in AI Safety"论文,开创性地将AI安全与实际机器学习结合
- 2016: 多位成员加入OpenAI
- 2020: GPT-3成功后,团队意识到必须采取行动
- 2020-2021: 团队决定离开OpenAI创立Anthropic

3. 决策过程:
- Chris描述自己花了6个月时间纠结是否要投身AI安全领域
- Tom采用了一个有趣的策略:向雇主提出不可能被接受的条件,帮助自己下定决心
- 有些成员(如Chris)最初不想成立新公司,更倾向于建立非营利组织
- 最终选择创业是出于实用主义考虑,认识到需要资本支持

4. 核心动机:
- "None of us wanted to found a company. We felt like it was our duty."(没人想创业,但我们觉得这是责任)
- 看到GPT-3的成功后,意识到如果不采取行动,可能会错过改变行业的机会
- 希望避免科技行业常见的错误,建立一个不同的机构文化
- 团队成员共同特点是"betting with conviction"(带着信念下注)

5. 独特视角:
- 物理学家背景带来的影响:更愿意追求雄心勃勃的目标,不受AI寒冬的心理阴影影响
- 新闻记者背景带来的洞察:能够较早发现技术趋势
- 工程师视角的重要性:认识到不仅研究者,工程师也能为AI安全做出贡献
Dec 14, 2024 4 tweets 2 min read
Ilya 罕见发声在 2024 年 Neurips 大会上演讲

“我们所熟知的预训练将会终结”

大致介绍了:

- 深度学习的演进
- 为什么预训练已经达到上限
- 未来的发展方向
- 对超级智能的思考

我转录总结了后面三个部分,文字版本在下面 Image
Image
Image
预训练终结预测的关键论点:

1. 预训练终结的必然性
演讲者明确表示:"预训练将毫无疑问地结束"(Pre-training as we know it will unquestionably end)

2. 终结的核心原因:计算力与数据的不平衡发展

a) 计算能力方面持续增长:
- 硬件性能不断提升
- 算法效率持续改进
- 计算集群规模扩大
- 这些因素共同推动计算能力的指数级增长

b) 数据增长的天然限制:
- "我们只有一个互联网"(we have but one internet)
- 可用的优质数据是有限的
- 演讲者用了一个形象的比喻:"数据是AI的化石燃料"(data is the fossil fuel of AI)
- 就像化石燃料一样,数据是在特定时期产生的有限资源
- 我们已经达到了"峰值数据"(peak data)的状态

3. 数据限制的影响
- 虽然现有数据仍然可以支持相当长一段时间的发展
- 但最终必须面对数据量增长有限的现实
- 需要寻找新的解决方案和发展方向
Dec 2, 2024 10 tweets 2 min read
黑五最后一天了,整理了一下打折的 AI 软件内容。

看看有需要的可以赶快下手。 Image Perplexity 黑五优惠首月只需 5 美元。另外如果你朋友是会员的话,他可以免费送你一个月的会员。

Windsurf 将所有免费用户的试用期延长到了 12 月 11 号。

Screen Studio 我常用的视频剪辑和录制软件,使用BLACKFRIDAY24这个优惠代码可以获得40% 的优惠。

Monica 年卡超级会员4折$119,原价299,周末放出了会员群专属的优惠券可以实现折上折。

推特6折 5.4美元年会员,原价84,只能首次订阅的用户享受。

Suno月卡6折6$,原价10。

Framer基本版、专业版和启动版首年5折,只有首次订阅用户可以享受。

Recraft年度7折,月度3折(BLACKYEAR70/BLACKMONTH30 )

可灵海外版现在也有5折优惠。

桌面快捷启动器Raycast使用代码BF30可以优惠30%。

Bolt 结账时使用 CYBERBOLT 代码可以获得10%的优惠。

写作笔记软件Craft 5折,后续续费也是五折,很值。

AI 画图工具 Ideogram 5 折。

Lummi AI 图片素材库,年订阅用户打 5 折。
Nov 12, 2024 8 tweets 4 min read
Anthropic CEO 接受了 Lex Fridman 长达五个小时的访谈。

里面的信息非常丰富,老哥真的实诚。

整理了一下笔记,内容包括:

- AGI 何时到来
- Scaling Hypothesis的定义以及是否结束
- Anthropic的产品策略
- LLM可解释性研究
- AI发展时间线的介绍和预测 Image 大致访谈内容

关于扩展假设(Scaling Hypothesis):

- Dario从2014年在百度工作时就开始关注扩展假说
- 认为随着模型规模、数据量和训练时间的增加,模型性能会持续提升
- 观察到语言是最适合验证这一假说的领域
- 目前看来扩展假说仍在持续验证中,尚未遇到明显瓶颈

关于AI发展时间线:

- 预计2026-2027年可能达到人类水平的AI
- 认为在编程等专业领域,AI已经开始接近专业人士水平
- 虽然时间线预测有不确定性,但blockers在逐渐减少
关于Anthropic的产品策略:
- Claude系列产品分为Opus(最强)、Sonnet(中等)、Haiku(最快)三个等级
- 每一代产品都在努力推动性能边界
- 重视安全性,设有Responsible Scaling Policy

关于AI安全:

- 提出了ASL(AI Safety Level)分级系统,从1-5级
- 目前的模型在ASL 2级,预计2024年可能达到ASL 3
- 特别关注catastrophic misuse和autonomy risks两大风险

关于Claude的性格塑造:

- 负责设计Claude的性格特征
- 强调要让AI表现得像一个理想的对话者
- 平衡诚实性和有用性

关于提示工程:

- 重视提示的清晰性和具体性
- 建议反复迭代优化提示词
- 使用具体例子来说明需求

关于机制可解释性研究:

- 致力于理解神经网络内部运作机制
- 提出了线性表征假说
- 发现了多语义特征和电路结构
Oct 22, 2024 6 tweets 1 min read
今晚这是肿么了?

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。

而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本!

升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。 新版Claude 3.5 Sonnet介绍:

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。
Sep 29, 2024 6 tweets 2 min read
Karpathy 说 NotebookLM 播客功能中可能蕴含着类似 ChatGPT 的机会,一个新的 AI 交互范式。

我一直关注和等待的东西,终于有行业核心人物注意到了,这个机会可能比 ChatGPT 还要大的多。

写了篇内容详细介绍了一下这个新的 AI 范式里面的逻辑。

将已有的庞大文本内容利用日渐成熟的其他模态 AI 模型转换为更多可被用户消费的内容形态,从而满足更多的用户消费场景。Image Perplexity 的发现页面将全世界大量不同语言的新闻内容重新整合。

变为可以被不同语言消费的新闻信息流。

同时 TTS 的加入让用户的消费场景获得了极大的拓展,可以不用盯着屏幕了。
Mar 12, 2024 4 tweets 1 min read
Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。

Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术,可以为成熟的生产资源库做出贡献,可以训练和微调自己的人工智能模型,甚至试着在 Upwork 上给 Devin 提供真实的工作,它也能完成。 这里有关于Devin的详细介绍:
cognition-labs.com/blog
Feb 29, 2024 9 tweets 3 min read
之前推荐过的国内☁️云服务平台揽睿星舟最近上线了 ComfyUI,他们是真想把这玩意的云服务做好,很适合入门学习。

把常用的 ComfyUI 插件和模型都上传上去了,我把我自己常用的一个相对复杂的 Animatediff 工作流拖进去发现所有的插件和模型都是 OK 的,一键运行。

👇下面也会有启动的教程和地址 Image 你可以在这里使用注册和使用揽睿星舟,通过这个链接会有优惠券,如果你只是想体验的话配合无门槛优惠券充值一块钱就可以用:

我们开始简单的使用教程lanrui-ai.com/register?invit…
Feb 21, 2024 6 tweets 2 min read
见鬼了,谷歌居然开源LLM模型了,Meta要慌了。

Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。

下面是一些要点:

◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。

◈ 一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。

◈ 通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。

◈ 准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。

◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。

◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

◈ 允许所有组织进行负责任的商业使用和分发,无论规模大小。

◈未来还会发布Gemma更大模型变体。

了解更多:blog.google/technology/dev…Image Gemma模型与Gemini共享技术和基础设施组件。

这使得Gemma 2B和7B能够在与其他开放模型相比实现最佳性能。

Gemma在关键基准测试中超越了明显更大的模型。

详细的技术报告在这里:storage.googleapis.com/deepmind-media…
Feb 21, 2024 4 tweets 2 min read
Open AI传奇研究员Andrej Karpathy的新课,教你理解和构建GPT Tokenizer。

他可以把相当复杂的LLM概念用非常好理解的方式讲出来。希望了解LLM的强烈建议听一下他的课,包括一些历史课程。

用GPT-4翻译了一下这节课,感兴趣可以听一下。字幕文件下载和历史课程会放在下面⬇️
补充一下视频介绍:

分词器是大语言模型(LLM)处理流程中一个独立且关键的环节。它们有专属的训练数据集、采用特定的训练算法——字节对编码(Byte Pair Encoding),训练完成后,分词器能够执行两个核心功能:encode() 函数将普通文本字符串转换为词元,而 decode() 函数则能将词元还原为原始文本字符串。在这场讲座中,我们将一步步揭开 OpenAI GPT 系列分词器的构建过程。

我们将发现,许多大语言模型(LLM)表现出的异常行为和问题,其实都源于标记化(tokenization)这一环节。我们会针对这些问题进行详细讨论,探究标记化为何成为问题的关键所在,以及为什么最理想的情况是有人能够找到办法,完全去除这一处理阶段。Image
Dec 12, 2023 8 tweets 3 min read
写个如何用 Ollama 在 Mac 本地跑 LLM,并且用在 Obsidian 上处理自己的笔记和内容的小教程。视频是具体的演示,我把等待时间剪掉了。
我们开始具体的教程🧵: 首先需要去Ollama的网站下载安装包, 下载完之后直接安装然后打开就行。 ollama.ai
Image
Sep 22, 2023 6 tweets 2 min read
这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词影响画面

比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色

下面我们来看一下它支持的富文本格式和原理🧵 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色 Image