歸藏(guizang.ai) Profile picture
关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱
6 subscribers
Mar 5 8 tweets 3 min read
最近很多人问我

为啥我用 Claude 写的应用就没那么漂亮?

所以教大家一些非常简单的技巧

用上了以后你也能搞定这么漂亮的界面

👇下面是具体的技巧和完整提示词 完整内容这里,懒得等施工可以看:mp.weixin.qq.com/s/tUOAfd4OI56Q…
Mar 5 16 tweets 3 min read
AI 大神 Andrej Karpathy 教你使用大语言模型

这次不讲原理,真的是个人都能看懂了

基本详细介绍了目前 LLM 最常见的几个功能的用法

比如总结内容、Python 解释器、Claude Artifacts、Cursor、NotebookLM、图片和视频生成等

翻译了一下视频,👇下面也有文字总结 总结书籍章节和文档

目的: 快速理解书籍、章节或文档的内容,尤其是复杂或较旧的文本。

工具: LLM,如 ChatGPT 或 Claude。

他的使用方法:将文本内容复制并粘贴到 LLM 中。
要求 LLM 总结内容。
在阅读全文之前,将摘要用作起点。
在阅读时提出问题以澄清理解。

益处:提高记忆保持率和理解力。
使复杂文本更易于访问。
鼓励参与具有挑战性的材料。
Feb 19 9 tweets 3 min read
Obsidian 加 Cursor 就是最强AI知识库!

最近发现用 Cursor 这些 AI IDE 可以完美充当 Obsidian 的 AI 辅助插件

写了个教程,主要是三个使用方式:

- 帮助你用模糊的问题检索你的笔记库
- 帮助你基于笔记库进行研究
- 帮你生成和修改笔记

下面是详细内容👇: Image 这里是完整的教程,需要有好的阅读体验和上下文的可以看这里:mp.weixin.qq.com/s/3mlhd5lRBSz3…
Feb 8 5 tweets 3 min read
节后开工,Deepseek爆火出圈,让许多人首次免费体验到顶级AI模型的震撼

巨大的流量带来了两类乱象:

API 购买和配置复杂
无良媒体和产品用蒸馏的 R1 版本欺骗用户

很多朋友找我问怎么才能简单方便的用到满血 R1,找了一圈发现还是纳米AI搜索靠谱

👇下面给不太了解 AI 的朋友解释一下: Image 一顿操作买了个 API

Deepseek R1 是开源的,所以在官方服务崩溃之后,很多第三方云服务商看到了机会,开始部署模型。

模型部署之后其实是需要一个前端界面去展示 API 的输出结果的,很多用户其实非常小白,可能对我们圈内人来说很正常的操作,然后使用对他们来说难如登天。

很多人一顿操作买了 API 之后才发现痛苦的旅程刚开始,API Key 是什么东西?我不是买了吗,为什么还需要客户端?这一堆东西我该填到哪?

所以对于小白用户来说最好还是有一个直接可以聊天的 ChatBot 客户端可以直接给他们用,纳米AI搜索这点就做的很好。

在纳米AI搜索使用满血的 Deepseek R1 只需要下面这几步:

下载纳米AI搜索 APP-点击导航栏的大模型-选择 Deepseek R1-联网满血版,开聊就行,如果需要联网搜索的话可以点击下方的联网搜索按钮。Image
Feb 4 8 tweets 2 min read
整理了一下各行业的专家使用 Open AI Deep Research 后的一些反馈和案例

希望可以对他擅长做的事情有一些参考

具体的引用来源在下面👇 Image 医学专家让 Deep Research 协助处理癌症病例,表示生成的报告无可挑剔

Jan 25 6 tweets 2 min read
怎么好几天了信息流上还全是Deepseek R1

R1给海外从业者和企业负责人带来的冲击太大了

昨晚有几件关于 R1 的事情导致了讨论继续发酵

👇下面有详细的来源引用 Image lmarena R1出分了,目前排第三仅次于两个Gemini模型,硬提示、编码、数学排第一

Jan 24 9 tweets 2 min read
Open AI 发布了 Operator

可以帮你操作浏览器的 AI Agents

目前只有美国 IP 的 Pro 用户才能使用

下面是一些官方介绍和体验案例,可能会帮你省 1500 Image Open AI 官方介绍

Operator 由一种名为计算机使用代理(CUA)的新模型驱动。

合了 GPT-4o 的视觉能力与通过强化学习实现的高级推理

经过训练可以与用户界面进行交互

遇到挑战或犯错,Operator 可以利用其推理能力进行自我纠正

Jan 22 6 tweets 2 min read
海螺语音上线,测试了一下这可能是国内最好的配音产品了

支持超过17 种语言的配音
多种情绪表达的精准控制
支持数百种音色库满足不同需求
音频质量真的非常高,清晰、自然
提供丰富的自定义选项

详细的测试结果在下面👇 海螺语音的功能真的很强大而且细致,有一个庞大的音色库支持超过17种语言,每种语言又有非常多的音色,再加上男声和女声还有年龄。

可以通过筛选找到你需要的任何身份和年龄背景的音色,比如我们的视频脚本需要一个年迈的有正义感的老人,就可通过这个筛选快速获取到。 Image
Jan 22 10 tweets 2 min read
华尔街日报对 Anthropic CEO 的访谈,透露了挺多内容的

- 即将推出网络访问功能
- Claude 即将实现双向语音交互
- 允许 Claude 跨项目记忆信息
- 不会单独推出推理模型
- 未来 2-3 年内,AI 模型将在工作能力超过所有人类
- 新模型 3-6 个月推出

下面是 Gemini 的详细总结👇 Image 1. 产品路线图与功能 (Product Roadmap & Features):

近期功能重点:
网络访问 (Web Access): 即将推出,是优先事项,尤其针对消费者和高级用户。Anthropic 在网络访问方面有独特的想法,区别于其他模型提供商。

语音模式 (Voice Mode): 最终将实现双向语音交互。目前 Claude 可以转录语音和朗读文本,但双向音频模式尚未实现,企业端需求较低,消费者端需求更高。

记忆功能 (Memory Feature): 即将到来,是虚拟协作愿景的重要组成部分,允许 Claude 跨项目记忆信息,类似于人类助手记住过往对话。

Reasoning Models (推理模型): 即将发布新的优秀模型,但拒绝透露具体细节和发布日期。Anthropic 对 reasoning models 的理解与传统观点不同,强调强化学习和模型的持续思考与反思能力。

非优先功能:
照片生成 (Photo Generation): 非优先事项,企业用例有限,安全和保障问题独特。如果消费者端需求足够大,可能会考虑与专业公司合作。

虚拟协作 (Virtual Collaborators):
是 Anthropic 的核心愿景,旨在打造能够像人类助手一样在电脑屏幕上完成各种任务的 AI 系统。
用户可以与虚拟助手对话并分配任务,任务可能持续一天甚至更长时间,助手能够自主分解和执行任务,并定期汇报。

虚拟协作是 "autonomous virtual collaborator" (自主虚拟协作器) 的早期体现,拥有虚拟操作人类的所有能力,预计今年上半年可能出现强大版本。
计算机使用功能是虚拟协作的早期实例化。
Jan 22 6 tweets 2 min read
我去,这下真的开启 AI 军备竞赛了

特朗普、孙正义、甲骨文 CEO、Sam 一起宣布了总投资 5000 亿美元的 AI 星际之门计划

详细信息我放下面👇

星际之门项目是一家新成立的公司

计划在未来四年内投资 5000 亿美元,为美国的 OpenAI 建设新的人工智能基础设施。

将立即开始部署 1000 亿美元。

Stargate 的初始股权投资者包括软银、OpenAI、甲骨文和 MGX。其中软银负责财务,OpenAI 负责运营。孙正义将担任主席一职。

Jan 21 10 tweets 3 min read
昨晚的信息流都被 DeepSeek 刷屏了

整理了一些大佬们对 R1 论文的发现 Image DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试

1. 过程奖励模型(PRM)的尝试
主要存在三个限制:
- 难以明确定义推理任务中的细粒度步骤
- 难以判断中间步骤是否正确
- 基于模型的PRM容易导致奖励欺骗(reward hacking)问题
结论:虽然PRM在重新排序和引导搜索方面表现不错,但收益有限,且增加了计算开销。

2. 蒙特卡洛树搜索(MCTS)的尝试
主要挑战:
- 与象棋等游戏相比,token生成的搜索空间呈指数级增长
- 需要设置节点扩展限制,可能导致陷入局部最优
- 价值模型的训练难度大,影响生成质量
- 难以复制AlphaGo通过价值模型迭代提升性能的成功经验
结论:MCTS虽然可以在推理阶段提升性能,但难以通过自搜索实现模型性能的迭代提升。
Jan 7 10 tweets 3 min read
50 系显卡价格发布了

5070算力相当于 4090,价格只有 4090 的三分之一! Image 突然犯病,什么美国队长 哈哈哈哈 Image
Jan 1 10 tweets 1 min read
开个帖子记录和回顾一下我和 AI 行业的 2024

- 模型层面的发展(LLM、视频、图像)
- 我最喜欢的AI产品创新
- 我目前用钱投票的所有AI产品 产业&模型

图像和视频领域出乎意料的快速发展,感谢Open AI在Sora发布时最后的良知爆发,多写了点架构的事情。
Dec 20, 2024 5 tweets 3 min read
Anthropic 几个核心创始人罕见的一起录了一个播客

详细介绍了他们如何认识然后产生共识最后迫不得已创建公司的事情

整理了一下核心内容笔记:

- 创始历程与动机
- 公司文化特点
- 几个联创展望未来
- 有趣的AI历史细节

里面很多以前没说过的事情,强烈建议看看 Image
Image
Image
Image
创始历程与动机

1. 个人背景与转折点:
- Jared 原本是物理学教授,被Dario展示的AI模型结果所吸引
- Chris最早19岁就认识了团队成员,后来在Google Brain与Dario共事
- Tom原本是记者,2014年就开始关注AI发展,尽管当时很多人认为这个决定"疯狂"
- Daniela在Stripe工作了5.5年,经Greg介绍认识了团队

2. 关键时间节点:
- 2014-2015: Tom开始追踪ImageNet结果,注意到GPU在AI研究中的重要性
- 2015: Dario发表"Concrete Problems in AI Safety"论文,开创性地将AI安全与实际机器学习结合
- 2016: 多位成员加入OpenAI
- 2020: GPT-3成功后,团队意识到必须采取行动
- 2020-2021: 团队决定离开OpenAI创立Anthropic

3. 决策过程:
- Chris描述自己花了6个月时间纠结是否要投身AI安全领域
- Tom采用了一个有趣的策略:向雇主提出不可能被接受的条件,帮助自己下定决心
- 有些成员(如Chris)最初不想成立新公司,更倾向于建立非营利组织
- 最终选择创业是出于实用主义考虑,认识到需要资本支持

4. 核心动机:
- "None of us wanted to found a company. We felt like it was our duty."(没人想创业,但我们觉得这是责任)
- 看到GPT-3的成功后,意识到如果不采取行动,可能会错过改变行业的机会
- 希望避免科技行业常见的错误,建立一个不同的机构文化
- 团队成员共同特点是"betting with conviction"(带着信念下注)

5. 独特视角:
- 物理学家背景带来的影响:更愿意追求雄心勃勃的目标,不受AI寒冬的心理阴影影响
- 新闻记者背景带来的洞察:能够较早发现技术趋势
- 工程师视角的重要性:认识到不仅研究者,工程师也能为AI安全做出贡献
Dec 14, 2024 4 tweets 2 min read
Ilya 罕见发声在 2024 年 Neurips 大会上演讲

“我们所熟知的预训练将会终结”

大致介绍了:

- 深度学习的演进
- 为什么预训练已经达到上限
- 未来的发展方向
- 对超级智能的思考

我转录总结了后面三个部分,文字版本在下面 Image
Image
Image
预训练终结预测的关键论点:

1. 预训练终结的必然性
演讲者明确表示:"预训练将毫无疑问地结束"(Pre-training as we know it will unquestionably end)

2. 终结的核心原因:计算力与数据的不平衡发展

a) 计算能力方面持续增长:
- 硬件性能不断提升
- 算法效率持续改进
- 计算集群规模扩大
- 这些因素共同推动计算能力的指数级增长

b) 数据增长的天然限制:
- "我们只有一个互联网"(we have but one internet)
- 可用的优质数据是有限的
- 演讲者用了一个形象的比喻:"数据是AI的化石燃料"(data is the fossil fuel of AI)
- 就像化石燃料一样,数据是在特定时期产生的有限资源
- 我们已经达到了"峰值数据"(peak data)的状态

3. 数据限制的影响
- 虽然现有数据仍然可以支持相当长一段时间的发展
- 但最终必须面对数据量增长有限的现实
- 需要寻找新的解决方案和发展方向
Dec 2, 2024 10 tweets 2 min read
黑五最后一天了,整理了一下打折的 AI 软件内容。

看看有需要的可以赶快下手。 Image Perplexity 黑五优惠首月只需 5 美元。另外如果你朋友是会员的话,他可以免费送你一个月的会员。

Windsurf 将所有免费用户的试用期延长到了 12 月 11 号。

Screen Studio 我常用的视频剪辑和录制软件,使用BLACKFRIDAY24这个优惠代码可以获得40% 的优惠。

Monica 年卡超级会员4折$119,原价299,周末放出了会员群专属的优惠券可以实现折上折。

推特6折 5.4美元年会员,原价84,只能首次订阅的用户享受。

Suno月卡6折6$,原价10。

Framer基本版、专业版和启动版首年5折,只有首次订阅用户可以享受。

Recraft年度7折,月度3折(BLACKYEAR70/BLACKMONTH30 )

可灵海外版现在也有5折优惠。

桌面快捷启动器Raycast使用代码BF30可以优惠30%。

Bolt 结账时使用 CYBERBOLT 代码可以获得10%的优惠。

写作笔记软件Craft 5折,后续续费也是五折,很值。

AI 画图工具 Ideogram 5 折。

Lummi AI 图片素材库,年订阅用户打 5 折。
Nov 12, 2024 8 tweets 4 min read
Anthropic CEO 接受了 Lex Fridman 长达五个小时的访谈。

里面的信息非常丰富,老哥真的实诚。

整理了一下笔记,内容包括:

- AGI 何时到来
- Scaling Hypothesis的定义以及是否结束
- Anthropic的产品策略
- LLM可解释性研究
- AI发展时间线的介绍和预测 Image 大致访谈内容

关于扩展假设(Scaling Hypothesis):

- Dario从2014年在百度工作时就开始关注扩展假说
- 认为随着模型规模、数据量和训练时间的增加,模型性能会持续提升
- 观察到语言是最适合验证这一假说的领域
- 目前看来扩展假说仍在持续验证中,尚未遇到明显瓶颈

关于AI发展时间线:

- 预计2026-2027年可能达到人类水平的AI
- 认为在编程等专业领域,AI已经开始接近专业人士水平
- 虽然时间线预测有不确定性,但blockers在逐渐减少
关于Anthropic的产品策略:
- Claude系列产品分为Opus(最强)、Sonnet(中等)、Haiku(最快)三个等级
- 每一代产品都在努力推动性能边界
- 重视安全性,设有Responsible Scaling Policy

关于AI安全:

- 提出了ASL(AI Safety Level)分级系统,从1-5级
- 目前的模型在ASL 2级,预计2024年可能达到ASL 3
- 特别关注catastrophic misuse和autonomy risks两大风险

关于Claude的性格塑造:

- 负责设计Claude的性格特征
- 强调要让AI表现得像一个理想的对话者
- 平衡诚实性和有用性

关于提示工程:

- 重视提示的清晰性和具体性
- 建议反复迭代优化提示词
- 使用具体例子来说明需求

关于机制可解释性研究:

- 致力于理解神经网络内部运作机制
- 提出了线性表征假说
- 发现了多语义特征和电路结构
Oct 22, 2024 6 tweets 1 min read
今晚这是肿么了?

Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。

而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本!

升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。 新版Claude 3.5 Sonnet介绍:

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。
Sep 29, 2024 6 tweets 2 min read
Karpathy 说 NotebookLM 播客功能中可能蕴含着类似 ChatGPT 的机会,一个新的 AI 交互范式。

我一直关注和等待的东西,终于有行业核心人物注意到了,这个机会可能比 ChatGPT 还要大的多。

写了篇内容详细介绍了一下这个新的 AI 范式里面的逻辑。

将已有的庞大文本内容利用日渐成熟的其他模态 AI 模型转换为更多可被用户消费的内容形态,从而满足更多的用户消费场景。Image Perplexity 的发现页面将全世界大量不同语言的新闻内容重新整合。

变为可以被不同语言消费的新闻信息流。

同时 TTS 的加入让用户的消费场景获得了极大的拓展,可以不用盯着屏幕了。
Mar 12, 2024 4 tweets 1 min read
Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。

Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术,可以为成熟的生产资源库做出贡献,可以训练和微调自己的人工智能模型,甚至试着在 Upwork 上给 Devin 提供真实的工作,它也能完成。 这里有关于Devin的详细介绍:
cognition-labs.com/blog
Feb 29, 2024 9 tweets 3 min read
之前推荐过的国内☁️云服务平台揽睿星舟最近上线了 ComfyUI,他们是真想把这玩意的云服务做好,很适合入门学习。

把常用的 ComfyUI 插件和模型都上传上去了,我把我自己常用的一个相对复杂的 Animatediff 工作流拖进去发现所有的插件和模型都是 OK 的,一键运行。

👇下面也会有启动的教程和地址 Image 你可以在这里使用注册和使用揽睿星舟,通过这个链接会有优惠券,如果你只是想体验的话配合无门槛优惠券充值一块钱就可以用:

我们开始简单的使用教程lanrui-ai.com/register?invit…