歸藏(guizang.ai) Profile picture
产品设计师、模型设计师、 不会代码的独立开发者。关注人工智能、LLM 、 Stable Diffusion 和设计。 Interested in AI, LLM, Stable Diffusion, and design.
eric kok Profile picture kid Profile picture 2 subscribed
Mar 12 4 tweets 1 min read
Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。

Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术,可以为成熟的生产资源库做出贡献,可以训练和微调自己的人工智能模型,甚至试着在 Upwork 上给 Devin 提供真实的工作,它也能完成。 这里有关于Devin的详细介绍:
cognition-labs.com/blog
Feb 29 9 tweets 3 min read
之前推荐过的国内☁️云服务平台揽睿星舟最近上线了 ComfyUI,他们是真想把这玩意的云服务做好,很适合入门学习。

把常用的 ComfyUI 插件和模型都上传上去了,我把我自己常用的一个相对复杂的 Animatediff 工作流拖进去发现所有的插件和模型都是 OK 的,一键运行。

👇下面也会有启动的教程和地址 Image 你可以在这里使用注册和使用揽睿星舟,通过这个链接会有优惠券,如果你只是想体验的话配合无门槛优惠券充值一块钱就可以用:

我们开始简单的使用教程lanrui-ai.com/register?invit…
Feb 21 6 tweets 2 min read
见鬼了,谷歌居然开源LLM模型了,Meta要慌了。

Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。

下面是一些要点:

◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。

◈ 一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。

◈ 通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。

◈ 准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。

◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。

◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

◈ 允许所有组织进行负责任的商业使用和分发,无论规模大小。

◈未来还会发布Gemma更大模型变体。

了解更多:blog.google/technology/dev…Image Gemma模型与Gemini共享技术和基础设施组件。

这使得Gemma 2B和7B能够在与其他开放模型相比实现最佳性能。

Gemma在关键基准测试中超越了明显更大的模型。

详细的技术报告在这里:storage.googleapis.com/deepmind-media…
Feb 21 4 tweets 2 min read
Open AI传奇研究员Andrej Karpathy的新课,教你理解和构建GPT Tokenizer。

他可以把相当复杂的LLM概念用非常好理解的方式讲出来。希望了解LLM的强烈建议听一下他的课,包括一些历史课程。

用GPT-4翻译了一下这节课,感兴趣可以听一下。字幕文件下载和历史课程会放在下面⬇️
补充一下视频介绍:

分词器是大语言模型(LLM)处理流程中一个独立且关键的环节。它们有专属的训练数据集、采用特定的训练算法——字节对编码(Byte Pair Encoding),训练完成后,分词器能够执行两个核心功能:encode() 函数将普通文本字符串转换为词元,而 decode() 函数则能将词元还原为原始文本字符串。在这场讲座中,我们将一步步揭开 OpenAI GPT 系列分词器的构建过程。

我们将发现,许多大语言模型(LLM)表现出的异常行为和问题,其实都源于标记化(tokenization)这一环节。我们会针对这些问题进行详细讨论,探究标记化为何成为问题的关键所在,以及为什么最理想的情况是有人能够找到办法,完全去除这一处理阶段。Image
Dec 12, 2023 8 tweets 3 min read
写个如何用 Ollama 在 Mac 本地跑 LLM,并且用在 Obsidian 上处理自己的笔记和内容的小教程。视频是具体的演示,我把等待时间剪掉了。
我们开始具体的教程🧵: 首先需要去Ollama的网站下载安装包, 下载完之后直接安装然后打开就行。 ollama.ai
Image
Sep 22, 2023 6 tweets 2 min read
这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词影响画面

比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色

下面我们来看一下它支持的富文本格式和原理🧵 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色 Image
Sep 16, 2023 9 tweets 3 min read
由于Stability AI发布了他们的AI音乐升产品Stable Audio,体验之后我顺便调研了几个主流的AI音乐产品,尽量用同一种曲风生成了一些音乐试试,音乐的生成效果大家可以直接打开这个视频听就行,我也不是专家就不点评了,我个人最喜欢Stable Audio和Soundful的生成结果

下面有各个AI音乐平台的具体介绍: Stable Audio

Stable Audio 是 Stability AI 推出的用于音乐和音效生成的AI工具,输入你对音乐的要求之后就会生成一段音乐给你预览也可以下载,免费用户45秒,Pro用户可以生成90秒的音乐同时内容可以商用,每个月11.99美元,最多500次生成。可以商用是因为模型是用AudioSparx音乐库的正版音乐训练的。 Image
Sep 7, 2023 10 tweets 3 min read
AI视频生成工具Pika Labs火了,Pika在某些场景和生物表现上比“老牌”工具RunwayML要强一些。
Pike不像Runway那样有一个非常好用的网页界面,它和Midjourney一样都是在Discord里面使用的,而且官方没有个详细的新手教程。

所以这里我这里就搞了一个保姆级手把手教程: 首先是如何使用Pika

首先你需要访问他们的官网 点击JOIN BETA按钮。

之后就会打开Discord的服务器加入页面,点击接受邀请就好。如果你还没有Discord账号的话之后就会进入登录或者注册流程这里都是中文按步骤走就行。 pika.art

Image
Image
Aug 31, 2023 5 tweets 3 min read
我们来继续 Claude 提示工程教程的第二部分“一些有用的提示技巧”,详细的内容可以在这里查看:

让Claude说“我不知道”以防止出现幻觉
虽然Claude被训练成一个诚实的助手,但它仍然偶尔会产生“幻觉”——编造不真实的事实或细节,或者在输入中“找到”实际上并不存在的东西,以尽可能提供帮助。防止这种情况的一种方法是明确允许 Claude 在不知道你问题的答案时说“我不知道”。比如下面这个例子:

在回应之前给Claude“思考”的空间
有情况下明确指示Claude去生成额外的文本,它可以认真思考问题。
例如,以下是提示的一部分,旨在通过写下常见问题解答文档中的相关引用来让 Claude 需要“思考”问题:
让 Claude 一步一步思考
如果你要求 Claude 执行一项包含许多子任务的复杂任务,那么单独列出子任务会很有帮助。
当你自己不清楚子任务时,也就是你正在要求 Claude 解决问题,你可以通过明确地告诉 Claude 逐步思考来显著提高回答的推理和准确性。
为了获得最佳效果,我们建议将此请求放在提示的另一部分。
将复杂的任务分解为子任务
Claude 在由多个子任务组成的“复杂”任务上表现不佳。如果你已经知道这些子任务是什么(即你理解问题很好),你可以通过将提示分解为步骤来帮助 Claude。mp.weixin.qq.com/s/tfkpHOs2jhz3…


我们继续第二部分,这是比较重要的一个概念:提示链接

将 Claude 的响应输入到另一个提示的输入中。这种技术称为提示链接。
提示链接可以使你通过将多个较小和较简单的提示传递给Claude而完成一项复杂任务,而不是一个非常长且详细的提示。它有时可以比将任务的所有子任务放在单个提示中更有效。

将长而复杂的提示变成提示链有几个优点:
1、你可以编写不太复杂的指令。
2、你可以隔离 Claude 遇到问题的部分问题,以集中精力进行故障排除。
3、你可以分阶段检查 Claude 的输出,而不仅仅是在最后检查。

以下是提示链接的一些用例。

使用文档和引用回答问题
在这个例子中,我们给Claude一份文档,以及我们想要它根据文档回答的问题。让Claude使用文档文本和相关引用来回答问题,通常比单独使用文本或引用更准确。
响应验证/额外注意
提示链接也可以方便地自动要求 Claude 重新检查之前对提示的响应。使用 Ask Claude 中的示例来评估其输出:
并行任务
多步骤提示可以并行、串行或组合运行。
我们说,我们想要以三个不同的水平向读者解释某个概念:一年级学生、八年级学生和大学新生。此外,我们希望 Claude 先写一个大纲,然后将这个大纲扩展成一个完整的解释。

Jul 20, 2023 4 tweets 2 min read
ChatGPT又更新了一个非常好用的功能,你现在可以自定义自己的提示词了,终于不需要在每次新开一个聊天窗口就输一次提示词了。

👇下面来简单介绍一下如何开启这个功能以及如何使用: Image 如何开启这个功能:

- 点开右下角你的用户名
- 点开Setting按钮弹窗切换到beta features选择Custom instructions开启
- 开启后你可以点击右下角用户名的Custom instructions进行设置
Image
Image
Jul 19, 2023 13 tweets 4 min read
Niji官方最新推出了一系列免费的绘画课程-Niji Academy。这门实验性课程将艺术基础与人工智能技术巧妙结合

不管AI绘画技术如何发展,要创作出精彩图像所需的学习内容决非仅限于抄写他人的提示或敷衍其间

因此,我对Niji官方的课程选择感到非常欣喜。他们从最基础的地方开始讲起

👇下面是第一节课程 Image 由于篇幅很多我精简了一些内容,详细的内容可以去这里看:

这里是第一节的课后练习:https://t.co/mO4rimImQV

我也会跟着翻译这套课程的每一期笔记和相关的练习题,好我们开始第一期的内容:测量和抽象的基础知识:(如何绘制)一切的理论。mp.weixin.qq.com/s/CxEv5NQF_wzA…
mp.weixin.qq.com/s/bFZz7XygW3jA…
Jul 18, 2023 8 tweets 2 min read
Llama2发布了,这版本可以商用了,我详细整理了一些已知的信息:

- Llama2 的性能和参数
- 如何使用和限制条件
- Llama2 的模型架构
- Llama2 的训练方法论

👇下面是详细的信息 Image Llama2 的性能和参数

- Llama2有三个大小的版本分别是7B 13B和70B
- Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。
- 预训练的Token为2 万亿,上下文长度为4096
- 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。
Image
Image
Jul 15, 2023 12 tweets 4 min read
昨天这种将文字或者符号融合生成图片的效果很火,我这个教程会非常详细,主要内容包括:

- 相关内容的下载
- Stable Diffusion的安装
- ControlNet插件的安装和模型的使用
- 图片详细的生成过程和参数解释

这里是精简版的教程,如果你看这个不理解可以去看这个完整版: https://t.co/MIMW3xuZs1mp.weixin.qq.com/s/rvpU4XhToldo…
Image 首先我们需要下载和安装Stable Diffusion,
我们还是去秋葉aaaki的视频下载他做的整合包,这个步骤很简单就是直接解压就行。视频也有详细的安装教程。


之后在解压的文件夹找到这个启动器启动就行。 https://t.co/w909bTOwhbbilibili.com/video/BV1iM4y1…
Image
Jul 11, 2023 6 tweets 1 min read
刚才Anthropic发布了他们最新的模型 Claude 2,Claude2相较于之前的版本有了非常大的提升,同时你现在可以在他们的官网上跟Claude 2对话了(免费)。总的内容包括:

- 如何使用 Claude 2
- 官方的Claude 2机器人有哪些功能
- Claude 2相比之前的版本有哪些提升

下面是一些详细的信息: 如何使用 Claude 2

他们开放了一个官方的聊天机器人程序,你现在可以访问 来使用Claude 2跟他对话,需要注意的是目前只对美国和英国的IP开放。

通过谷歌授权或者自己注册登录即可,再也不用担心被封号了。并且目前是完全免费的!!claude.ai
Jul 8, 2023 6 tweets 2 min read
继续玩ChatGPT的代码解释器上瘾了,尝试了一下数据分析功能,卧槽,真的牛皮。
我的AIGC周刊是在竹白上更新的,而竹白的用户订阅数据是可以导出的,我就想看看能不能从里面找到一些比较有用的数据和规律。

👇下面是具体的分析过程: 导出的文件都是json格式的,刚开始我把订阅用户的邮箱文件发给它,想看一下订阅用户中不同类型的邮箱的比例,显然他完成的很好因为这个json文件里只有邮箱地址。

从结果来看跟预期的差不多Gmail占了40%第二大的就是QQ邮箱占18%。
Jul 8, 2023 7 tweets 2 min read
Chat GPT的代码解释器今天向所有Plus用户开放了,这玩意可太好用了。
非常适合日常的一些自动化内容处理需求和数据分析工作,之前这些小需求因为太小了很少有可以专门解决的工具,自己写代码处理又很麻烦。

比如我下面👇这个日常工作非常高频的例子: 我日常在整理和编辑周刊的时候都是用Notion编辑,所以链接都是以文字链接的时候展示的,但是在一些社交媒体比如推特和即刻等地方又得把Markdown格式转成普通格式,哦,还有傻逼的微信公众号,这也是我为什么不在公众号更新周刊的原因,这么多链接处理起来太麻烦了。
Jul 6, 2023 8 tweets 3 min read
今天SDXL 0.9的模型泄露了,最后有模型下载地址。我汇总和整理了一些现在能够知道的信息,主要包括:

• 泄露模型效果如何
• SDXL为什么效果好有什么特点
• 泄露版的配置需求
• 如何使用泄露版模型
• 模型下载地址

排版比较好的在公众号: https://t.co/pNA786BWuvmp.weixin.qq.com/s/RQnH6mhWvWI7…
效果如何

• 模型对色情内容做了限制,但没有那么离谱,通过提示词还是可以生成
• 3060显卡下,生成一张1024x1024图片需要22秒
• 从效果上来看,图像质量接近Midjourney V5刚发布的那个版本
• 下面是reddit上面的一些测试图可以看一下效果



Jun 24, 2023 9 tweets 3 min read
昨天Midjourney发布了zoom out功能,这个功能及其强大,可以创造出一些神奇的图片出来,甚至可以做视频。

教程将给你展示如何使用这一改变游戏规则的功能来拍摄无缝的高清变焦视频。里面还有一部分将这个能力产品化的思路和开源资源。

下面是教程细节🧵 链接部分是将这个内容产品化的思路和用到的开源项目内容,如果你已经有接了第三方MJ接口的服务的话可以看看,可以帮你的产品添加一个不错的功能。
https://t.co/TKzBLg8zYKmp.weixin.qq.com/s/aPcHHgkhrkIq…
Jun 23, 2023 7 tweets 3 min read
Midjourney今天终于更新了V5.2版本,虽然版本号没有改变但是增加了一些比较重要的新功能,他们分别是:

• 新的美学风格
• 风格化命令的问题已经修复
• 新增高变异模式
• 提示词分析功能
• 图片填充功能

下面是详细的说明🧵: 新的美学风格

改进了审美和更清晰的图像,略微提高了连贯性和文本理解,增加了内容输出的多样性。左边为V5.1 右边为V5.2 。

Jun 19, 2023 13 tweets 9 min read
AIGC Weekly #26更新了,AI 领域沉寂了一个月之后终于有了一些新东西。本期主要内容有:

• Open AI 大动作,模型更新、函数调用、费用降低
• Meta Voicebox,一个全能语音生成模型
• Midjourney 最新的工作报告进展
• 谷歌的AI试衣模型
• Stable Diffusion稳定生成视频的突破

下面是详细信息🧵 Image 🥰本周精选:

Open AI 上周三发布了一大批模型相关的更新,包括了GPT-4和3.5的新版本模型,模型都支持函数调用以及关于模型 费用的调整: openai.com/blog/function-…
Jun 17, 2023 7 tweets 3 min read
Meta 昨天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括

基于上下文的文本转语音合成
跨语言风格转换
跨语言风格转换
多样化的语音采样

详细的功能介绍和原理在下面🧵: 大致原理

在Voicebox之前,生成式语音AI需要使用精心准备的训练数据为每个任务进行特定的训练。Voicebox采用了一种新的方法,仅通过原始音频和相应的转录来学习。与用于音频生成的自回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频片段的末尾部分。 twitter.com/i/web/status/1…