Post

How to get URL link on X (Twitter) App

On the Twitter thread, click on or icon on the bottom
Click again on or Share Via icon
Click on Copy Link to Tweet
Paste it above and click "Unroll Thread"!
More info at Twitter Help

歸藏(guizang.ai)

Jun 19, 2023 • 13 tweets • 9 min read • Read on X

AIGC Weekly #26更新了，AI 领域沉寂了一个月之后终于有了一些新东西。本期主要内容有：

• Open AI 大动作，模型更新、函数调用、费用降低
• Meta Voicebox，一个全能语音生成模型
• Midjourney 最新的工作报告进展
• 谷歌的AI试衣模型
• Stable Diffusion稳定生成视频的突破

下面是详细信息🧵

🥰本周精选：

Open AI 上周三发布了一大批模型相关的更新，包括了GPT-4和3.5的新版本模型，模型都支持函数调用以及关于模型费用的调整： openai.com/blog/function-…

Meta 最近瞄准了除了大语言模型之外的其他媒体生成式模型开始发力，比如上周推出了 Voicebox，一个全能语音生成模型：ai.facebook.com/blog/voicebox-…

https://twitter.com/saana_ai/status/1669068602111328256?s=20

上周Midjourney工作时间官方的一些消息，比较重要的有：V6 相关信息、V5.2 相关信息、移动和 web 客户端等：

https://twitter.com/saana_ai/status/1669068602111328256?s=20

谷歌前两天发了一个AI试衣模型 TryOnDiffusion，想解决的是用户提供一张自己的全身照，就可以获得自己穿上对应服装的样子：blog.google/products/shopp…

上周发布的这个方案看起来很大程度解决了SD 生成视频的闪烁和稳定性问题：anonymous-31415926.github.io

⚒️产品推荐：

Framer AI ：AI 帮你创建网页：framer.com/ai

Foreplay 2.0：大量制作高转化率的 Facebook 和 TikTok 广告：foreplay.co

腾讯智影：腾讯推出的 AI 画图应用：zenvideo.qq.com/image/create

Locofy：利用AI 和设计系统直接将设计稿转换为前端代码：locofy.ai

BeforeSunset：AI 驱动的 To-Do 应用：beforesunset.ai

Spell AI：AI 自动完成你安排的任务：spell.so

Freeflo：一个精美的 AI 生成图片素材库附带有提示词：freeflo.ai

Hotjar AI for surveys：AI 帮助创建调研问卷和分析：hotjar.com/product-ai-sur…

Vercel 推出了 AI SDK加速构建 AI 应用的过程：vercel.com/blog/introduci…

Millie：AI交友助手：meetmillie.app

Lancey：产品增长平台，快速启动PLG实验：trylancey.com

Octopulse AI：AI 驱动的用户增长分析平台：octopulse.ai

Writesonic：AI 辅助你撰写品牌宣传文章：writesonic.com/ai-article-wri…

Logo livery：AI 生成 LOGO：logolivery.ai

Obviously AI：无需编写代码即可构建AI模型的工具：obviously.ai

🔬精选文章：

欧盟人工智能法案的介绍：forbes.com/sites/forbeseq…

ChatGPT 代码解释器插件对财务和金融从业者的影响：every.to/napkin-math/op…

第一个基于 Yann LeCun 对更像人类 AI 的愿景的 AI 模型：ai.facebook.com/blog/yann-lecu…

LLM的不同发展路径：interconnects.ai/p/llm-developm…

成规模的 AI 领域市场地图：alexsandu.substack.com/p/market-map-g…

Reddit实际上是OpenAI的护城河：cyberdemon.org/2023/06/14/red…

用长期记忆增强语言模型：huggingface.co/papers/2306.07…

FinGPT：开源金融 LLM：arxiv.org/abs/2306.06031

LLM 输出内容水印的可靠性：arxiv.org/pdf/2306.04634…

Transformer模型调研：arxiv.org/abs/2306.07303

TAPIR：使用每帧初始化和时间细化跟踪任何点：arxiv.org/abs/2306.08637

感谢大家看到这里，在此我也想给大家介绍一下有趣的内容和信息，如果你也觉得有意思的话可以私信我或者给我发邮件投稿。订阅周刊：op7418.zhubai.love/posts/22825313…

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @op7418

歸藏(guizang.ai)

@op7418

Sep 29

Karpathy 说 NotebookLM 播客功能中可能蕴含着类似 ChatGPT 的机会，一个新的 AI 交互范式。

我一直关注和等待的东西，终于有行业核心人物注意到了，这个机会可能比 ChatGPT 还要大的多。

写了篇内容详细介绍了一下这个新的 AI 范式里面的逻辑。

将已有的庞大文本内容利用日渐成熟的其他模态 AI 模型转换为更多可被用户消费的内容形态，从而满足更多的用户消费场景。

https://x.com/op7418/status/1835162118641139992

Perplexity 的发现页面将全世界大量不同语言的新闻内容重新整合。

变为可以被不同语言消费的新闻信息流。

同时 TTS 的加入让用户的消费场景获得了极大的拓展，可以不用盯着屏幕了。

https://x.com/op7418/status/1835162118641139992

https://x.com/op7418/status/1834135184536731757

NotebookLM 将用户感兴趣的长篇文字内容拆解、总结、整合，让其更符合用户消费习惯。

播客的加入也让整理内容的消费场景获得了拓展，另外对谈的形式也避免了让用户提问题这个成本很高的动作。

https://x.com/op7418/status/1834135184536731757

Read 6 tweets

歸藏(guizang.ai)

@op7418

Mar 12

Cognition发布首位AI软件工程师Devin，这个演示相当惊艳。

Devin 是一个自主Agents，它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试，甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题，远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术，可以为成熟的生产资源库做出贡献，可以训练和微调自己的人工智能模型，甚至试着在 Upwork 上给 Devin 提供真实的工作，它也能完成。

这里有关于Devin的详细介绍：
cognition-labs.com/blog

Devin 通过自主学习对应文章生成图片的案例

Read 4 tweets

歸藏(guizang.ai)

@op7418

Feb 29

之前推荐过的国内☁️云服务平台揽睿星舟最近上线了 ComfyUI，他们是真想把这玩意的云服务做好，很适合入门学习。

把常用的 ComfyUI 插件和模型都上传上去了，我把我自己常用的一个相对复杂的 Animatediff 工作流拖进去发现所有的插件和模型都是 OK 的，一键运行。

👇下面也会有启动的教程和地址

你可以在这里使用注册和使用揽睿星舟，通过这个链接会有优惠券，如果你只是想体验的话配合无门槛优惠券充值一块钱就可以用：

我们开始简单的使用教程lanrui-ai.com/register?invit…

登录之后可以点击左侧导航的工作空间，然后点击右侧创建工作空间。

Read 9 tweets

歸藏(guizang.ai)

@op7418

Feb 21

见鬼了，谷歌居然开源LLM模型了，Meta要慌了。

Gemma 采用了和Gemini一样技术的开源LLM，同时质量也比同规模的模型要强。

下面是一些要点：

◈ 两种尺寸的模型权重：Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。

◈ 一个生成式人工智能工具包，为使用Gemma创建更安全的人工智能应用提供指导和必要工具。

◈ 通过原生Keras 3.0为所有主要框架（JAX、PyTorch和TensorFlow）提供推理和监督微调（SFT）的工具链。

◈ 准备好的Colab和Kaggle笔记本，以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成，使得开始使用Gemma变得非常容易。

◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行，并可以轻松部署到Vertex AI和Google Kubernetes Engine（GKE）。

◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能，包括NVIDIA GPU和Google Cloud TPU。

◈ 允许所有组织进行负责任的商业使用和分发，无论规模大小。

◈未来还会发布Gemma更大模型变体。

了解更多：blog.google/technology/dev…

Gemma模型与Gemini共享技术和基础设施组件。

这使得Gemma 2B和7B能够在与其他开放模型相比实现最佳性能。

Gemma在关键基准测试中超越了明显更大的模型。

详细的技术报告在这里：storage.googleapis.com/deepmind-media…

你可以在这里下载和使用Gemma：
kaggle.com/models/google/…

Read 6 tweets

歸藏(guizang.ai)

@op7418

Feb 21

https://twitter.com/karpathy/status/1759996549109776702

Open AI传奇研究员Andrej Karpathy的新课，教你理解和构建GPT Tokenizer。

他可以把相当复杂的LLM概念用非常好理解的方式讲出来。希望了解LLM的强烈建议听一下他的课，包括一些历史课程。

用GPT-4翻译了一下这节课，感兴趣可以听一下。字幕文件下载和历史课程会放在下面⬇️

https://twitter.com/karpathy/status/1759996549109776702

补充一下视频介绍：

分词器是大语言模型（LLM）处理流程中一个独立且关键的环节。它们有专属的训练数据集、采用特定的训练算法——字节对编码（Byte Pair Encoding），训练完成后，分词器能够执行两个核心功能：encode() 函数将普通文本字符串转换为词元，而 decode() 函数则能将词元还原为原始文本字符串。在这场讲座中，我们将一步步揭开 OpenAI GPT 系列分词器的构建过程。

我们将发现，许多大语言模型(LLM)表现出的异常行为和问题，其实都源于标记化(tokenization)这一环节。我们会针对这些问题进行详细讨论，探究标记化为何成为问题的关键所在，以及为什么最理想的情况是有人能够找到办法，完全去除这一处理阶段。