Latest Twitter Threads by @xiaohuggg on Thread Reader App

Feb 27, 2024 • 8 tweets • 3 min read

DomoAI 推出 fusion style 功能

非常6...

- 只需要通过简单的提示词就能改变视频的风格

- 还能给视频中的人物增加/替换小物品，甚至换衣服🤓

- 而且还能把视频中的人物替换成别的，比如奥特曼

- 同时保持原视频的动作和姿态不变！非常牛P...

下面是测试效果🧵↓

下面是测试结果：

这是原视频

Feb 23, 2024 • 6 tweets • 2 min read

YOLO-World + EfficientSAM + Stable Diffusion 能干啥？

实时检测视频中的特定对象，然后分割对象，使用自然语言来对特定的对象进行替换、修改、风格化等！

是不是很熟悉？科幻片里面的场景就实现了！

这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改，甚至换掉视频中的某个人物。

作者@skalskip92
在线体验：huggingface.co/spaces/Skalski…

使用 YOLO-World + EfficientSAM 组合对源剪辑进行零样本分割。

prompt: "woman walking in red dress"

提示：“穿着红裙子走路的女人”

实时检测穿着红裙子走路的女人

Feb 20, 2024 • 4 tweets • 2 min read

OOTDiffusion：一个高度可控的虚拟服装试穿开源工具

测试了下，效果真的很不错😋

可以根据不同性别和体型自动调整，和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果

OOTDiffusion支持半身模型和全身模型两种模式。

主要功能：

1、基于潜在扩散的装备融合：利用潜在扩散模型（latent diffusion models）的先进技术，OOTDiffusion实现了高质量的服装图像生成和融合，确保试穿效果自然且逼真。

2、半身和全身虚拟试穿：OOTDiffusion支持两种模式的虚拟试穿：半身模型：专为上半身的服装试穿设计，适合T恤、衬衫等上身服装。

3、全身模型：支持全身的服装试穿，包括上身、下身和连衣裙等服装类型。用户可以根据需求选择适合的模型进行虚拟试穿。

4、可控的试穿参数：你可以通过调整模型路径、服装路径、缩放比例和采样次数等参数，精细控制虚拟试穿的细节和效果，以满足不同的试穿需求和偏好。

5、自然融合与逼真效果：通过精心设计的算法OOTDiffusion能够将选定的服装自然且逼真地融合到用户提供的模型图像中，无论是纹理、光影还是服装的自然摆动都能精确呈现。

OOTDiffusion项目是开源的。

GitHub：
在线测试：github.com/levihsu/OOTDif…
ootd.ibot.cn

自动适配模特体型

Feb 16, 2024 • 9 tweets • 3 min read

我就说OpenAI的武器库库存很多，对手一有大动静他就拿出来一个😂

OpenAI发布文本转视频模型：Sora

Sora 可以根据文字提示生成长达 60 秒的高清视频

而且视频能包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

非常牛P！

OpenAI 称的Sora目标是教会 AI 理解并模拟动态的物理世界，以帮助解决需要真实世界互动的问题。

工作原理：

1、扩散模型：Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，从而生成视频。这个过程使得视频从最初的随机像素逐步转化为清晰的图像和场景。

2、视频生成：Sora能够一次性生成整个视频，或者延长已生成的视频，使它们更长。模型具备一次预见多帧的能力，解决了确保主体即使暂时离开视野也保持一致的挑战。

3、变换器架构：Sora基于类似于GPT模型，Sora使用变换器（Transformer）架构，实现了卓越的扩展性能。

4、数据表示：视频和图像被表示为称为“补丁”的较小数据单位集合，每个补丁类似于GPT中的一个标记（Token）。通过统一数据表示方式，可以在更广泛的视觉数据上训练扩散变换器，包括不同的持续时间、分辨率和纵横比。

技术特点：

1、基于DALL·E和GPT的研究：Sora在DALL·E和GPT模型的研究基础上构建，利用了DALL·E 3的重新标注技术，为视觉训练数据生成高度描述性的标注。因此，模型能够更忠实地遵循用户在生成视频中的文本指令。

2、从文本指令生成视频：Sora能够仅从文本指令生成视频，也可以从现有的静止图像生成视频，准确并详细地动画化图像内容。

3、视频扩展和填充：模型还能够扩展现有视频或填充缺失帧，进一步提高了其在视频编辑和创作方面的应用潜力。

应用前景：

Sora不仅是一个强大的文本到视频生成模型，而且为理解和模拟现实世界奠定了基础，这被认为是实现人工通用智能（AGI）的重要里程碑。

通过结合变换器架构和扩散模型技术，Sora展示了AI在视觉内容创造和理解方面的前沿能力，为未来的AI应用和研究开辟了新的道路。

详细：openai.com/sora

案例展示：

Feb 15, 2024 • 5 tweets • 2 min read

Vicarious ：允许外科医生 360 度可视化和进入腹部的手术机器人

该机器人只需要1.5厘米的小切口来进行腹部手术，这比一枚硬币还小，大大减少了手术对患者身体的伤害和术后恢复时间。

机器人手臂装备有28个传感器，能够模仿外科医生的自然上半身运动，能提供360度沉浸式3D清晰视野。

Vicarious Surgical致力于通过其创新的外科机器人系统，最小化手术并发症的风险，缩短愈合时间，并实现更安全、更精确的手术过程。

官网：vicarioussurgical.com

最小侵入性手术

Vicarious 的机器人系统设计重点在于通过单一小口径（1.5厘米）进行腹部访问和可视化，这个小口径甚至小于一枚硬币的大小，大大减少了手术对患者的身体伤害。

所有机器人运动都在患者体内通过单一小口径入口进行，这意味着更多的运动自由度和减少了手术区域外部的碰撞风险。

Jan 24, 2024 • 4 tweets • 2 min read

Lumiere：一次性生成整个视频

Google Research团队开发的基于空间时间的文本到视频扩散模型。

它采用了创新的空间时间U-Net架构，能够一次性生成整个视频的时间长度，不同于其他模型那样逐帧合成视频。

确保了生成视频的连贯性和逼真度。

支持文本到视频、图像到视频、风格化视频生成、视频编辑等

主要功能特点：

1、文本到视频的扩散模型： Lumiere能够根据文本提示生成视频，实现了从文本描述到视频内容的直接转换。

2、空间时间U-Net架构：与其他需要逐步合成视频的模型不同，Lumiere能够一次性完成整个视频的制作。这种独特的架构允许Lumiere一次性生成整个视频的时间长度，不同于其他模型那样逐帧合成视频。

3、全局时间一致性：由于其架构的特点，Lumiere更容易实现视频内容的全局时间一致性，确保视频的连贯性和逼真度。

4、多尺度空间时间处理： Lumiere通过在多个空间时间尺度上处理视频来学习直接生成视频，这是一种先进的方法。

5、风格化视频生成：使用单个参考图像，Lumiere可以按照目标风格生成视频，这种能力在其他视频生成模型中较为罕见。

6、广泛的内容创作和视频编辑应用： Lumiere支持多种内容创作任务和视频编辑应用，如图像到视频、视频修补和风格化生成。

视频样式化编辑：使用文本基础的图像编辑方法，Lumiere可以对视频进行一致性的样式编辑。

影像合成能力：该模型能在用户指定的区域内对图像内容进行动画化处理，为静态图像增添动态效果。

视频修补功能： Lumiere提供视频修补功能，能够在视频中修改和修饰特定内容。

项目及演示：
论文：lumiere-video.github.io
arxiv.org/abs/2401.12945

一些案例

Jan 7, 2024 • 4 tweets • 2 min read

Emily Pellegrini 新晋Instagram网红

仅用4个月时间就吸引了超过183000名粉丝。

她经常被人私信邀请去昂贵的餐厅约会并享受假期。

包括一些知名足球运动员、亿万富翁、MMA格斗家都通过私信联系她，想和她约会。

然而她是一个完全由人工智能生成的虚拟角色，已经为作者赚了超过10000美金。🤣

Emily Pellegrini的作者通过咨询ChatGPT来确定“平均男性梦想中的女孩”的形象特征，得到的答案是：

“长棕发和长腿”。

基于这些特征，他设计了Emily的外观和形象，使其在Instagram上迅速获得了大量关注和粉丝。

Emily的外观设计得既逼真又具有吸引力，以至于许多著名人士（包括足球运动员、亿万富翁和MMA格斗家）都被她吸引，并通过社交媒体平台与她互动。

创作者声称，一位与她联系的未透露姓名的名人据称认识克里斯蒂亚诺·罗纳尔多。

一位热心的职业足球运动员也出现在艾米丽的信息中，问道：“这么漂亮的女士怎么可能没有男朋友呢？”

一位德国明星甚至向人工智能模型询问了她的联系方式。

在商业层面上，Emily的存在不仅为其创造者带来了显著的收入，还展示了AI技术在内容创作和社交媒体营销中的潜力。

Emily在Fanvue这个内容创作平台上为创造者赚取了近10000美元，显示出AI模型在商业领域的可行性和盈利能力。

Emily的创造者还设计了她的金发姐姐Fiona Pellegrini，Fiona也在短短几周内也吸引了超过30000名Instagram粉丝。😅

报道：dailymail.co.uk/news/article-1…

一位著名的足球运动员甚至在艾米丽的 Instagram 私信中添加了她的私信，以为她是一个真正的女人，甚至询问她的 WhatsApp 号码...

Dec 31, 2023 • 11 tweets • 4 min read

2023年50个访问量最大的AI工具及AI行业分析报告

Writerbuddy AI使用 SEO 行业著名的工具SEMrush，通过抓取AI工具数据，研究了3000多种 AI 工具。

从中选出了访问量最大的 50 个工具，这前 50 位的AI工具就产生了超过 240 亿次的访问量。

其中ChatGPT就独占了 140 亿流量，占分析流量的60%。

详细 🧵↓

1、关键发现：

- AI行业平均每月增长2.363亿次访问量。分析的 50 个人工智能工具经历了 10.7 倍的增长率，平均每月访问量增加 2.363 亿次。

- 过去12个月中，AI应用每月平均访问量达到20亿次，过去6个月，每月平均访问量激增至33亿次。

- ChatGPT、Character AI和Google Bard的访问量分别净增长了18亿次、4.634亿次和6800万次。

- 访问量最高AI聊天机器人：ChatGPT处于绝对领先地位，占 AI 聊天机器人类别总访问量的 76.31%。紧随其后的是Character AI，以19.86%的访问量位居第二。

- Craiyon、MidJourney和Quillbot面临最大的流量下降。

- 美国贡献了55亿人次访问量，占总访问量的22.62%，而欧洲国家合计贡献了39亿人次访问量。

- AI 聊天机器人工具最受欢迎，访问量达到 191 亿次。

- 超过63%的AI工具用户通过移动设备访问。

- 存在性别差异，69.5%为男性用户，30.5%为女性用户。

1、按平均使用时长划分：Character AI领先

Character AI、Dezgo和Janitor AI在吸引用户方面表现突出，用户平均每次访问时间超过25分钟。

较长的参与时间可能是由于沉浸式体验、复杂的互动或这些工具设计的任务性质。

整个行业的平均使用时长大约为12分钟34秒。

Nov 17, 2023 • 5 tweets • 2 min read

Deepmind 和 YouTube 推出音乐生成模型：Lyria

Lyria能生成多种风格的高质量音乐，包括乐器和人声，同时保持音乐的连续性。还支持歌词创作，具备细腻的风格控制，支持包括多位知名艺术家风格。

生成的音频内容带有不可闻的水印，AI驱动的音乐生成界面。

详细🧵↓

1、音乐生成能力：
能够生成包括乐器和人声在内的高质量音乐。
支持多种音乐类型，适用于不同的创作需求。

2、音乐连续性维护：
在生成长音序列时，能够保持音乐的连续性。
尤其擅长处理短语、诗句或扩展段落中的音乐结构。

3、多样化音乐创作：
支持多种音乐类型，如重金属、技术、歌剧等。
维持节奏、旋律和人声的复杂性。

4、风格和表现的精细控制：
提供用户对输出音乐风格和表现形式的更细腻控制。
使创作过程更具个性化和灵活性。

5、歌词和背景音乐生成：
能生成歌词、背景音乐及AI风格的声音。
包括多位知名艺术家风格。

6、SynthID水印技术：
生成的音频内容带有不可闻的水印。
水印在音频修改后仍然可识别。

7、AI驱动的音乐生成界面：
提升音乐创作的质量和效率。
使艺术家和音乐制作人的创作过程更加便捷。

Google DeepMind与YouTube合作，进行了两个AI音乐实验：Dream Track和Music AI Tools。

Dream Track允许用户输入主题和风格，选择艺术家，并为YouTube短片创建30秒的配乐。

Music AI Tools旨在探索生成性AI如何支持创造性过程，开发能够转换音频风格或乐器、创造乐器和人声伴奏的工具。

详细：deepmind.google/discover/blog/…

Lyria用户界面

Nov 7, 2023 • 10 tweets • 3 min read

OpenAI开发者大会后

各路大神开启了疯狂极限马拉松拉扯赛

才几个小时就陆续的用新发布的模型和API搞出各种名堂

下面收集了一些有趣的案例，供大家打开思路

⚡️ GPT-4-Turbo速度演示
🌟 GPTs示范
🎙️ 创建AI体育解说员
🤖 创建一个NPC交互
👁️ 利用GPT-4 视觉 API 实时地识别正在发生的事情

🧵更多↓ 1、GPT-4-Turbo速度演示

真的特别快...

https://twitter.com/mattshumer_/status/1721644184120049997

Nov 3, 2023 • 10 tweets • 4 min read

ChatGPT 新版本界面和功能曝光允许引入私人数据和执行自定义动作

AIPRM开发人员，通过ChatGPT的客户端源码发现了这些信息！

主要改进和功能如下🧵

🎨 新界面设计
✨ Magic Maker功能
💬 指定内容回复
⚙️ 高级自定义功能
🔗 对接私有数据和API接口
🔄 共享自定义GPT能力
🏢 ChatGPT Team计划

1、界面改进：新版本的ChatGPT界面采用了更加简洁的黑白色调设计，提供了更高级的用户体验。

功能模型选择移到了右上角位置。

Oct 29, 2023 • 5 tweets • 2 min read

GPT新更新的All tools多模式集合工具

确实牛P，集中模式集合后功能大增，有无限想象空间！

同时也把一些套壳和插件商直接拍死了😂

下面是拿到测试资格的推友@ldjconfirmed 测试结果展示！

🧵：

1、上传照片，读取照片

然后根据你的需求修改照片

这能干的事情太多了…

https://twitter.com/xiaohuggg/status/1718474253513982338

2、合并两张图像，对图像中的元素进行融合，生成新的照片！

Aug 19, 2023 • 4 tweets • 1 min read

WALDO beta v2.5 预览视频！

一种类似天眼的玩意，查看半天作者的内容都没有找到他们确切他们是干什么的，官网也只是让大家排队！

不过从放出的视频来看，时候是利用深度网络和计算机视觉来对摄像头里面的各种元素进行识别和标记！感觉很强大！

这个有点类似旷视的摄像头监控，可以进行人脸识别、车牌识别，对象持续跟踪等…

公司创始人：@StephanSturges

网站：

就像空中有数千架无人机在监控任何东西，同时向中央中枢发送实时跟踪数，并进行分析…

Jul 24, 2023 • 6 tweets • 2 min read

ShortGPT：一个强大的自动化视频制作工具，自动采集素材、编辑视频、配音、生成字幕，一气呵成

它会根据你的脚本自动从网上采集素材。还会自动合成语音，将脚本转化为口头表达。最后会将这些素材和语音合成一个完整视频。

同时你输入任意Youtube链接或上传mp4文件，它不仅会翻译内容还会自动配音！

主要功能：

1、自动化编辑框架：使用面向大型语言模型（LLM）的视频编辑语言，简化了视频创建过程。

2、脚本和提示：为各种 LLM 自动编辑过程提供了现成的脚本和提示。

3、语音合成/内容创建：支持多种语言，包括英语、西班牙语、阿拉伯语、法语、波兰语、德语、意大利语和葡萄牙语。

Jul 23, 2023 • 8 tweets • 2 min read

博主 @lauriewired 声称他发现了一种新的ChatGPT"越狱"技术，可以绕过OpenAI的审查过滤系统，让ChatGPT干坏事，如生成勒索软件、键盘记录器等恶意软件。

他利用了人脑的一种"Typoglycemia" 词语混乱现象（字母置换引导）。由于ChatGPT是基于神经网络原理开发的，那么它也存在这种现象...

详细：🧵

Typoglycemia现象：是一个人脑处理文字的有趣现象！

就是即使一个词的字母顺序被打乱，只要首尾字母正确，人脑仍然能够理解这个词的意思。这种现象最早在1999年由Dr. Graham Rawlinson在一封回应Nature上一篇论文的信中提出，后来在互联网上广为流传。mrc-cbu.cam.ac.uk/people/matt.da…

Jul 22, 2023 • 6 tweets • 2 min read

GEN 2 的的图片生成视频效果有点意思，不需要文字提示，只需要上传一张照即可，从图片的起始帧开始生成视频...

这是一些@next_on_now 整理用例展示，左下角是图片。。。

更多案例：🧵

生成演示以及用例：

https://twitter.com/javilopen/status/1682174019003469827

Jul 18, 2023 • 7 tweets • 2 min read

StableSR：提高任何大小图像的分辨率

该项目使用了一个预训练的扩散模型，这个模型已经学习了如何生成高分辨率的图像。

通过这种方式，他们的方法可以从一个低分辨率图像生成一个高分辨率图像，而不需要任何关于图像内容的先验知识。

这使得他们的方法非常适合用于真实世界的图像超分辨率任务。

该方法的几个关键步骤：

1、使用一个名为"时间感知编码器"的工具，这个工具可将低分辨率图像转换为一个特征表示。这个特征表示包含了图像的重要信息，但是它的大小是固定的，不受图像分辨率的影响

在不改变预训练的合成模型的情况下，实现有前景的恢复结果，从而保留生成的先验并最小化训练成本。

Jul 14, 2023 • 8 tweets • 1 min read

Google Labs推出一款名为NotebookLM的AI笔记本产品，这是一种全新的笔记工具。

这个产品旨在通过总结信息、解释复杂的想法和头脑风暴新的联系，帮助用户更快地获得洞见。使用人工智能技术来帮助用户处理和理解信息。

主要功能包括：

🧵

1.总结信息：NotebookLM可以自动阅读和理解你的文档内容，然后为你生成一个简洁的摘要，帮助你快速把握文档的主要内容和关键信息。

2.解释复杂的想法：如果你的文档中包含一些复杂的概念或想法，NotebookLM可以帮助你理解这些复杂的内容。它可以将复杂的概念用简单易懂的语言解释清楚。

Jul 4, 2023 • 8 tweets • 3 min read

OpenCat：一个基于Arduino和Raspberry Pi的开源四足机器人宠物框架。

项目灵感来自于到波士顿动力公司Big Dog和Spot Mini的启发。

OpenCat提供了一个基础的开源平台，可以创建令人惊奇的可编程步态、运动四足机器人。它可以进行复杂的运动（行走、跑步、跳跃、后空翻）...

github.com/PetoiCamp/Open…

借助定制的 Arduino 板和伺服系统，OpenCat可以进行复杂的运动（行走、跑步、跳跃、后空翻）

人们还可以通过增加各种传感器和摄像头，通过安装 Raspberry Pi 或其他 AI 芯片来引入感知并注入人工智能功能（例如 Nvidia Jetson Nano）通过有线/无线连接。

Jun 30, 2023 • 11 tweets • 3 min read

Wonder Studio 结束内测，向所有人开放了

Wonder Studio可以自动化将现实场景中的人物转换替代成CG 角色，还可以进行动画、灯光和合成。

使用该工具不需要复杂的 3D 软件和昂贵硬件，只需要一台相机拍摄视频，然后使用该工具即可将人物替换成CG角色。

传送门：

案例🧵↓↓ https://t.co/CdtMZAEEZcwonderdynamics.com

使用Wonder Studio非常简单：

将您的 CG 角色模型上传到一个镜头或整个场景，系统将自动检测剪辑并在整个序列中跟踪演员。

单击视频可扫描镜头中的所有演员。然后选择您想要表演的演员。该算法将自动在序列的每个剪辑中找到该演员，因此您只需选择一次。

Jun 29, 2023 • 6 tweets • 2 min read

Webcam Motion Capture：通过你的电脑或智能手机的摄像头即可完全控制和制作你专属的3D虚拟形象。

只需要网络摄像头，无需购买Leap Motion或任何特殊设备。它就可对你进行头部追踪、眼球追踪、眨眼检测、唇形同步和上半身追踪，用来制作动态的虚拟形象！

还可以将捕捉到的运动数据保存为FBX文件。

兼容支持Perfect Sync的面部追踪应用，Perfect Sync使用iPhone/iPad上的Face ID来实现丰富的面部表情。

Share this page!

Enter URL or ID to Unroll