Post

More from @xiaohuggg

小互

@xiaohuggg

Feb 27, 2024

DomoAI 推出 fusion style 功能

非常6...

- 只需要通过简单的提示词就能改变视频的风格

- 还能给视频中的人物增加/替换小物品，甚至换衣服🤓

- 而且还能把视频中的人物替换成别的，比如奥特曼

- 同时保持原视频的动作和姿态不变！非常牛P...

下面是测试效果🧵↓

下面是测试结果：

这是原视频

1、不仅能更换视频风格，还能给视频中的人物增加/替换小物品，甚至换衣服。

（同时保持原视频的动作不变）

Prompt： At the beach, a girl dancing, wearing sunglasses, beach pants and a shirt

Read 8 tweets

小互

@xiaohuggg

Feb 23, 2024

YOLO-World + EfficientSAM + Stable Diffusion 能干啥？

实时检测视频中的特定对象，然后分割对象，使用自然语言来对特定的对象进行替换、修改、风格化等！

是不是很熟悉？科幻片里面的场景就实现了！

这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改，甚至换掉视频中的某个人物。

作者@skalskip92
在线体验：huggingface.co/spaces/Skalski…

使用 YOLO-World + EfficientSAM 组合对源剪辑进行零样本分割。

prompt: "woman walking in red dress"

提示：“穿着红裙子走路的女人”

实时检测穿着红裙子走路的女人

可以更加精细化

只检测女人身上的红裙子

Read 6 tweets

小互

@xiaohuggg

Feb 20, 2024

OOTDiffusion：一个高度可控的虚拟服装试穿开源工具

测试了下，效果真的很不错😋

可以根据不同性别和体型自动调整，和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果

OOTDiffusion支持半身模型和全身模型两种模式。

主要功能：

1、基于潜在扩散的装备融合：利用潜在扩散模型（latent diffusion models）的先进技术，OOTDiffusion实现了高质量的服装图像生成和融合，确保试穿效果自然且逼真。

2、半身和全身虚拟试穿：OOTDiffusion支持两种模式的虚拟试穿：半身模型：专为上半身的服装试穿设计，适合T恤、衬衫等上身服装。

3、全身模型：支持全身的服装试穿，包括上身、下身和连衣裙等服装类型。用户可以根据需求选择适合的模型进行虚拟试穿。

4、可控的试穿参数：你可以通过调整模型路径、服装路径、缩放比例和采样次数等参数，精细控制虚拟试穿的细节和效果，以满足不同的试穿需求和偏好。

5、自然融合与逼真效果：通过精心设计的算法OOTDiffusion能够将选定的服装自然且逼真地融合到用户提供的模型图像中，无论是纹理、光影还是服装的自然摆动都能精确呈现。

OOTDiffusion项目是开源的。

GitHub：
在线测试：github.com/levihsu/OOTDif…
ootd.ibot.cn

自动适配模特体型

和上面的对比下

Read 4 tweets

小互

@xiaohuggg

Feb 16, 2024

我就说OpenAI的武器库库存很多，对手一有大动静他就拿出来一个😂

OpenAI发布文本转视频模型：Sora

Sora 可以根据文字提示生成长达 60 秒的高清视频

而且视频能包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

非常牛P！

OpenAI 称的Sora目标是教会 AI 理解并模拟动态的物理世界，以帮助解决需要真实世界互动的问题。

工作原理：

1、扩散模型：Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，从而生成视频。这个过程使得视频从最初的随机像素逐步转化为清晰的图像和场景。

2、视频生成：Sora能够一次性生成整个视频，或者延长已生成的视频，使它们更长。模型具备一次预见多帧的能力，解决了确保主体即使暂时离开视野也保持一致的挑战。

3、变换器架构：Sora基于类似于GPT模型，Sora使用变换器（Transformer）架构，实现了卓越的扩展性能。

4、数据表示：视频和图像被表示为称为“补丁”的较小数据单位集合，每个补丁类似于GPT中的一个标记（Token）。通过统一数据表示方式，可以在更广泛的视觉数据上训练扩散变换器，包括不同的持续时间、分辨率和纵横比。

技术特点：

1、基于DALL·E和GPT的研究：Sora在DALL·E和GPT模型的研究基础上构建，利用了DALL·E 3的重新标注技术，为视觉训练数据生成高度描述性的标注。因此，模型能够更忠实地遵循用户在生成视频中的文本指令。

2、从文本指令生成视频：Sora能够仅从文本指令生成视频，也可以从现有的静止图像生成视频，准确并详细地动画化图像内容。

3、视频扩展和填充：模型还能够扩展现有视频或填充缺失帧，进一步提高了其在视频编辑和创作方面的应用潜力。

应用前景：

Sora不仅是一个强大的文本到视频生成模型，而且为理解和模拟现实世界奠定了基础，这被认为是实现人工通用智能（AGI）的重要里程碑。

通过结合变换器架构和扩散模型技术，Sora展示了AI在视觉内容创造和理解方面的前沿能力，为未来的AI应用和研究开辟了新的道路。

详细：openai.com/sora

案例展示：

Read 9 tweets

小互

@xiaohuggg

Feb 15, 2024

Vicarious ：允许外科医生 360 度可视化和进入腹部的手术机器人

该机器人只需要1.5厘米的小切口来进行腹部手术，这比一枚硬币还小，大大减少了手术对患者身体的伤害和术后恢复时间。

机器人手臂装备有28个传感器，能够模仿外科医生的自然上半身运动，能提供360度沉浸式3D清晰视野。

Vicarious Surgical致力于通过其创新的外科机器人系统，最小化手术并发症的风险，缩短愈合时间，并实现更安全、更精确的手术过程。

官网：vicarioussurgical.com

最小侵入性手术

Vicarious 的机器人系统设计重点在于通过单一小口径（1.5厘米）进行腹部访问和可视化，这个小口径甚至小于一枚硬币的大小，大大减少了手术对患者的身体伤害。

所有机器人运动都在患者体内通过单一小口径入口进行，这意味着更多的运动自由度和减少了手术区域外部的碰撞风险。

360度沉浸式清晰视野

系统能够提供沉浸式的3D可视化，为外科医生提供了前所未有的视野和操控能力，几乎就像是把外科医生运送到患者体内进行手术一样。

Read 5 tweets

小互

@xiaohuggg

Jan 24, 2024

Lumiere：一次性生成整个视频

Google Research团队开发的基于空间时间的文本到视频扩散模型。

它采用了创新的空间时间U-Net架构，能够一次性生成整个视频的时间长度，不同于其他模型那样逐帧合成视频。

确保了生成视频的连贯性和逼真度。

支持文本到视频、图像到视频、风格化视频生成、视频编辑等

主要功能特点：

1、文本到视频的扩散模型： Lumiere能够根据文本提示生成视频，实现了从文本描述到视频内容的直接转换。

2、空间时间U-Net架构：与其他需要逐步合成视频的模型不同，Lumiere能够一次性完成整个视频的制作。这种独特的架构允许Lumiere一次性生成整个视频的时间长度，不同于其他模型那样逐帧合成视频。

3、全局时间一致性：由于其架构的特点，Lumiere更容易实现视频内容的全局时间一致性，确保视频的连贯性和逼真度。

4、多尺度空间时间处理： Lumiere通过在多个空间时间尺度上处理视频来学习直接生成视频，这是一种先进的方法。

5、风格化视频生成：使用单个参考图像，Lumiere可以按照目标风格生成视频，这种能力在其他视频生成模型中较为罕见。

6、广泛的内容创作和视频编辑应用： Lumiere支持多种内容创作任务和视频编辑应用，如图像到视频、视频修补和风格化生成。

视频样式化编辑：使用文本基础的图像编辑方法，Lumiere可以对视频进行一致性的样式编辑。

影像合成能力：该模型能在用户指定的区域内对图像内容进行动画化处理，为静态图像增添动态效果。

视频修补功能： Lumiere提供视频修补功能，能够在视频中修改和修饰特定内容。

项目及演示：
论文：lumiere-video.github.io
arxiv.org/abs/2401.12945