发布时间:2023-06-28
点击次数: 在 AIGC 的神奇世界里,我们可以在图像上通过「拖曳」的方式,改变并合成自己想要的图像。比如让一头狮子转头并张嘴:

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2025 会议接收。
一个多月过去了,该研究团队于近日放出了官方代码。短短三天时间,Star 量便已突破了 23k,足可见其火爆程度。
图片
github 地址:https://github.com/xingangpan/draggan
无独有偶,今日又一项类似的研究 —— DragDiffusion 进入了人们的视线。此前的 DragGAN 实现了基于点的交互式图像编辑,并取得像素级精度的编辑效果。但是也有不足,DragGAN 是基于生成对抗网络(GAN),通用性会受到预训练 GAN 模型容量的限制。
在新研究中,新加坡国立大学和字节跳动的几位研究者将这类编辑框架扩展到了扩散模型,提出了 DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。
虽然现在大多数基于扩散的图像编辑方法都适用于文本嵌入,但 DragDiffusion 优化了扩散潜在表示,实现了精确的空间控制。
图片
研究者表示,扩散模型以迭代方式生成图像,而「一步」优化扩散潜在表示足以生成连贯结果,使 DragDiffusion 高效完成了高质量编辑。
他们在各种具有挑战性的场景(如多对象、不同对象类别)下进行了广泛实验,验证了 DragDiffusion 的可塑性和通用性。相关代码也将很快放出、
下面我们看看 DragDiffusion 效果如何。
首先,我们想让下图中的小猫咪的头再抬高一点,用户只需将红色的点拖拽至蓝色的点就可以了:

接下来,我们想让山峰变得再高一点,也没有问题,拖拽红色关键点就可以了:
图片
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
还想让雕塑的头像转个头,拖拽一下就能办到:
图片
让岸边的花,开的范围更广一点:
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

本文提出的 DRAGDIFFUSION 旨在优化特定的扩散潜变量,以实现可交互的、基于点的图像编辑。
为了实现这一目标,该研究首先在扩散模型的基础上微调 LoRA,以重建用户输入图像。这样做可以保证输入、输出图像的风格保持一致。
接下来,研究者对输入图像采用 DDIM inversion(这是一种探索扩散模型的逆变换和潜在空间操作的方法),以获得特定步骤的扩散潜变量。
在编辑过程中,研究者反复运用动作监督和点跟踪,以优化先前获得的第 t 步扩散潜变量,从而将处理点的内容「拖拽(drag)」到目标位置。编辑过程还应用了正则化项,以确保图像的未掩码区域保持不变。
最后,通过 DDIM 对优化后的第 t 步潜变量进行去噪,得到编辑后的结果。总体概览图如下所示:
图片
给定一张输入图像,DRAGDIFFUSION 将关键点(红色)的内容「拖拽」到相应的目标点(蓝色)。例如在图(1)中,将小狗的头转过来,图(7)将老虎的嘴巴合上等等。
图片
下面是更多示例演示。如图(4)将山峰变高,图(7)将笔头变大等等。
图片

以上就是DragGAN开源三天Star量23k,这又来一个DragDiffusion的详细内容,更多请关注其它相关文章!
# 开源
# 图片
# 石材网站推广
# seo社区ai
# 台湾直播公会推广网站
# 沧州网站推广哪家实惠好
# 四川芜湖网站优化
# 上海网站建设欢迎洽谈
# 枣庄专业的网站建设服务
# 电商网站系统优化
# 十堰网络推广网站优化
# 营销推广历史
# 环比
# 合上
# 上半年
# 就可以
# 营收
# 中国
# 想让
# 拖拽
# 这又
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
测试框架-安全和自动驾驶
普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂
日新月异,脑机接口技术都有哪些新应用?
稿见AI助手:提升写作效率与质量的必备工具
脑机接口产业联盟发布十大脑机接口关键技术
开创全新虚拟现实体验的Pimax Crystal VR头显
AI技术改变*,新骗局来袭,*成功率接近100%
AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导
苹果2万5的AR遭遇砍单95%:不及预期
如何用AI开创智慧能源新时代?固德威正让能源“通人性”!
加速电网转型升级推进新型电力系统建设
中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军
华为昇腾AI原生支持30多种基础大模型,包括GPT
谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域
360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
500元一张的AI艺术二维码制作,详细教程来了!
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
日媒:AI高效解析纳斯卡地画
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展
AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布
苹果CEO库克:持续研究生成式人工智能技术
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
VR健身应用《FitXR》将取消Quest 1端会员服务
创新全场景清洁方案!海尔商用机器人首发上市
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
联通发布鸿湖图文AI大模型1.0,可实现以文生图
“风乌”气象大模型科学家团队:用AI预报极端天气未来不是梦!
严打“黑飞”,无人机检测反制设备护航大运会净空安全
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
看懂AI,找到增长新势能 | 笔记侠AI峰会等你来
人工智能如何与智能家居集成
自动驾驶汽车避障、路径规划和控制技术详解
谷歌在人工智能领域没有“护城河”?
电力人工智能数据集目录首次发布
OpenAI高管:AI能创造新的就业机会 但也会淘汰一些
世界人工智能大会中西部县域数字就业中心组团亮相
鸿蒙4即将支持大规模AI模型
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员
英伟达的AI领域垄断地位:一直无法撼动吗?
小米9号员工李明宣布创业:打造首款安卓桌面机器人
令人惊叹!AI模型能够以iPhone照片为基础创作诗歌
了解 AGI:智能的未来?
为AI而服务设计:构建以人为本的AI创新方法