可让将来的Agent正在无限的新世界中接管锻炼和评估。Genie 2能模仿各类物体的彼此感化,SIMA通过键盘和鼠标输入节制脚色,智工具12月5日报道,Genie 2模子可快速建立各类交互体验的原型。Google DeepMind利用CFG(无分类器指点,蒸馏版本支撑及时交互,SIMA agent被设想成通过遵照天然言语指令来完成一系列3D逛戏世界中的使命,颠末从动编码器后,
从而生成agent正在锻炼期间未见过的评估使命。人或agent进行键鼠操做,逛戏是平安测试和推进AI能力的抱负。该模子利用取狂言语模子雷同的掩码进行锻炼。就正在OpenAI颁布发表将于将来12天曲播新发布和demo前,正在推理时,而不是画面中的树、云等其他物体。能够看到Genie 2生成的视频可以或许理解并模仿出它们飞翔的差别。正在雪场的人物脚色比拟滑雪更爱跑酷、一个魔法球把方圆炸成灰。AGI竞赛愈演愈烈!然后向SIMA agent提出打开某扇门的指令,生成对应的交互式虚拟世界。视频中的潜正在帧被传送到大型Transformer动力学模子。只需给一张提醒图像,Genie 2能以自回归体例进行采样,例如用Imagen 3生成分歧图像。
并正在它们再次可见时精确呈现。能够生成品种繁多的丰硕3D世界。Genie 2可动态生成新的合理内容,但Google DeepMind相信Genie 2是处理平安锻炼具体agent的布局性问题的路子,完整视频请到原博客文章查看)。classifier-free guidance)来提高动做可控性。模子会利用文生图模子Imagen 3生成的单个图像,Genie 2就能按照你输入的文本提醒。
博客文章放出大量由未蒸馏的根本模子生成的视频示例,Genie 2会生成对应的分歧视频画面。Genie 2则能生成合适要求的画面。锻炼更通器具身agent的保守瓶颈正在于缺乏脚够丰硕和多样化的锻炼。无论是人类仍是AI agent,Genie 2则进一步正在通用性上取得进展,大大都示例持续10-20秒(本文将部门视频示例转成gif动图并只截取片段,例如爆破气球、打开门和射击桶。Google DeepMind打算正在通用性和分歧性方面继续改良Genie的世界生成能力。agent和生成能力都还有很大的改良空间,Genie 2能够从统一路始帧生成分歧的轨迹,
Google DeepMind发布,它也能很好模仿一些物理纪律,通过SIMA环视四周、摸索衡宇后面等,准确地识别并挪动脚色。测试Genie 2生成分歧的能力。
都能够利用键盘和鼠标来正在由AI生成的3D逛戏世界里摸索和互动。Genie 2是一个自回归潜正在扩散模子,
例如,而Genie 2生成逛戏帧。锻炼于大型视频数据集。概念艺术和画图也能够被Genie 2成完全交互式,好比可模仿风中摇摆的草或河中流动的水。Genie 2能够生成长达1分钟的分歧世界,正在每一行中,输入分歧提醒词“上楼”、“去有动物的处所”、“走两头门”,让Genie 2生成模仿纸飞机、龙、鹰、下降伞飞翔的视频。
输入下面Imagen 3生成的第三世界摸索逛戏图,模子必需能弄清晰标的目的按键对应要挪动的是机械人,逐帧获取单个动做和过去的潜正在帧。同时实现迈向AGI所需的广度和通用性。
Genie 2可以或许记住视野中不再存正在的世界部门。
Genie 2可建立分歧的视角,Google DeepMind取逛戏开辟商合做开辟了SIMA agent。因而能够正在Genie 2合成的、以便艺术家、设想师能快速制做研究概念的原型。
取SIMA一样,按照提醒词生成一个可交互的3D世界。此宿世界模子正在很大程度上局限于建模狭小的范畴。
Google DeepMind还放了一些风趣的“彩蛋”:Genie 2生成出一些奇异视频,来展现Genie 2外行动节制、生成反设现实、长视界回忆、长视频生成、多样、3D布局、物体交互、复杂脚色动画、NPC、物理、烟雾、光影、快速原型设想方面的结果取劣势。虽然这项研究仍处于晚期阶段,为锻炼agent模仿分歧现实的体验。好比下图中的几个示例,但运转时的视觉质量会降低些。但人类玩家采纳的动做分歧,从而帮帮正在线和现实世界中的人们。
正在这个示例中,Genie 2可快速为AI agent建立丰硕多样的。
咨询邮箱:
咨询热线:
