谷歌推出了文本到视频的人工智能模型Veo，以对抗OpenAI的Sora_科技快讯

　　5月14日，谷歌在其年度开发者大会Google I/O 2024上推出了其最先进的视频生成模型Veo，该模型可以生成一系列电影和视觉风格的高清视频。

　　在人工智能(AI)视频生成模型领域，OpenAI的Sora、Facebook母公司meta的Emu video、Runway、Stability AI等创业公司的竞争日益激烈。

　　尤其是《苍井空》，自今年2月首次亮相以来，其逼真的视觉效果令人们惊叹不已。

　　Veo生成高质量的1080p分辨率视频，可以超过一分钟。该公司声称，该模型对自然语言和视觉语义有先进的理解，可以生成密切代表用户创造性视觉的视频——在较长的提示中准确呈现细节，并捕捉音调。

　　它还能理解“延时”或“景观航拍”等电影术语，并能创造出连贯一致的镜头，让人物、动物和物体在整个镜头中真实地移动。您可以使用其他提示进一步编辑这些生成的视频。

　　“我们还在探索故事板和生成更长的场景等功能，”谷歌DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)说。

　　基于谷歌早期的人工智能视频生成工作

　　Veo建立在谷歌多年来在生成视频模型方面的努力基础上，包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere——结合它们的架构、缩放定律和其他技术来提高质量和输出分辨率。

　　该公司表示，目前正在邀请一系列电影制作人和创作者来试验这种模式。该公司表示，这些合作将帮助该公司改进其设计、构建和部署这些技术的方式，其目标是确保创作者“在如何开发这些技术方面拥有发言权”。

　　在会议期间，谷歌还预览了它与电影制作人唐纳德·格洛弗(Donald Glover)及其创意工作室Gilga的合作，后者在一个电影项目中试用了Veo。

　　谷歌产品管理副总裁Eli Collins和高级研究总监Doug Eck在一篇博客文章中表示:“有了Veo，我们改进了模型学习理解视频内容、渲染高清图像、模拟我们世界的物理等方面的技术。”

　　他们表示:“这些研究成果将推动我们的人工智能研究取得进展，使我们能够打造更有用的产品，帮助人们以新的方式进行互动和交流。”

　　未来几周，Veo将在谷歌的人工智能视频生成器VideoFX(谷歌实验室计划的一部分)中向选定的创作者提供私人预览。人们可以注册加入等候名单。谷歌表示，未来还将把Veo的一些功能引入YouTube Shorts和其他产品。

　　新的imagen3模型

　　谷歌还推出了新版本的图像生成模型Imagen，该公司称这是迄今为止质量最高的文本到图像模型。

　　该公司高管在博客文章中说，这款名为Imagen 3的模型可以产生逼真的、栩栩如生的图像，具有令人难以置信的细节水平，而且比之前的模型更少分散注意力的视觉缺陷。

　　imagen3能更好地理解自然语言、用户提示背后的意图，还能从较长的提示中吸收小细节。

　　“这也是我们渲染文本的最佳模型，这对图像生成模型来说是一个挑战。谷歌高管柯林斯和埃克表示:“这一功能为生成个性化生日信息、演示文稿中的标题幻灯片等提供了可能性。”

　　Imagen 3将通过谷歌的实验室计划，在谷歌的人工智能图像生成器ImageFX中作为私人预览供选定的创作者使用。人们可以通过加入等候名单来注册试用该模型。Imagen 3将很快通过谷歌云部门的人工智能应用程序开发平台Vertex AI向开发者和企业开放。

　　除此之外，谷歌还宣布，格莱美奖得主音乐家Wyclef Jean、电子音乐家Marc Rebillet和格莱美奖提名作曲家Justin Tranter已经在他们的YouTube频道上发布了用该公司的音乐人工智能工具制作的演示歌曲录音。

　　该公司还将在人工智能生成的图像和音频中嵌入数字水印的水印工具SynthID扩展到包括文本和视频在内的更多格式。该公司表示，Veo在VideoFX上生成的所有视频也将被SynthID打上水印。

　　事件一lert:密苏里州neycontrol和CNBC TV18将于5月17日在古拉格拉姆举办人工智能的终极活动，届时企业家、生态系统推动者、政策制定者、行业领袖和创新者将齐聚一堂。点击这里注册并进入人工智能联盟德里- ncr分会。

一物网声明：未经许可，不得转载。

资讯

科技快讯

商业

地球与科学

生活

健康动态

体育

国际

综合

谷歌推出了文本到视频的人工智能模型Veo，以对抗OpenAI的Sora