图片来源:视觉中国
蓝鲸新闻 3 月 29 日讯(记者 朱俊熹)梦核风格的小猫、" 打工人 " 版的 Hello Kitty、一键 Jellycat…… 你对这些 AI 生成的图片肯定不陌生,它们曾火遍全网,但现在都已经过时了。这几天占据海内外各大社交媒体首页的,是另一类新的 AI 生图风格:吉卜力动漫风。
本周早些时候,OpenAI 对 ChatGPT 的图像生成功能进行了升级,用户可以通过其多模态大模型 GPT-4o 来生成和修改图像。在 3 月 26 日的直播中,OpenAI CEO Sam Altman 和团队展示了如何在 ChatGPT 中把一张自拍照转换为动漫风格的图片。观看者们很快发现,其画风与日本吉卜力动画工作室极为相似,并开始在互联网上自发体验、传播。一位用户甚至将这称作 OpenAI 模型的 " 第一次病毒式传播 "。
图片来源:Sam Altman X
因涌入的体验者过多,OpenAI 决定推迟向免费用户开放这一图像生成工具的时间。Sam Altman 在社交平台 X 上发帖称," 我们的 GPU 快要炸了 "。他不仅将头像换成了吉卜力风格编辑后的个人照,还自嘲道," 为了创造超级智能努力了十年,前七年半几乎没人关心,之后两年半大家因为各种事讨厌我。有一天醒来收到了成百上千条信息:‘看,我把你做成了一个吉卜力风格的帅小伙’。"
图片来源:Sam Altman X
AI 生成 " 风格 " 涉侵权吗?
然而当 AI 生成的 " 吉卜力 " 图片迅速充斥互联网,一个担忧也随之而起:这是否会涉及到对吉卜力工作室动漫作品版权的侵犯?更引人关注的是,吉卜力工作室的联合创办人、动画师宫崎骏早在 2016 年就表达过对 AI 生成内容的不满。他在看到一段由 AI 生成的视频片段时直言," 我感到极度恶心,绝不会希望把这种技术融入我的作品中。"
OpenAI 发言人则表示,ChatGPT 拒绝 " 以个别活跃艺术家的风格进行生成 ",但允许生成 " 更广泛的工作室风格 "。
对于其中可能牵涉的版权争议,江苏剑桥颐华律师事务所律师、专利代理师杨卫薪告诉蓝鲸新闻,一般情况下 " 风格 " 是没有著作权的,因为它只保护具体的表达,而不保护思想。" 但是如果生成的内容和吉卜力里面的角色或者场景有较高的一致性,那可能就会构成侵权。"
杨卫薪律师补充称,从 GPT-4o 在生成吉卜力风格图像上的表现来看,模型在训练时必然使用到了吉卜力工作室的作品素材," 不然大模型是没法理解这种图片风格并进行相应的生成。" 如果按照中国的著作权法来看,AI 抓取素材用于训练并进行内容生成,是一种侵犯复制权、信息网络传播权的行为,但目前学界和业界都想将这种行为往合理使用的方向推进。
一句话生图成现实
使用 AI 生成图片并不是新鲜事,OpenAI 此次在功能上的更新能够引起现象级传播,一大原因还是在于其生成图片的高质量。
据 OpenAI 介绍,GPT-4o 模型具备较强的文本渲染能力。蓝鲸新闻记者实测发现,4o 不仅可以还原原图的文字内容,也支持通过自然语言的描述,来调整文字的位置或颜色等细节。但该模型对英文字符的渲染准确度要高于中文字符,在实测过程中会出现将简体字编辑成繁体字,或生成的中文字符出错的情况。OpenAI 也承认,4o 模型在渲染非拉丁语言时可能会遇到困难。
图片来源:蓝鲸新闻
此外,GPT-4o 在图像一致性方面也取得了较大进展。即使经过多轮对话的调整,其生成的图像在风格、主体外观等方面也能保持一致。这能够极大地提升 AI 生图在游戏设计、广告制作等领域的落地可能。
图片来源:蓝鲸新闻
据 OpenAI 介绍,此前其推出的 AI 生图模型 Dall-E 是扩散模型,而 4o 图像生成是一个自回归模型。4o 系统会按照从左到右、从上到下的顺序逐步生成图像,类似于文本的书写方式,而不是像扩散模型那样,一次性生成整个图像。
AI 创企深势科技的 AI 算法负责人柯国霖在社交媒体上分析称,这体现了用自回归模型来统一多模态这一方案的优势。Dall-E 是在隐空间中将图像与语言对齐,在生成图像时,模型不断在文本和图像之间进行相互转换。但这一过程必然是有损的,图像的引导能力很弱,生成的随机性大、难以精细控制。
柯国霖表示,像 GPT-4o 这类 Omni Model(全能模型),能够将对话中的图像、文本甚至更多模态统一转化为一维 token 序列,直接通过自回归的方式输入给模型。这样就无需再依赖文本作为桥梁,避免了信息的中途损失。更关键的是,模型每次都能保留完整的图像信息,因此能够根据用户指令,对图像内容进行更细致、更可控的调整。
对于更多用户而言,GPT-4o 此次更新带来的惊喜还体现在使用流程的丝滑度上,让 " 一句话生图 "、" 用嘴改图 " 的可行性直线拉升。相较而言,此前主流的 AI 生图工具 Stable Diffusion 对使用者的专业能力要求较高,需要掌握不同插件及参数的设置。而 Midjourney 在可控性和一致性方面较弱,不适用于要求高度一致性的任务。
设计师章萧醇在社交平台 X 上直言,GPT-4o 的图像能力直接推翻了之前很多创业公司的产品。" 他们花了那么多时间、人力、投资人的钱去调优的算法、工作流、模型,直接被一次大模型的更新就取代了。"
GPT-4o 模型于去年 5 月正式推出,主打的就是具备能够处理文本、音频和图像的多模态能力,与当前备受关注的 o1 等推理模型有所不同。但在近一年的时间内,4o 都未向用户放开其图像生成功能。
3 月 28 日,GPT-4o 再迎部分更新,包括更擅长遵循详细的指令、提高了解决复杂技术和编码问题的能力。Sam Altman 预告称," 更多更新即将到来。"
还没有评论,来说两句吧...