扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw

首页>焦点 > 正文
2023-04-11 08:55:11

来源:机器之心Pro

机器之心报道

机器之心编辑部

为了让 AI 生成的图像里带有真正的文字,人们想尽了办法。


(资料图片)

近来,文本生成图像领域取得了很多意想不到的突破,很多模型都可以实现基于文本指令创建高质量和多样化图像的功能。虽然生成的图像已经很逼真,但当前模型往往善于生成风景、物体等实物图像,但很难生成带有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像。

为了解决这个问题,来自 OPPO 等机构的研究者们提出了一个通用学习框架 GlyphDraw,旨在让模型能够生成嵌入连贯文本的图像,这是图像合成领域首个解决汉字生成问题的工作。

我们先来看一下生成效果,例如为展览馆生成警示标语:

生成广告牌:

为图片配上简要的文本说明,文字样式也可多样化:

还有,最有趣也最实用的例子是生成表情包:

虽然结果存在一些瑕疵,但是整体生成效果已经很好了。总体来说,该研究的主要贡献包括:

该研究提出了首个汉字图像生成框架 GlyphDraw,其中利用一些辅助信息,包括汉字字形和位置在整个生成过程中提供细粒度指导,从而使汉字图像高质量无缝嵌入到图像中; 该研究提出了一种有效的训练策略,限制了预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),有效地保持了模型强大的开放域生成性能,同时实现了准确的汉字图像生成。 该研究介绍了训练数据集的构建过程,并提出了一个新的基准来使用 OCR 模型评估汉字图像生成质量。其中,GlyphDraw 获得了 75% 的生成准确率,明显优于以前的图像合成方法。

模型介绍

该研究首先设计了复杂的图像 - 文本数据集构建策略,然后基于开源图像合成算法 Stable Diffusion 提出了通用学习框架 GlyphDraw,如下图 2 所示。

Stable Diffusion 的整体训练目标可以表示为如下公式:

GlyphDraw 基于 Stable Diffusion 中的交叉注意力机制,原始输入潜在向量 z_t 被图像潜在向量的 z_t、文本掩码 l_m 和字形图像 l_g 的级联替代。

此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。文本掩码和字形信息的引入,让整个训练过程实现了细粒度的扩散控制,是提高模型性能的关键组成部分,最终得以生成带有汉字文本的图像。

具体来说,文本信息的像素表征,特别是象形汉字这种复杂的文本形式,与自然物体有明显的不同。例如,中文词语「天空(sky)」是由二维结构的多个笔画组成,而其对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字有非常细粒度的特性,甚至是微小的移动或变形都会导致不正确的文本渲染,从而无法实现图像生成。

在自然图像背景中嵌入字符还需要考虑一个关键问题,那就是在避免影响相邻自然图像像素的同时,还要精确地控制文本像素的生成。为了在自然图像上呈现完美的汉字,作者精心设计了两个集成到扩散合成模型中的关键组件,即位置控制和字形控制。

与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布。

除了位置控制,另一个重要的问题是汉字笔画合成的精细控制。考虑到汉字的复杂性和多样性,在没有任何明确先验知识的情况下,仅仅只是从大量的图像 - 文本数据集中学习是极其困难的。为了准确地生成汉字,该研究将显式字形图像作为额外的条件信息纳入模型扩散过程。

实验及结果

由于此前没有专门用于汉字图像生成的数据集,该研究首先构建了一个用于定性和定量评估的基准数据集 ChineseDrawText,然后在 ChineseDrawText 上测试比较了几种方法的生成准确率(由 OCR 识别模型评估)。

该研究提出的 GlyphDraw 模型通过有效地使用辅助字形和位置信息达到了 75% 的平均准确率,从而证明了该模型出色的字符图像生成能力。几种方法的可视化比较结果如下图所示:

此外,GlyphDraw 还可以通过限制训练参数来保持开放域图像合成性能,在 MS-COCO FID-10k 上一般图像合成的 FID 仅下降了 2.3。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

标签:

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表热讯制鞋网的观点和立场。

相关热点

新华社电 上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定(征求意见稿)》,并截至12月8日面向社会公众广泛征求意见。这
2021-11-19 13:46:03
《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称,距离2021年结束仅剩一个多月,基金业绩分化明显。部分排名靠前
2021-11-19 13:46:03
交通运输部办公厅 中国人民银行办公厅 中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直
2021-11-19 13:45:58
新华社北京11月17日电 题:从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济,一个直观的视角就是市场供需两端
2021-11-19 13:45:58
全国教育财务工作会议披露的消息称,2020年,中国国家财政性教育经费投入达4 29万亿元,占GDP总量的4 206%,我国国家财政性教育经费支出占G
2021-11-19 13:45:48
如果你也热爱“种草”,前方高能预警!让你心心念念、“浏览”忘返的网络平台,可能早已成为一块块“韭菜地”。近日,据《半月谈》报道,有...
2021-11-19 13:45:48
日前,工业和信息化部印发《“十四五”信息通信行业发展规划》(以下简称《规划》),描绘了未来5年信息通信行业的发展趋势。《规划》指出...
2021-11-19 13:45:40
本报讯(中青报·中青网记者 周围围)2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示,仅11月1日当日,全国共揽收快递包裹5 69
2021-11-19 13:45:40
人民网曼谷11月17日电 (记者赵益普)17日上午,中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天,柬埔寨政府在机场举行了
2021-11-19 13:45:35
金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术,金坛压缩空气储能项目申请专利百余项,建立
2021-11-19 13:45:35
视觉中国供图42亿立方米据有关部门预计,今年山西煤炭产量有望突破12亿吨,12月份山西外送电能力将超过900万千瓦,今冬明春煤层气产量将达4
2021-11-19 13:44:34
14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来,天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四
2021-11-19 13:44:34
中新网客户端北京11月18日电 (记者 谢艺观)“一条路海角天涯,两颗心相依相伴,风吹不走誓言,雨打不湿浪漫,意济苍生苦与痛,情牵天下喜
2021-11-19 13:44:31
近日,交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到,对不具备授信条件的用户,商业银行可在依法合
2021-11-19 13:44:31
欧莱雅面膜陷优惠“年度最大”风波 涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车?近日,因预售价格比双十一现货贵出66%,欧莱雅
2021-11-19 13:44:13
43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说,想对一份工作“从一而终”不太容易
2021-11-19 13:44:13
超八成受访青年表示如有机会愿意开展副业 规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今,“身兼数职”已成为年轻人当中的
2021-11-19 13:44:01
发展氢能正当其时【科学随笔】氢能是一种二次能源,它通过一定的方法利用其他能源制取,具有清洁无污染、可储存、与多种能源便捷转换等优点
2021-11-19 13:44:01
“千杯不醉”的解酒“神药”能信吗?专家:网红“解酒药” 其实不算药俗话说,“酒逢知己千杯少”,酒一直是国人饭桌上至关重要的存在。尽...
2021-11-19 13:43:57
最新文章

相关推荐