豆包大模型Seedream2.0-一个原生中文-英文双语图像生成基础模型
今天分享的是:豆包大模型Seedream2.0-一个原生中文-英文双语图像生成基础模型
报告共计:33页
《Seedream 2.0:一个原生中文 - 英文双语图像生成基础模型》介绍了字节跳动开发的图像生成模型Seedream 2.0,该模型旨在解决当前图像生成领域的多种问题,在多方面表现出色,已应用于多个平台。
1. 研究背景:扩散模型推动图像生成领域发展,但主流模型存在模型偏见、文本渲染能力有限、对中文文化理解不足等问题。为此,团队推出Seedream 2.0,以处理中英双语提示,支持双语图像生成和文本渲染。
2. 数据预处理:通过数据组合、清理、主动学习等步骤,构建高质量、大规模且多样的预训练数据集。数据组合包含高质量数据、分布维护数据、知识注入数据和针对性补充数据;数据清理经一般质量评估、详细质量评估和标注重新标注;主动学习系统优化图像分类器;图像描述生成通用和专业标题;还构建了文本渲染数据集。
3. 模型训练:预训练阶段,扩散变压器将输入图片转换并处理,文本编码器利用自研LLM提升性能,字符级文本编码器解决双语字形问题。后训练阶段,通过持续训练、监督微调、人类反馈对齐、提示工程和精炼器优化,提升模型美学、准确性等性能。
4. 模型应用与优化:可改编为基于指令的图像编辑模型,如SeedEdit,并通过多专家数据融合、面部感知损失和数据优化增强人脸识别。此外,采用CFG和步骤蒸馏、量化等技术加速模型,提升计算效率。
5. 模型性能评估:与多个SOTA模型比较,经人类和机器评估,Seedream 2.0在中英双语方面表现出色,在文本 - 图像对齐、结构修正、美学质量、文本渲染等方面优势显著,对中国文化相关内容生成表现优异。
6. 研究结论:Seedream 2.0有效解决现有图像生成系统的局限,通过多方面创新和优化,在多任务上表现卓越,在应用中获得广泛赞誉 ,为图像生成领域发展提供有力支持。
以下为报告节选内容