Модель Kolors

Kolors — это масштабная модель генерации изображений по тексту, основанная на латентной диффузии и разработанная командой Kuaishou Kolors. Обученная на миллиардах пар “текст-изображение”, Kolors демонстрирует значительные преимущества как перед открытыми, так и закрытыми моделями в таких аспектах, как визуальное качество, точность сложных семантических конструкций и отображение текста как на китайском, так и на английском языках. Более того, Kolors поддерживает ввод как на китайском, так и на английском языке, показывая отличные результаты в понимании и генерации контента, специфичного для китайского языка. Дополнительные подробности можно найти в нашем техническом отчете.

Оценка

Разработчики собрали обширный набор данных для оценки генерации изображений по тексту, названный KolorsPrompts, чтобы сравнить Kolors с другими передовыми открытыми и закрытыми моделями. KolorsPrompts включает более 1000 запросов, охватывающих 14 категорий и 12 оценочных измерений. Процесс оценки включает как человеческие, так и машинные оценки. В соответствующих бенчмарках Kolors продемонстрировал очень конкурентоспособные результаты, достигнув отраслевых стандартов.

Оценка человеком

Для человеческой оценки были приглашены 50 экспертов в области визуализации, чтобы провести сравнительные оценки результатов, сгенерированных разными моделями. Эксперты оценивали сгенерированные изображения по трем критериям: визуальная привлекательность, точность соответствия тексту и общая удовлетворенность. В этой оценке Kolors получил наивысший общий балл удовлетворенности и значительно опередил другие модели по визуальной привлекательности.