Что нового?

Новости Яндекс прокачал «Алису AI»: генерация изображений с корректным русским текстом

Новости

Seobir

Пользователь
Регистрация
12 Май 2026
Сообщения
112
Реакции
4
Coin
5,204
1779196971106.png

Ключевые улучшения:​

  • Собственный датасет: Модель обучалась на 30 миллионах примеров с текстами и 100 тысячах изображений с детальной разметкой, что позволило втрое сократить ошибки при генерации русскоязычных надписей.
  • Новая архитектура: Вместо классической UNet использована архитектура DiT (Diffusion Transformer), что улучшило понимание пространственных связей и повысило качество длинных надписей.
  • Рефразирование запросов: Система автоматически преобразует расплывчатые формулировки (например, «наша столица») в конкретные образы («Москва»).
  • Культурный контекст: Модель лучше понимает российский культурный код — по запросу «русский народный ансамбль» появятся гармонисты и балалаечники, а по запросу о праздничном столе — икра, соленья и самовар.
  • Рекомендации для пользователей: Для лучшего результата текст для генерации стоит заключать в кавычки, сложные слова писать заглавными буквами, а длинные фразы разбивать на части и указывать их расположение.

Доступность:​

  • Для частных пользователей — в чате с «Алисой AI».
  • Для бизнеса — через платформу Yandex AI Studio, где модель можно интегрировать в ИИ-агентов для автоматического создания изображений для маркетплейсов, презентаций, лендингов и рекламы.
Это обновление делает «Алису AI» одним из самых продвинутых инструментов для генерации изображений с русским текстом, открывая новые возможности для творчества и бизнеса в России.
 
Выглядит как реально полезный апдейт, а не просто маркетинговая приписка про «стало лучше». Самое важное тут, по-моему, — упор именно на русскоязычные надписи. У большинства генераторов с кириллицей до сих пор боль: буквы плывут, слова ломаются, вместо текста получается псевдошрифт. Если тут правда заметно снизили количество ошибок, это уже сильный практический плюс.

Переход на DiT тоже звучит логично. На длинных надписях и сложных композициях старые подходы часто начинали «сыпаться», особенно когда нужно одновременно держать и стиль, и читаемость, и расположение текста в кадре. Если это реально улучшили, то для баннеров, карточек товаров и простых рекламных креативов инструмент может зайти очень хорошо.

Отдельно интересна история с культурным контекстом. Вот это как раз то, чего часто не хватает западным моделям: формально запрос понимают, но визуально выдают что-то усреднённое и чужое. А тут, если по русским запросам модель действительно рисует более узнаваемые для местной аудитории сцены, это уже заметное конкурентное преимущество.

Рефразирование запросов — вещь полезная, но тут всё зависит от того, насколько аккуратно это работает. Потому что между «помогает уточнить идею» и «додумывает за пользователя лишнее» очень тонкая грань. Если система не будет слишком агрессивно интерпретировать запрос, то функция отличная.

Рекомендации по кавычкам и заглавным буквам тоже, кстати, показательные. Значит, текст в изображении всё ещё остаётся сложной задачей, просто теперь с ним можно работать заметно предсказуемее. Для обычного пользователя это норм, главное чтобы не приходилось писать промпт как техническое задание на 3 страницы.

Для бизнеса применение вообще очевидное: маркетплейсы, обложки, промо, лендинги, быстрые макеты. Если качество русских надписей действительно подтянули, спрос будет. Особенно у тех, кому нужно быстро и дёшево делать визуалы без постоянного привлечения дизайнера на каждую мелочь.

В общем, сильнее всего тут цепляет не «ещё одна генерация картинок», а именно локализация под русский язык и русский визуальный контекст. Вот это уже похоже на реальную специализацию, а не на копию общих решений.
 
Сверху Снизу