Google анонсировала нейросеть, которая преобразует текст в изображения
Google анонсировала нейросеть Imagen, которая которая преобразует текст в изображения. Это нейросеть – прямой конкурент DALL-E 2 от OpenAI.
Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.
Система работает в три этапа:
- Сначала нейросеть рисует небольшую картинку размером 64х64 px, которая дорабатывается до тех пор, пока она не сможет ее изменить для лучшего соответствия исходному запросу.
- Затем размер изображения увеличивается до 256х256 px, и Imagen дорабатывает детали.
- На третьем этапе то же самое повторяется уже с картинкой финального размера – 1024х1024 px.
Результаты оценки независимыми зрителями показали, что нейросеть Imagen превосходит DALL-E 2 по точности и соответствию запросам.
Напомним, Google тестирует новый дизайн Google News.