Иногда возникает потребность создать какое-либо изображение, которого нет в интернете, но при этом и нет возможности воспользоваться фототехникой; в этом случае помогают различные нейросети, в том числе и обновлённая версия Kandinsky-3.1 от Сбер. Попробую рассказать все "минусы" и "плюсы" из личного опыта.
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: заставка
Далее переходим к редактору:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: переход к редактору
🔹 Редактор
Вводим логин и пароль, после чего попадаем в сам редактор изображений:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: редактор изображений
Здесь всё довольно просто: внизу поле для ввода текста и кнопка запуска создания изображения. Там же можно выбрать стиль создаваемого рисунка.
Над полем, где будет показано будущее изображение, нужно выбрать его формат; в моём случае это будет 3:2.
Вверху кнопки управления различными функциями. Здесь присутствует ластик для стирания части изображения, есть возможность вставить другое изображение, скачать полученное изображение, а так же настроить нужный размер на экране:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: кнопки управления
🔹 Генерация изображений
В принципе, никаких сложностей: вводим текст, жмём на кнопку, получаем то, что сгенерировала нейросеть. Но на самом деле, всё далеко не так, как бы этого хотелось! Нужно очень хорошо постараться, что бы получить подходящий результат, особенно в некоторых случаях. 🤔
Начну с простого примера. Вводим фразу "шпиц на траве" и получаем вот что:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 1
✔️ Относительно неплохо, но клок шерсти вверху выглядит очень не натурально и неестественно. Но собака хотя бы похожа на шпица!
Кстати, пока идёт генерация изображения, на экране мелькают "звёздочки" и выводится фраза
Подготавливаем изображение, это не займёт много времени!
📌 Общее время создания этого изображения - 2 минуты 29 секунд. В принципе - нормально, не так и долго. Остальные создаются приблизительно так же.
Попробуем взять другую породу и введём фразу "бордер-колли", причём без указания фона:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 2
✔️ Тоже хорошо! Фон выбран нейросетью вполне удачно.
Попробуем изменить тематику и введёт такую фразу: "Лес на берегу реки, синее небо с небольшими облаками":
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 3
Хорошо получилось!
А если так - "Лес на берегу небольшой реки, синее небо, красивый закат солнца":
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 4
И здесь сеть неплохо справилась!
Но увы, так бывает не всегда.
Попробуем изменить тематику на кулинарную и ввести фразу "салат Оливье" - что это такое, знают практически все, и вот что получаем:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 5
❌ Согласитесь, это мало похоже на самый популярный салат!
Хорошо, может быть нужно писать подробнее? Попробуем объяснить нейросети, что мы хотим получить и напишем, к примеру, вот такой довольно длинный текст: "на деревянном столе стоит красивая тарелка, на которой лежит шашлык и картофельное пюре; на заднем плане много зелени и помидоры":
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 6
❌ Как видим, со столом и задним планом система отлично справилась, но вот шашлык... Нет, это совсем не шашлык, а ведь слово очень известное и вполне понятное.
Ладно, возможно, система справится с вот такой фразой: "на деревянном столе стоит красивая тарелка, на которой лежит жареное филе рыбы под майонезом и картофельное пюре; на заднем плане много зелени и помидоры"?
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 7
❌ Согласитесь, тоже как-то не очень...
Тогда попробуем системе объяснить что-то ну очень подробно, например, ведём вот такой текст: "На деревянном столе стоит тарелка, в ней салат из мелко нарезанных кубиков свеклы, моркови, картофеля, соленых огурцов и лука, заправленный растительным маслом. ". Думаю, все поняли, что это известный салат русской кухни "Винегрет". Но вот как это видит нейросеть:
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 8
❌ Увы, и это тоже далеко от того, как выглядит настоящий салат. А может просто спросить коротко: "На деревянном столе стоит тарелка, в ней винегрет"?
Сайт https://www.sberbank.com/promo/kandinsky/ - нейросеть Kandinsky-3.1 для создания высококачественных изображений: фото 9
❌ И опять мимо...
🔹 Выводы
Не буду утомлять большим количеством примеров, скажу только что нейросеть постепенно становится лучше, но пока ещё в определённых случаях нужно очень постараться что бы достичь желаемого результата: в некоторых тематиках (например, взять ту же кулинарию) пока ещё получить желаемое изображение весьма не просто, а сети нужно учиться и учиться!
Однако не всё так плохо: те изображения, которые получились правильно, весьма высокого качества (взять хотя бы фото № 2), так что будем надеяться, что в недалёком будущем сеть сможет правильно рисовать и то, что пока получается не очень... 😊