Бесплатная нейронка — приятный подарок, особенно когда ее разрабатывала и продолжает улучшать одна из крупнейших компаний в мире. Но должны же быть у подобного ИИ какие-то недостатки? Как оказалось, такие недостатки есть, но насколько они критичны, разберемся в материале.
О нейронке Bing Image Creator
Bing Image Creator — бесплатный продукт от компании Microsoft, способный создавать контент от привычного реализма до художественных шедевров. Технически это нейросеть, которая создавалась как дополнение поисковой системы Microsoft Bing (чтобы пользователи оставались в рамках одной поисковой системы и не искали генераторы на стороне). Когда нейронка только вышла, она предлагала лишь одну модель для генерации — DALL-E3, но на сегодняшний день ИИ «подросла» и уже имеет 3 модели — DALL-E3, MAI-Image-1 и GPT-4o.
Если вас сразу интересует, какая модель лучше в целом, то это GPT-4o. Но есть нюансы, так как каждая из этих моделей подходит лучше под определенные задачи, а именно:
DALL-E3 — модель от OpenAI для стилизованной графики (подобная графика используется в аниме, комиксах и компьютерных играх по типу World of Warcraft и Dota 2).
MAI-Image-1 — модель от Microsoft, которая отличается освещением, текстурами и детализацией, в целом склоняется к реализму.
GPT-4o — обновленная модель от OpenAI, которая отличается созданием творческих и реалистичных фото.
Создавая одну и ту же фотографию (на основе одного промпта) при помощи разных моделей вы получите совершенно разный результат, так как специфика каждой модели уникальна, поэтому не спешите критиковать результат, а просто попробуйте другую модель, тем более что это бесплатно и не имеет никаких ограничений.
Развивается продукт от Microsoft уже на протяжении нескольких лет, поэтому успел заслужить пользовательские симпатии, по крайней мере в генерации фото. Явный недостаток нейронки — ограничение на скорость создания контента, которое появляется примерно после 15 генераций в день (при генерации фотографий), и очень сильное ограничение на скорость генерации видео, которое появляется после 10 генераций: вместо нескольких минут генерация может занять часы.
Заметим, что у нейронки есть небольшая «шиза»: из-за правил цензуры она чаще всего не дает генерировать никаких изображений на основе других изображений, где есть лицо человека. То есть создать контент на основе фотографии, где присутствует лицо знаменитости, невозможно, но Microsoft и этого было мало, поэтому даже если вы вставите фотографию сгенерированного человека, которого в принципе не существует, то и тут возникнут проблемы.
Функционал и как использовать Bing Image Creator
Функционал нейросети простой и удобный:
2 раздела для генерации (фото/видео) + панель настроек под полем генерации.
Шаблоны, которые могут пригодиться для генерации необычного контента.
Примеры генераций от пользователей, которые помогают понять уровень ИИ и подсмотреть идеи.
Теперь перейдем к тестам, для этого:
- Переходим по ссылке (с RU-ip вас просто перебросит на поиск, имейте это в виду).
- Авторизуемся через Microsoft-сервисы (обязательно).
- Приступаем к работе.
Чтобы не заниматься бессмысленной тратой времени, сразу начнем тестировать нейросеть на промптах Midjorney: они всегда отличаются лучшей проработкой.
Возьмем промпт «A Chinese painting depicts an ancient man walking on the grass, with many large green trees…» и выберем модель GPT-4o, так как нам нужен уход именно в творчество, о чем говорится в промпте «watercolor style and brushstrokes».
Как-то совсем не очень, но не будем спешить позорить продукт от Microsoft. Со стороны качества Midjourney однозначно выиграл, фотография сочная, интересная, но если обратить внимание на промпт, то Midjourney его проигнорировал. Midjourney ушел в реализм, в то время как Bing сделал акцент именно на творчестве, но этого мало, поэтому попробуем улучшить результат.
Для этого добавим к промпту изображение от Midjourney, а в промпт впишем, что фотография должна быть в сочных цветах, чтобы Bing точно это понял.
Вот теперь достойно, и хотя у Midjourney результат привлекательнее, тем не менее именно Bing соответствует промпту (фото творческое, нарисованное акварелью).
Тестировать одну модель скучно, поэтому попробуем сразу все 3, чтобы сравнить их между собой и с конечным результатом от Midjourney. Попробуем сгенерировать 3D-арт кошки: «Art, ink painting, whole body, a neon smoke abstract form of dynamic green eye cat outline…»
Как упоминалось выше, при одном и том же промпте каждая модель в Bing выдает разный результат, что можно наглядно увидеть. Midjourney, конечно, лидирует. Сколько генераций вы ни делайте, но если брать просто промпт без визуального примера, то возможность креативить лишь мешает Bing создать какой-то топовый контент. Но если добавлять фотопример, то результат явно улучшается.
При использовании Bing складывается ощущение, что это неплохой инструмент именно для создания альтернативных вариантов какого-то крутого изображения на бесплатной основе, но, к сожалению, не более.
Теперь перейдем к видеогенерации, и прежде чем начать, отметим следующие нюансы.
Разрешение генерации 480p и поэтому его в любом случае придется вытягивать при помощи апскейлеров.
Видео с соотношением сторон 9:16 получаются лучше, чем 16:9. Сложно сказать, чем это обусловлено, но один и тот же промпт при разном разрешении будет выглядеть как 60 fps и как 10–15 fps.
Присутствует водяной знак, но его легко стереть при помощи других сервисов.
Генерации с природой у нейронки получаются с элементами «мультяшного» стиля, определенные фрагменты не соответствуют реальности (например, солнце в пустыне или ледники в океане).
Тем не менее, если дать нейронке пример в качестве изображения и постараться написать подробный промпт, результат значительно улучшается. Что, опять же, подчеркивает, что пока что Bing как ребенок, который без взрослого практически ничего не может.
Порой при генерации видео с использованием изображения создается статичное видео, картинка практически вообще не двигается, в таком случае просто повторите генерацию.
Заключение
Продукт получился слабым и кривым, попытка усидеть на нескольких стульях редко увенчается успехом — и Microsoft этому яркий пример. При работе с фотографиями нейронка еще дает возможность создать что-то стоящее, но, во-первых, только если вы приложите фотопример, а во-вторых, если выберете подходящую модель. Что касается видео, то тут без фотопримера вообще сложно создать что-то качественное. Как итог, Bing — сырая ИИ, она подойдет для копирования топовых изображений благодаря бесплатному функционалу, но вот создавать контент с нуля — это практически нереализуемая задача, по крайней мере сейчас.