Приветствую публику, я Андрей Имперский, занимаюсь продвижением в ютубе, контент-продвижением и комьюнити-менеджментом. Хотелось бы поделиться мнением касательно наделавшей шуму нейронки от HeyGen.
Сервис озвучки и создания виртуальных аватаров HeyGen выкатил в своей лаборатории новую функцию онлайн-перевода готовых видео. Его главная особенность в том, что нейросеть переводит озвучку на другой язык, сохраняя уникальный голос ведущего и перестраивая мимику на видео так, чтобы звук совпадал с движением губ. После этого интернет наводнился переводами известных видео и мемами, и энтузиасты бросились в очередь, чтобы протестировать сервис.
В этом тексте хочу поделиться опытом работы с HeyGen и рассказать, как его использовать и какие нюансы нужно иметь в виду, а в конце статьи изложу свои мысли касательно будущего технологии, рынка и влияния на рынок занятости этой и подобных технологий.
Как использовать HeyGen Video Translate
Протестировать функцию перевода от HeyGen можно бесплатно, так как каждому человеку, который регистрируется в сервисе, дают один бесплатный кредит и возможность получить новые кредиты с помощью реферальной программы. Кредиты — это внутренняя валюта сервиса, которая конвертируется в перевод одного видео в соотношении: 1 кредит = 1 минута видео. Первое, что потребуется сделать, — это зайти на сайт HeyGen и в разделе Labs выбрать Video Translate.
Для использования сервиса потребуется регистрация, которую легко и быстро можно пройти с помощью любой Gmail-почты. При регистрации попросят указать, в какой сфере вы работаете и насколько большая у вас компания.
Формально остается залить в сервис нужное видео, выбрать один из 10 поддерживаемых языков и наслаждаться результатом. На деле все не так просто и существует множество нюансов.
В моем случае для тестирования перевода по бесплатному кредиту ушло более 6 дней. Оригинальное видео выглядело так:
Спустя 6 дней я получил такой вот результат:
Надо отметить, что для нейросети это задание со звездочкой из-за не очень высокого разрешения, а главное, съемки с руки, что дает тряску камеры и, как мне казалось, могло дать больше артефактов. HeyGen справился с этой задачей. Единственный минус, на мой взгляд, голос все-таки имеет небольшие, но непринципиальные отличия. Чтобы так было всегда, стоит внимательно прочитать требования.
Требования к содержанию видео
Чтобы нейронка смогла корректно обработать видео, придется соблюдать условия по композиции и направлению камеры, а именно:
- Посторонние шумы, звуки, музыку из видео надо убирать. Иначе это может повлиять на качество перевода и голос ведущего.
- В кадре в каждый момент времени должен находиться лишь один человек, одно лицо или изображение лица. В противном случае заговорить может вовсе не ведущий. Потенциально можно попробовать поиграть с таким эффектом, чтобы заговорила статуя, но это уже другой кейс.
- Внутри одного видео говорить должен только один человек. Если у вас, например, интервью, то видео надо разбивать и склеивать речь одного человека в одно видео, а речь другого — в другое. Иначе программа будет совмещать голоса в один общий голос.
- При использовании в речи слов из другого языка, англицизмов и сленга переводчик, скорее всего, отработает некорректно.
- Человек при разговоре должен смотреть в камеру, чтобы не создавать артефактов в построении мимики. Лицо при этом нельзя загораживать объектами или эффектами.
Довольно масштабный список требований, который сильно сужает возможности на данный момент. В будущем технология будет доработана, но пока имеем то, что имеем.
Технические требования HeyGen Video Translate
HeyGen поддерживает всего три формата файлов: mp4, quicktime, webm. При этом позволяется загружать видео от 30 секунд до 5 минут. Если загрузить видео, где речь очень короткая, могут появиться проблемы. Нейросети требуется материал для обучения, поэтому если в ролике человек говорит всего несколько секунд, то, скорее всего, данных будет недостаточно. Лучше дописать разговорные фразы или неудачные дубли. Хотя авторы заявляют разрешение от 360 x 360 до 4096 x 4096, сложно представить возможность залить файл в максимальном разрешении до 5 минут при хорошем битрейте.
Перевод осуществляется на британский и американский английский, испанский, французский, китайский, немецкий, итальянский, португальский, датский, хинди и японский языки. Не забывайте, что у некоторых языков несколько разновидностей, например у китайского и португальского. Поэтому вовлечение зрителей в некоторых регионах может быть ниже на данный момент, чем от обычной пересъемки с переводом на нужный язык. При использовании в рекламе с большим бюджетом это может сильно сказаться на эффективности ролика. Естественно, количество языков со временем вырастет.
Куда интереснее дела обстоят с поддерживаемыми языками оригинала видео. На сайте сервиса заявляется о поддержке того же набора языков, что можно выбрать для перевода. Однако тестирование тех же мемов показало, что простой русский язык может быть успешно переведен сервисом. Так что при наличии исходника с неподдерживаемым, но широко распространенным языком можно попробовать рискнуть и протестировать возможности системы.
Суровая реальность использования
Из-за большого наплыва пользователей ждать в бесплатной очереди приходится по 2-3 дня, а иногда и больше. Поэтому тем, кто хочет использовать сервис с коммерческими целями, рекомендуется приобрести хотя бы минимальную подписку за $29 в месяц, которая даст доступ к 15 переводам и возможность обойти очередь. Некоторые из этих попыток могут быть вынужденно потрачены на тестирование. Будьте готовы.
Есть два варианта оплаты для физических лиц:
- по $2 при месячной подписке, независимо от количества попыток;
- по $1,6 при годовой подписке, независимо от количества попыток.
Но кроме физиков, компания поддерживает тарифы для бизнеса, каждый из которых оговаривается отдельно, дает доступ к API, возможность обрабатывать длинные видео, использовать видео с несколькими спикерами и создавать продвинутые скрипты.
Русские карты от трех основных банков РФ на момент записи были отклонены, так что придется искать обходной способ оплаты через виртуальную буржовую карту. Если у кого-то получилось оплатить русской картой — шепните на ушко, какой банк использовали.
Последствия появления HeyGen и аналогов
Появление каждой новой нейросети с особенным функционалом порождает всплеск апокалиптических вздохов от всепропальщиков и таких же вздохов типа «задолбали со своими ИИ». В действительности многие подобные сервисы помогут решать очень простые, базовые задачи, например создание простых рекламных и информационных роликов с низким бюджетом, создание фейковых аватаров для вовлечения в черных и серых вертикалях.
Для арбитражного рынка это, в частности, означает упрощение входа в сферу, больше возможностей для работы соло или в составе небольших команд. Топовые команды и компании также смогут активнее осваивать международный формат инфлюэнсерства и видеокреативов. Малый бизнес сможет осваивать новые направления работы в международном формате с помощью доставки товаров. Правда, в России с этим сейчас будет туговато.
Теперь о влиянии на рынок труда. До замены полноценного человеческого высококвалифицированного труда нейросетям еще далеко. Главное преимущество людей или, например, высококачественных рекламных креативов в умении работать на языке аудитории как по звучанию, так и по мимике. Пока что нейросетям очень далеко до качественного перевода содержания с отсылками к меметичным событиям, образным смыслам, передаче метафор. Оттого у них и очень плохо с юмором, потому что контекст человеческой жизни ими в принципе не осознается.
Так и блогера с его особенной мимикой, которая познается в контексте, будет сложнее воссоздать. А его контент, который говорит на языке аудитории, сложно будет с тем же успехом использовать в других регионах с другими традициями и культурологическими особенностями без хорошего анализа и детальной переработки тех же речевых оборотов.
Таким образом, мы приходим к тому, что базовый контент вроде руководств, гайдов и передачи информации, первичных тестов спроса в бурже или самых простых крео можно делать с помощью подобных инструментов. Будет проще выходить на базовом уровне в новые регионы, но для масштабирования все равно понадобится профессиональная работа и анализ множества людей: ведущих, локализаторов, аналитиков, операторов и так далее. В этих профессиях все еще остается место для обучения в том же создании базового контента для обработки нейросетями, операторов по работе с нейросетями, в роли ассистентов высококвалифицированных профессионалов, аналитиков и т. п. Как-то так.
Если разбор вам понравился, приходите в мой телеграм-канал, и до встречи в эфире.