Инфлюэнсеры Инфлюэнсеры написал 28.09.2023

Как использовать сервис HeyGen для перевода видео на другой язык

Инфлюэнсеры Инфлюэнсеры написал 28.09.2023
9 мин
0
1884
Содержание

Приветствую публику, я Андрей Имперский, занимаюсь продвижением в ютубе, контент-продвижением и комьюнити-менеджментом. Хотелось бы поделиться мнением касательно наделавшей шуму нейронки от HeyGen.

banner banner

Сервис озвучки и создания виртуальных аватаров HeyGen выкатил в своей лаборатории новую функцию онлайн-перевода готовых видео. Его главная особенность в том, что нейросеть переводит озвучку на другой язык, сохраняя уникальный голос ведущего и перестраивая мимику на видео так, чтобы звук совпадал с движением губ. После этого интернет наводнился переводами известных видео и мемами, и энтузиасты бросились в очередь, чтобы протестировать сервис.


В этом тексте хочу поделиться опытом работы с HeyGen и рассказать, как его использовать и какие нюансы нужно иметь в виду, а в конце статьи изложу свои мысли касательно будущего технологии, рынка и влияния на рынок занятости этой и подобных технологий.

Как использовать HeyGen Video Translate

Протестировать функцию перевода от HeyGen можно бесплатно, так как каждому человеку, который регистрируется в сервисе, дают один бесплатный кредит и возможность получить новые кредиты с помощью реферальной программы. Кредиты — это внутренняя валюта сервиса, которая конвертируется в перевод одного видео в соотношении: 1 кредит = 1 минута видео. Первое, что потребуется сделать, — это зайти на сайт HeyGen и в разделе Labs выбрать Video Translate.

Раздел HeyGen Labs
Раздел HeyGen Labs

Для использования сервиса потребуется регистрация, которую легко и быстро можно пройти с помощью любой Gmail-почты. При регистрации попросят указать, в какой сфере вы работаете и насколько большая у вас компания.

Формально остается залить в сервис нужное видео, выбрать один из 10 поддерживаемых языков и наслаждаться результатом. На деле все не так просто и существует множество нюансов.

В моем случае для тестирования перевода по бесплатному кредиту ушло более 6 дней. Оригинальное видео выглядело так:

Спустя 6 дней я получил такой вот результат:

Надо отметить, что для нейросети это задание со звездочкой из-за не очень высокого разрешения, а главное, съемки с руки, что дает тряску камеры и, как мне казалось, могло дать больше артефактов. HeyGen справился с этой задачей. Единственный минус, на мой взгляд, голос все-таки имеет небольшие, но непринципиальные отличия. Чтобы так было всегда, стоит внимательно прочитать требования.

Требования к содержанию видео

Чтобы нейронка смогла корректно обработать видео, придется соблюдать условия по композиции и направлению камеры, а именно:

  • Посторонние шумы, звуки, музыку из видео надо убирать. Иначе это может повлиять на качество перевода и голос ведущего.
  • В кадре в каждый момент времени должен находиться лишь один человек, одно лицо или изображение лица. В противном случае заговорить может вовсе не ведущий. Потенциально можно попробовать поиграть с таким эффектом, чтобы заговорила статуя, но это уже другой кейс.
  • Внутри одного видео говорить должен только один человек. Если у вас, например, интервью, то видео надо разбивать и склеивать речь одного человека в одно видео, а речь другого — в другое. Иначе программа будет совмещать голоса в один общий голос.
  • При использовании в речи слов из другого языка, англицизмов и сленга переводчик, скорее всего, отработает некорректно.
  • Человек при разговоре должен смотреть в камеру, чтобы не создавать артефактов в построении мимики. Лицо при этом нельзя загораживать объектами или эффектами.

Довольно масштабный список требований, который сильно сужает возможности на данный момент. В будущем технология будет доработана, но пока имеем то, что имеем.

Технические требования HeyGen Video Translate

HeyGen поддерживает всего три формата файлов: mp4, quicktime, webm. При этом позволяется загружать видео от 30 секунд до 5 минут. Если загрузить видео, где речь очень короткая, могут появиться проблемы. Нейросети требуется материал для обучения, поэтому если в ролике человек говорит всего несколько секунд, то, скорее всего, данных будет недостаточно. Лучше дописать разговорные фразы или неудачные дубли. Хотя авторы заявляют разрешение от 360 x 360 до 4096 x 4096, сложно представить возможность залить файл в максимальном разрешении до 5 минут при хорошем битрейте.

Требования и рекомендации к видео от HeyGen Labs
Требования и рекомендации к видео от HeyGen Labs

Перевод осуществляется на британский и американский английский, испанский, французский, китайский, немецкий, итальянский, португальский, датский, хинди и японский языки. Не забывайте, что у некоторых языков несколько разновидностей, например у китайского и португальского. Поэтому вовлечение зрителей в некоторых регионах может быть ниже на данный момент, чем от обычной пересъемки с переводом на нужный язык. При использовании в рекламе с большим бюджетом это может сильно сказаться на эффективности ролика. Естественно, количество языков со временем вырастет.

Куда интереснее дела обстоят с поддерживаемыми языками оригинала видео. На сайте сервиса заявляется о поддержке того же набора языков, что можно выбрать для перевода. Однако тестирование тех же мемов показало, что простой русский язык может быть успешно переведен сервисом. Так что при наличии исходника с неподдерживаемым, но широко распространенным языком можно попробовать рискнуть и протестировать возможности системы.

Суровая реальность использования

Из-за большого наплыва пользователей ждать в бесплатной очереди приходится по 2-3 дня, а иногда и больше. Поэтому тем, кто хочет использовать сервис с коммерческими целями, рекомендуется приобрести хотя бы минимальную подписку за $29 в месяц, которая даст доступ к 15 переводам и возможность обойти очередь. Некоторые из этих попыток могут быть вынужденно потрачены на тестирование. Будьте готовы.

Шел пятый день бесплатного тестового перевода
Шел пятый день бесплатного тестового перевода

Есть два варианта оплаты для физических лиц:

  • по $2 при месячной подписке, независимо от количества попыток;
  • по $1,6 при годовой подписке, независимо от количества попыток.

Но кроме физиков, компания поддерживает тарифы для бизнеса, каждый из которых оговаривается отдельно, дает доступ к API, возможность обрабатывать длинные видео, использовать видео с несколькими спикерами и создавать продвинутые скрипты.

Стоимость использования сервиса HeyGen
Стоимость использования сервиса HeyGen

Русские карты от трех основных банков РФ на момент записи были отклонены, так что придется искать обходной способ оплаты через виртуальную буржовую карту. Если у кого-то получилось оплатить русской картой — шепните на ушко, какой банк использовали.

Последствия появления HeyGen и аналогов

Появление каждой новой нейросети с особенным функционалом порождает всплеск апокалиптических вздохов от всепропальщиков и таких же вздохов типа «задолбали со своими ИИ». В действительности многие подобные сервисы помогут решать очень простые, базовые задачи, например создание простых рекламных и информационных роликов с низким бюджетом, создание фейковых аватаров для вовлечения в черных и серых вертикалях.

Для арбитражного рынка это, в частности, означает упрощение входа в сферу, больше возможностей для работы соло или в составе небольших команд. Топовые команды и компании также смогут активнее осваивать международный формат инфлюэнсерства и видеокреативов. Малый бизнес сможет осваивать новые направления работы в международном формате с помощью доставки товаров. Правда, в России с этим сейчас будет туговато.

Теперь о влиянии на рынок труда. До замены полноценного человеческого высококвалифицированного труда нейросетям еще далеко. Главное преимущество людей или, например, высококачественных рекламных креативов в умении работать на языке аудитории как по звучанию, так и по мимике. Пока что нейросетям очень далеко до качественного перевода содержания с отсылками к меметичным событиям, образным смыслам, передаче метафор. Оттого у них и очень плохо с юмором, потому что контекст человеческой жизни ими в принципе не осознается.

Так и блогера с его особенной мимикой, которая познается в контексте, будет сложнее воссоздать. А его контент, который говорит на языке аудитории, сложно будет с тем же успехом использовать в других регионах с другими традициями и культурологическими особенностями без хорошего анализа и детальной переработки тех же речевых оборотов.

Таким образом, мы приходим к тому, что базовый контент вроде руководств, гайдов и передачи информации, первичных тестов спроса в бурже или самых простых крео можно делать с помощью подобных инструментов. Будет проще выходить на базовом уровне в новые регионы, но для масштабирования все равно понадобится профессиональная работа и анализ множества людей: ведущих, локализаторов, аналитиков, операторов и так далее. В этих профессиях все еще остается место для обучения в том же создании базового контента для обработки нейросетями, операторов по работе с нейросетями, в роли ассистентов высококвалифицированных профессионалов, аналитиков и т. п. Как-то так.

Если разбор вам понравился, приходите в мой телеграм-канал, и до встречи в эфире.

Здравствуйте! У вас включен блокировщик рекламы, часть сайта не будет работать!