LuckyOnline LuckyOnline написал 26.09.2024

Научились парсить тысячи уникальных промостраниц в собственном spy-сервисе

LuckyOnline LuckyOnline написал 26.09.2024
10 мин
0
212
Содержание

Чтобы в арбитраже выдавать большие результаты, нужно тестировать — много и постоянно: придумывать новые заходы, переосмыслять старые и применять в своих проектах то, что уже делают конкуренты. Для отслеживания связок конкурентов все пользуются spy-сервисами, и мы в LuckyTeam не исключение.

banner banner

Но с любым публичным спаем есть проблема: мы в команде не знаем наверняка, откуда он собирает данные. У него 100 сайтов в базе или 10 000? Все ли рекламные блоки парсятся и как часто это происходит? Отслеживается ли добавление новых блоков? Вдруг какой-то значительный массив перспективных связок проходит мимо нас?

Поэтому мы сделали и развиваем собственный spy-сервис. Он не только находится под нашим полным контролем с точки зрения источников данных, но и помог избавиться от бестолкового ручного труда в наших командах. В этой статье расскажем, как работает наш spy.

Создали базу источников для парсинга

Когда работаешь с несколькими spy-сервисами одновременно, сложно не заметить: одни связки есть только в спае А, другие только в спае Б и так далее. Соответственно, возникают вопросы к источникам данных этих сервисов — попадают ли в них все те связки, которые нам хотелось бы брать на тест?

Мы настроили парсинг из всех значимых для нас источников. В базу попали все существующие нативные рекламные сети, а также огромное количество сайтов по различным гео.

Попадают ли все существующие в мире связки в наш spy? Вряд ли, потому что точно вычислить это невозможно. Но такой цели и не стояло. Главное, что мы сами контролируем, из каких ресурсов собираем связки и как часто это происходит. А также получаем все необходимые параметры для оценки, которые гораздо шире, чем в публичных spy-сервисах.

Упростили отбор лендингов для тестов

Отобрать лендинги для тестов — это, в теории, простая задача. Но на практике приходится сталкиваться с препятствиями: кликаешь по ссылке, а страница не открывается из-за того, что нет прокси. Или потому что поменяли URL. Или потому что просто удалили страницу.

Или открывается, но ты видишь не страницу, а криво сделанный скриншот.

В нашем spy таких проблем нет: мы сохраняем на своих серверах все страницы, которые попадают в базу — и они открываются без каких-либо проблем. В первозданном виде со всеми скриптами.

Так выглядит предпросмотр промо-страниц — если даже связка удалена, то она все равно сохраняется в сервисе, а мы имеем возможность скачать архив и отдать страницу на доработки.

Медиабайеры из нашей команды могут спокойно заниматься своей задачей — отсматривать лендинги и выбирать те, которые хотели бы протестировать.

Автоматизировали проверку уникальности страниц

Мы запустили парсинг связок со всех интересующих нас ресурсов в мире, настроили частоту и логику сбора этих связок, промостраницы хранятся на нашем сервере и открываются без прокси — полдела сделано. Теперь нужно разобраться с другой задачей: сократить время, которое байеры тратят на отбор промо для тестов среди огромного потока данных.

Если этого не сделать, то велик риск, что байеры будут постоянно откладывать поиск новых промо на тест, фокусируясь на более «денежных» задачах.

Когда мы осознали эту проблему, то сошлись во мнении: нужно оставлять в выдаче spy только уникальные промостраницы. Чтобы это сделать, нам предстояло ответить на фундаментальные вопросы: по каким параметрам мы будем оценивать уникальность и как это реализовать?

Оценивать уникальность решили по тексту страницы. У разных арбитражников может быть разный опыт, но мы для себя определили: именно текст — ключевой фактор уникальности. Он формирует смысловую упаковку промо: какой заход мы берем, на какие боли давим, какие триггеры используем и какой призыв к действию совершаем.

Тогда как картинки на лендинге — это уже вторично.

Как проверить уникальность текста на тысячах промостраниц, совершая при этом минимум ошибок? Сначала у нас была идея сделать отдел под проверку уникальности: нанять нескольких сотрудников, которые бы вручную просматривали новые страницы в базе и отмечали бы уникальные.

Но мы отказались от этой идеи из-за человеческого фактора. Если сотрудник будет просматривать под 1 000 промо каждый каждый день, то вскоре чисто физически не сможет понять, видел он очередную страницу или нет.

Кроме того, нам потребовалось бы организовывать обучение по поиску промо под разные вертикали. И, наконец, если сотрудник захочет уйти, мы потеряем его компетенцию — придется начинать сначала.

В итоге, мы придем ровно к тому, с чего начинали: арбитражникам придется самим отсеивать неуникальные промо — следовательно, мы не выполняем свою задачу по оказанию качественного сервиса.

Поэтому проверку уникальности решили автоматизировать. Согласно концепту, «под капотом» нашего сервиса должен был появиться алгоритм, который будет оценивать уникальность всех промо, которые попадают в базу.

Нужно было найти решение, которое будет достоверно оценивать уникальность десятков тысяч страниц. Мы провели сотни внутренних тестов различных нейросетей и математических моделей, пока не нашли оптимальную конфигурацию.

Также нужно было понять, какой процент уникальности текста минимальный, чтобы промо попало в уникальные? Самый очевидный вариант — 100% — нам не подходил, потому что на первый взгляд одинаковые страницы могут отличаться парой абзацев, которые в корне меняют ее конверсию. Так что мы провели еще одну серию тестов и выявили процент уникальности, который одновременно не добавляет дубли, но добавляет всё то, что может нас заинтересовать.

При определении уникальности нужно было учитывать и то, что не всегда возможно отправить на проверку уникальности только текст страницы — к нему часто добавляются фрагменты кода и другой мусор. Наша команда провела большую работу над тем, чтобы определить что нам может мешать, а затем по-максимуму отсеивать эти факторы и объективно проверять уникальность.

Результат за первый месяц тестов нового функционала в октябре 2023 года — практически 1500 найденных уникальных промостраниц.

Внедрили систему фильтров для быстрого поиска нужных промо

В базе нашего сервиса сотни тысяч лендингов, и даже после отсева неуникальных пользователи видят многие тысячи разных страниц. И если арбитражник заходит в spy с конкретной задачей — например, подобрать промо под суставы в Италии — то он снова столкнется с задачей перебрать несколько сотен страниц, чтобы найти десять подходящих.

Эту работу также нужно было исключить или хотя бы упростить. Так мы внедрили в spy-сервис систему фильтров: по гео, языку, вертикали, категории и подкатегории. Арбитражники, в свою очередь, получают возможность сразу отсортировать промо под свои задачи и не заниматься перебором. Выставляешь параметры — а потом берешь и тестируешь.

Как и в случае с проверкой уникальности, нам нужно было решить, как мы будем решать эту задачу: руками «живых» сотрудников или посредством автоматизации. Выбрали вариант с наймом сотрудников — по двум причинам.

Во-первых, это проще в реализации. Человек будет категоризировать промо на основе насмотренности, а для автоматизации нам пришлось бы с нуля писать сложный алгоритм по определению параметров страницы. Вдобавок, мы автоматизировали определение простых параметров — гео и языка — а вертикаль, категорию и подкатегорию проставляют люди.

Во-вторых, с задачей справляется мини-отдел из двух человек. И справляется отлично. Отдел по определению уникальности промо состоял бы из десятка человек, если не больше.

Собираем статистику, чтобы оценивать перспективность страниц

Когда у арбитражника есть список подходящих страниц для тестов, он может сам оценить, что из этого брать в работу в первую очередь — на основе своих опыта и насмотренности. Но мы также хотели добавить объективные параметры для оценки перспективности той или иной страницы.

Из общедоступных показателей мы взяли два: количество связок с данным лендингом и количество показов этой связки в рекламных сетях. Обладая этой информацией, наши медиабайеры могут брать «проверенные» другими арбитражниками связки, на которые уже откручено много трафика — или, наоборот, отобрать промо с небольшим количеством трафика и попытаться найти «будущую звезду».

Полные связки: креатив → промо

Помимо поиска промостраниц, в нашем spy-сервисе есть базовый функционал по сбору тизеров — можно смотреть чужие креативы и адаптировать их под свои задачи.

Также эти тизеры соотносятся с промостраницами, благодаря чему можно оценить весь контекст связки: не только сам лендинг, но и предшествующий ему креатив.

Выглядит это следующим образом: в пару кликов мы можем увидеть все тизеры, которые использовались вместе с интересной нам промо-страницей. Также в верхней части видно полный список доступных фильтров — от кол-ва показов, до категории оффера и названия ПП.

В итоге, у нас получилось сделать сервис, который действительно экономит время арбитражников и позволяет им сфокусироваться на своей основной компетенции — работе с рекламным источником. Когда байеру в LuckyTeam нужны связки для тестов, он просто заходит в один спай, выставляет фильтры, получает список уникальных страниц, без каких-либо проблем их открывает и, если нужно, может посмотреть список креативов, которые работают с этими страницами в связках.

***

Spy прошел множество тестов и показал, что работать с ним действительно быстрее и удобнее. Выводить сервис в паблик мы не планируем, но зато вы можете подключиться к LuckyTeam и лить трафик, используя все наши ресурсы: у нас есть не только свой spy, но и отдельные команды по созданию промостраниц и вайтпейджей, фарму аккаунтов, поиску расходников.

А если у вас будут идеи, как еще упростить и масштабировать трафик, то мы всегда открыты и готовы реализовать любые технические решения.

Чтобы присоединиться к нашей команде, переходите в наш Telegram-бот.

Здравствуйте! У вас включен блокировщик рекламы, часть сайта не будет работать!