Instagram поделился подробной информацией о том, как отбирается контент для вкладки «Поиск и интересное» («Explore»).
По словам инженера Instagram Ивана Медведева, сервис впервые так детально рассказал о тех основах, которые помогают ему предоставлять пользователям персонализированный контент в широком масштабе.
В посте подчёркивается, что Instagram – это огромный сервис, а контент, который в нём содержится, очень разный. Темы варьируются от арабской каллиграфии до моделирования поездов и приготовления слайма. Это создаёт определённые сложности при формировании рекомендаций, однако Instagram удаётся преодолевать их за счёт фокуса не на отдельных постах, а на аккаунтах.
Instagram идентифицирует похожие аккаунты, применяя метод машинного обучения, известный как «встраивание слов». Системы встраивания слов изучают порядок, в котором слова появляются в тексте, чтобы понять, насколько они связаны.
При формировании рекомендаций система Explore анализирует так называемые «seed accounts» — те учётные записи, с которыми пользователи взаимодействовали в прошлом, лайкая или сохраняя их контент.
Далее он определяет аккаунты, похожие на них, а затем отбирает 500 публикаций. Эти кандидаты затем фильтруются, чтобы удалить спам, дезинформацию, а также «возможно нарушающий правила контент», а оставшиеся посты ранжируются на основании того, насколько вероятно, что пользователь будет взаимодействовать с каждым из них. В конечном итоге, остаётся 25 постов, которые отправляются на первую страницу вкладки «Explore».
Какие сигналы используются для идентификации спама и дезинформации, в Instagram не уточнили. Также непонятно, в каком объёме в этих процессах участвует машинное обучение.
Согласно Instagram, наилучший способ повлиять на контент, который появляется на вкладке Explore, – это взаимодействовать с теми публикациями, которые нравятся.
Чтобы видеть меньше публикаций определённого типа, лучше всего использовать опцию «See fewer posts like this» в меню поста – алгоритм учтёт эту подсказку.