Адрес офиса:
Москва, Одесская ул., 2кС, 117638
Время работы:
Ежедневно
с 10 до 19
+7(495)477-57-39
Ежедневно
с 10 до 19

Алгоритм BM25 – Алгоритм ранжирования документа в Яндекс и Google

Опубликовано: 22.11.2024
Дмитрий Михайлов
379

Поисковые системы оценивают контент по множеству параметров, один из которых – релевантность документа поисковому запросу. Релевантность определяется различными способами, но один из главных – алгоритм BM25. На этой странице вы узнаете всё про алгоритм ранжирования релевантности документа, а также найдете формулу BM 25 и её объяснение, чтобы действительно понять вероятностно-поисковой механизм.

Что такое алгоритм BM25

Название алгоритма – это сокращение от “Best Match 25”, что можно перевести как “Лучшее совпадение”. Второе название – Okapi BM-25, что также известно, как “Функция ранжирования”.

Функция Okapi применяется для проверки релевантности текста по отношению к заданному запросу, именно поэтому данный подход широко используется в SEO. В отличие от TF-IDF, алгоритм BM-25 учитывает не только частотность, но и распределение по статье.

Начало статьи будет идеальным местом для того, чтобы предложить вам подписаться на мой ТГ канал. Там много авторского контента про SEO и актуальные технологии, а главное — честно, без купюр и манипуляций мнением. Ссылка вот — https://t.me/seomikhaylov

В SEO-сообществе до сих пор спорят об авторстве. Многие считают, что алгоритм был создан в лондонском городском университете британскими учеными Стивеном Робертсоном и Карен Спар Джоунс. Но есть и альтернативная точка зрения, что 25 версия является лишь усовершенствованной версией старого подхода к документам – BM-11, созданная в 1994 году профессором Джо Баярдом и Трэвисом Хьюзом.

Для чего ведется расчет релевантности документа

Использовать алгоритм можно с двух сторон:

  • Поисковые системы для анализа документов, чтобы выявить наиболее подходящие результаты на поисковый запрос
  • Оптимизаторы для подготовки документов, чтобы подготовить наиболее подходящие под поисковый запрос тексты

Okapi BM25 помогает оценить текст, насколько он соответствует тому или иному поисковому запросу. То есть помогает не просто на ощущениях определить, что документ А соответствует запросам 1, 2 и 3, но и произвести расчет релевантности документов. В результате вы сможете подготовить контент, который поисковая система высоко оценит по определенным запросам.

Конечная оценка БМ25 является одним из базовых параметров, как оценить не только один текст, но и оценить его относительно других документов. Это особенно важно, если для ключевых запросов подходит сразу несколько страниц.

BM25 работает на руку оптимизаторам, но важно не забывать в погоне за высокой оценкой, что нужно заботиться еще и о читателе. Вы наверняка видели, что выдача иногда полна некачественных результатов, которые сделаны по всем канонам SEO. И Яндекс, и Google постепенно убирают подобное, поэтому при подготовке страниц ориентируйтесь и на СЕО показатели, и на качество для живого читателя. 

Формула BM25 для ранжирования в поисковых системах

Доподлинно известна только оригинальная формула BM25 и некоторые её модификации:

Формула BM25 для ранжирования в поисковых системах

Алгоритм ранжирования и вариации формулы, которые используются Яндексом и в Google, являются закрытой информацией.

В оригинальной формуле используется параметр IDF (обратная частота документов), который мы подробно разбирали на данной странице. Для расчета потребуется длина документа, количество повторений – f(q_i, D), и целевой запрос, который необходимо рассчитать.

По значимости в итоговой функции ранжирования ключевую роль играет не только IDF, но и остальные параметры. Чтобы адаптировать расчет под вашу задачу, вы можете задать параметр “k_1”, который отвечает за насыщение функции и изменить параметр “а b” для изменения результатов в зависимости от длины документа.

Для примера разберем результаты оценки двух запросов:

  • купить телефон Xiaomi
  • купить телефон Xiaomi Note Pro

Для коллекции из 20 000 документов с разной длинной получаются следующие результаты:

Результаты расчета BM25 для ранжирования в поисковых системах

Оценка релевантности документа запросу показывает наиболее релевантный вариант. Так как BM25 учитывает длину документа, на результат напрямую влияет объем.

Отличие BM25 от модификации BM25F и TF IDF

BM25 является основной формулой, но алгоритм ранжирования документов можно построить и на других. Например, существует модификация BM25F:

Формула BM25F для ранжирования в поисковых системах

Эта модификация позволяет оценить любой документ в коллекции документов или его часть. Например, если в документе есть заголовок H1-H3 или ссылочный текст, то структуру документа анализируют частично, а не полностью, рассчитывая оценку в зависимости от зон документа. В результате оценка дается каждому участку, что позволяет разрабатывать действительно релевантные заголовки или ссылочный текст.

BM25F позволяет проигнорировать все высокочастотные слова в определенной части документа, назначив им меньшую значимость. Степень значимости в итоговой функции напрямую зависит от вашего выбора, поэтому BM25F позволяет более точно учитывать релевантность.

Также важно понимать отличие от TF IDF. Значение IDF не учитывает распределение слов по статье. Модель БМ, которая учитывает распределение, позволяет получить более точную оценку. С таким подходом оптимизация более эффективна, а выход в ТОП более вероятен.

Какой алгоритм для ранжирования документов и текстовой релевантности использовать в SEO

В алгоритмах современных поисковых систем каждый документ анализируется по множеству параметров – из которых релевантность запросу является одним из основных.

Современный контент-маркетинг и SEO невозможны без учета релевантности документа. И Яндекс, и Гугл стремятся дать пользователям наиболее релевантные результаты по их запросу. Чтобы не гадать, если ваша статья подходит или нет, важно её проанализировать.

Для продвижения сайтов чаще всего используется либо формула BM25, либо метод TF-IDF. Вы можете использовать оба для максимально точной оценки, так вы поймете, если вхождение слова достаточно или недостаточно, а также сможете проанализировать текст документов в коллекции. Обе формулы могут быть настроены под вашу задачу – с учетом длины документа, количеством слов и т.д.

Последние статьи

Каждую неделю я готовлю для вас интересные и полезные материалы. Здесь представлены только бесплатные статьи, остальные доступны участникам закрытого клуба
Дочитали?
для вас бонус
Осталось 3 бесплатных консультации - аудита вашего сайта. Успейте оставить заявку