Поисковые системы оценивают контент по множеству параметров, один из которых – релевантность документа поисковому запросу. Релевантность определяется различными способами, но один из главных – алгоритм BM25. На этой странице вы узнаете всё про алгоритм ранжирования релевантности документа, а также найдете формулу BM 25 и её объяснение, чтобы действительно понять вероятностно-поисковой механизм.
Название алгоритма – это сокращение от “Best Match 25”, что можно перевести как “Лучшее совпадение”. Второе название – Okapi BM-25, что также известно, как “Функция ранжирования”.
Функция Okapi применяется для проверки релевантности текста по отношению к заданному запросу, именно поэтому данный подход широко используется в SEO. В отличие от TF-IDF, алгоритм BM-25 учитывает не только частотность, но и распределение по статье.
Начало статьи будет идеальным местом для того, чтобы предложить вам подписаться на мой ТГ канал. Там много авторского контента про SEO и актуальные технологии, а главное — честно, без купюр и манипуляций мнением. Ссылка вот — https://t.me/seomikhaylov
В SEO-сообществе до сих пор спорят об авторстве. Многие считают, что алгоритм был создан в лондонском городском университете британскими учеными Стивеном Робертсоном и Карен Спар Джоунс. Но есть и альтернативная точка зрения, что 25 версия является лишь усовершенствованной версией старого подхода к документам – BM-11, созданная в 1994 году профессором Джо Баярдом и Трэвисом Хьюзом.
Использовать алгоритм можно с двух сторон:
Okapi BM25 помогает оценить текст, насколько он соответствует тому или иному поисковому запросу. То есть помогает не просто на ощущениях определить, что документ А соответствует запросам 1, 2 и 3, но и произвести расчет релевантности документов. В результате вы сможете подготовить контент, который поисковая система высоко оценит по определенным запросам.
Конечная оценка БМ25 является одним из базовых параметров, как оценить не только один текст, но и оценить его относительно других документов. Это особенно важно, если для ключевых запросов подходит сразу несколько страниц.
BM25 работает на руку оптимизаторам, но важно не забывать в погоне за высокой оценкой, что нужно заботиться еще и о читателе. Вы наверняка видели, что выдача иногда полна некачественных результатов, которые сделаны по всем канонам SEO. И Яндекс, и Google постепенно убирают подобное, поэтому при подготовке страниц ориентируйтесь и на СЕО показатели, и на качество для живого читателя.
Доподлинно известна только оригинальная формула BM25 и некоторые её модификации:
Алгоритм ранжирования и вариации формулы, которые используются Яндексом и в Google, являются закрытой информацией.
В оригинальной формуле используется параметр IDF (обратная частота документов), который мы подробно разбирали на данной странице. Для расчета потребуется длина документа, количество повторений – f(q_i, D), и целевой запрос, который необходимо рассчитать.
По значимости в итоговой функции ранжирования ключевую роль играет не только IDF, но и остальные параметры. Чтобы адаптировать расчет под вашу задачу, вы можете задать параметр “k_1”, который отвечает за насыщение функции и изменить параметр “а b” для изменения результатов в зависимости от длины документа.
Для примера разберем результаты оценки двух запросов:
Для коллекции из 20 000 документов с разной длинной получаются следующие результаты:
Оценка релевантности документа запросу показывает наиболее релевантный вариант. Так как BM25 учитывает длину документа, на результат напрямую влияет объем.
BM25 является основной формулой, но алгоритм ранжирования документов можно построить и на других. Например, существует модификация BM25F:
Эта модификация позволяет оценить любой документ в коллекции документов или его часть. Например, если в документе есть заголовок H1-H3 или ссылочный текст, то структуру документа анализируют частично, а не полностью, рассчитывая оценку в зависимости от зон документа. В результате оценка дается каждому участку, что позволяет разрабатывать действительно релевантные заголовки или ссылочный текст.
BM25F позволяет проигнорировать все высокочастотные слова в определенной части документа, назначив им меньшую значимость. Степень значимости в итоговой функции напрямую зависит от вашего выбора, поэтому BM25F позволяет более точно учитывать релевантность.
Также важно понимать отличие от TF IDF. Значение IDF не учитывает распределение слов по статье. Модель БМ, которая учитывает распределение, позволяет получить более точную оценку. С таким подходом оптимизация более эффективна, а выход в ТОП более вероятен.
В алгоритмах современных поисковых систем каждый документ анализируется по множеству параметров – из которых релевантность запросу является одним из основных.
Современный контент-маркетинг и SEO невозможны без учета релевантности документа. И Яндекс, и Гугл стремятся дать пользователям наиболее релевантные результаты по их запросу. Чтобы не гадать, если ваша статья подходит или нет, важно её проанализировать.
Для продвижения сайтов чаще всего используется либо формула BM25, либо метод TF-IDF. Вы можете использовать оба для максимально точной оценки, так вы поймете, если вхождение слова достаточно или недостаточно, а также сможете проанализировать текст документов в коллекции. Обе формулы могут быть настроены под вашу задачу – с учетом длины документа, количеством слов и т.д.