Адрес офиса:
Москва, Одесская ул., 2кС, 117638
Время работы:
Ежедневно
с 10 до 19
+7(495)477-57-39
Ежедневно
с 10 до 19

TF IDF – что это такое и как использовать TF-IDF для семантического анализа текста для SEO алгоритмов

Опубликовано: 21.11.2024
Дмитрий Михайлов
364

Для оценки количества вхождения ключей в текст существует несколько способов, и один из них – оценка важности слова в контексте документа. Для этого используется статистическая мера TF-IDF. На этой странице вы узнаете, что такое TF IDF, как данный показатель рассчитывается, для чего использовать результаты и найдете пример расчета частоты слов.

Что это такое TF IDF

TF-IDF это аббревиатура от английских терминов:

  • Term Frequency – это значит “частота слова”, что отражает количество вхождений слова по отношению к общему объему документа. Например, если ключ повторяется 2 раза в тексте на 8 слов, то показатель будет 0,25. Иногда TF путают с TD, но корректное называние только одно TF, так как оно образовано от сокращения двух слов.
  • Inverse Document Frequency – это означает “обратная частота документа” и отражает инверсию частоты употребления слова. IDF позволяет вычислить и уменьшить вес широкоупотребляемых терминов.

Начало статьи будет идеальным местом для того, чтобы предложить вам подписаться на мой ТГ канал. Там много авторского контента про SEO и актуальные технологии, а главное — честно, без купюр и манипуляций мнением. Ссылка вот — https://t.me/seomikhaylov

TF IDF часто называют показателем частотности слов, то есть сколько раз то или иное слово встречается в документе. Это не совсем верное определение, так как TF-IDF отражает соотношение вхождений к объему. Например, 2 вхождения термина на 100 слов будут иметь показатель TF-IDF ниже, чем тех же два вхождения, но в документе на 150 слов.

TF-IDF простыми словами – статистический показетель, как часто слово упортребляется в документе, который учитывает длину текста и используется для проверки соответствия текста поисковому запросу.

 

Ранжирование результатов в поисковой выдаче осуществляется по разным критериям, и вхождение слов – один из главных. Релевантность документа поисковому запросу напрямую влияет на позиции. Поэтому любая статья, создаваемая для органического трафика, желательно, должна быть написана с использованием релевантных слов в нужном количестве.

Как использовать результаты TF-IDF

Метод TF-IDF помогает с оптимизацией новых и старых страниц. Расчет вхождений полезен для подготовки материала в любой нише. Например, результаты расчета можно использовать для следующих задач:

  • Подготовка ТЗ для копирайтера – указание, сколько раз необходимо употребить различные термины.
  • Подбор тематических слов – в частности оценка помогает найти не только синонимы, но и косвенные термины, связанные с основной темой.
  • Снижение вхождений ключей на переоптимизированных страницах на основании четкого расчета, а не по ощущениям.

Например, если на вашем сайте уже есть страница не в ТОПе выдачи, которая по всем остальным метрикам достаточно качественная. Расчет TF-IDF и последующее добавление/удаление слов на странице способно дать желаемый рост позиций. Так как поисковики, например, Яндекс или Google, оценивают содержание, в том числе по употребленным на странице словам.

Работать с TF-IDF можно как на русском, так и на любом другом языке. Не обязательно знать язык в совершенстве, чтобы использовать данный метод для расчета веса слов. Например, вы можете использовать данный метод для подготовки контента на английском, чтобы избежать так называемого “Keywords stuffing”, то есть переспама по ключам.

 

Формула расчета для анализа текста

Читать всю статью и самостоятельно выискивать слова не требуется. Достаточно использовать специальные формулы расчета. Они работают для заданных ключевых слов в заданном тексте или в коллекции документов. Это значит, что для расчета вам потребуется знать два ключевых параметра:

  • Количество повторений слова
  • Общая длина текста

В случае со статьей для сайта, узнать можно с помощью Word, Google Docs или любого другого современного редактора текста для документов. Например, вы можете использовать функцию поиск слова на странице:

Пример расчета повторений ключевого слова на странице

Для подсчета вхождений в заголовках конкурентов, вы можете собрать их заголовки, то есть параметры “Title”, в одной таблице и далее автоматически посчитать повторы в Excel или Google Spreadsheets.

Для длины текста также доступен автоматический калькулятор. Например, в Google Docs вы легко можете узнать общую длину:

Пример подсчета общей длины документа

Когда вы узнали необходимые параметры, можно приступать к расчету, для этого используйте формулу:

TF = (количество повторений) разделенное на (общий объем текста)

Далее разберем реальный пример, пока делимся формулой для расчета IDF.

Формула для расчета показателя IDF

Это более сложное вычисление, так как включает в себя логарифм. Этот метод позволяет учесть вес слова в зависимости от его частоты в коллекции текстов. В результате вы узнаете релевантность документа по нужному вам ключевому запросу. Определять вес таким методом без специальных инструментов довольно сложно, так как коллекцией является весь Интернет. Монстр Оптимизации от Михайлов Диджитал позволяет удобно расчитать TF-IDF:

Монстр Оптимизации

Монстр Оптимизации доступен всем участникам SEO Гильдии.

Далее мы рассмотрим ручной расчет IDF на примере ограниченной коллекции, то есть для задачи, когда вам известно количество документов. В этом случае лучше разложить подсчет IDF на два шага:

  • Вычислить показатель DF – частота документа в коллекции. Например, страниц в поисковой выдаче, заголовков на странице и т.д. Для этого общие количество вхождений делится на общее количество документов. Далее разберем на примере.
  • Вычислить IDF – единицу разделить на полученный ранее “DF”. Так вы получите показатель IDF без сложного расчета логарифма.

Существуют специализированные сервисы для расчета показателя. Например – https://calculatorlib.com/ru/tf-idf-calculator. Достаточно скопировать свой документ и указать ключевое слово. Калькулятор рассчитает показатели самостоятельно:

Пример калькулятора TF-IDF

Пример расчета показателя TF-IDF

Решение реальной задачи – идеальный способ, чтобы не просто показывать, как рассчитывается TF-IDF, но и для полного понимания с вашей стороны. Поэтому рассмотрим на реальном примере трёх оценки следующих ключевых запросов:

  • переработанный пластик
  • пластик
  • вторичный пластик

Для этих запросов, для примера, мы подготовили 3 разных варианта заголовков с различной комбинацией ключевиков:

  1. Переработанный пластик – купить оптом Москва (5 слов)
  2. Переработанный пластик – купить пластик от производителя (6 слов)
  3. Переработанный пластик – купить вторичный пластик дешево (6 слов)

В скобках указана длина текста, в вашем случае длина может быть существенно больше. Например, при подсчете, как часто встречается фраза в статье, документ может содержать и 1000, 2000 слов, и даже больше.

Для удобства сведем все данные в одну таблицу. Мы учитываем только те уникальные слова в документе, которые нам необходимо посчитать. Используем в подсчете только леммы – исходные формы в именительном падеже и единственном числе:

Вариант заголовка переработанный пластик вторичный
1 1 1 0
2 1 2 0
3 1 2 1
Всего повторений 3 5 1

Так как в нашем примере нет ключа “Купить”, не учитываем его в подсчете, хоть слово и употребляется в заголовках. Также в нашем примере нет глагола, но вы также можете подсчитать ключевик с глаголом. В этом случае необходимо ориентироваться на инфинитив, то есть на глагол, отвечающий на вопрос “Что делать?”.

Расчёт TF для заданных лемм:

Вариант заголовка Первый Второй Третий
TF (пластик) 0,2 0,33 0,33
TF (переработанный) 0,2 0,166 0,166
TF (вторичный) 0 0 0,166

 

Для расчёта IDF вычислим DF – то есть количество повторений в документах, в нашем случае в трёх заголовках. Для этого делим 3 (число текстов) на количество упоминаний необходимых терминов:

  • DF (пластик) – 1
  • DF (переработанный) – 1
  • DF (вторичный) – 0,33

“Пластик” и “переработанный” получили единицу, так как в трех заголовках есть их употребление. Вторичный получил “0,33” так как их трех вариантов он есть лишь в одном (1/3).

Отличие DF от TF, что в DF учитывается не фактическое количество повторений, а количество текстов, где было это повторение. Например, если слово повторилось 3 раза в одном тексте, для DF это “1”, так как важен сам факт наличия термина в документе, а не его количество.

Для расчета IDF достаточно разделить единицу на полученный показатель DF, в нашем примере:

  • IDF (пластик) – 1
  • IDF (переработанный) – 1
  • IDF (вторичный) – 3,03

Этот метод позволяет определять IDF без сложных расчетов. А также легко и наглядно демонстрирует, что чем реже встречается термин в коллекции документов, тем его показатель IDF выше.

Финальный штрих в этой концепции – расчет TFIDF, то есть целевого показателя для определения значимости каждого слова. Для этого необходимо перемножить TF на IDF:

Вариант заголовка Первый Второй Третий
TF-IDF (пластик) 0,2 0,33 0,33
TF-IDF (переработанный) 0,2 0,166 0,166
TF-IDF (вторичный) 0 0 0,502

 

Таким образом вы можете посчитать вес слова независимо от того, сколько у вас документов в коллекции. То есть вы вычислите не просто количество раз, сколько встречаются те или иные слова, но и посчитаете вес. Применять такой подход для SEO можно лишь в части случаев, когда ваш ключевой запрос состоит из одного слова.

Если ваш запрос состоит из нескольких слов, например “переработанный пластик”, а не просто “пластик”, то воспользуйтесь простым алгоритмом для подсчета – сложите показатели для отдельных слов. Например, для наших изначальных заголовков:

  1. Переработанный пластик – купить оптом Москва (5 слов)
  2. Переработанный пластик – купить пластик от производителя (6 слов)
  3. Переработанный пластик – купить вторичный пластик дешево (6 слов)

Мы складываем показатели, например “Переработанный” – 0,2 и “Пластик” – 0,2, в сумме дадут 0,4. Общий расчет веса ключевых фраз в заголовках:

Ключевая фраза Заголовок 1 Заголовок 2 Заголовок 3
переработанный пластик 0,4 0,496 0,496
пластик 0,2 0,66 0,66
вторичный пластик 0,2 0,66 1,162

Этот упрощенный пример на коротком тексте – модель подхода, как вычислить наиболее релевантный текст для ключевых запросов. Вы можете масштабировать его на больший объем, но в нашем примере заголовок №2 и 3 будут наиболее релевантны ключевой фразе “Переработанный пластик”, а заголовок №3 – для фразы “Вторичный пластик”.

Стоит ли разбирать семантический состав текста и слов для SEO

SEO копирайтинг – целое искусство, важной частью которого является работа с ключевыми словами.

Для решения задач с ключевиками можно использовать разные методы, но метод с TF-IDF – идеальное решение для подготовки нового контента или обновления старого с учетом веса ключевых слов.

Как бы вы ни гнались за идеальными показателям, важно помнить, что текст должен нести пользу тому, кто его читает. Даже идеально выверенный текст может не получить высоких позиций, если вы не проработали структуру и не ответили на запрос пользователя. Поэтому в ваш набор хорошего копирайтера должен состоять не только из формул, но и включать понимание, что текст должен быть полезным для живого читателя и качественным всестороннее.

Последние статьи

Каждую неделю я готовлю для вас интересные и полезные материалы. Здесь представлены только бесплатные статьи, остальные доступны участникам закрытого клуба
Дочитали?
для вас бонус
Осталось 3 бесплатных консультации - аудита вашего сайта. Успейте оставить заявку