Для оценки количества вхождения ключей в текст существует несколько способов, и один из них – оценка важности слова в контексте документа. Для этого используется статистическая мера TF-IDF. На этой странице вы узнаете, что такое TF IDF, как данный показатель рассчитывается, для чего использовать результаты и найдете пример расчета частоты слов.
TF-IDF это аббревиатура от английских терминов:
Начало статьи будет идеальным местом для того, чтобы предложить вам подписаться на мой ТГ канал. Там много авторского контента про SEO и актуальные технологии, а главное — честно, без купюр и манипуляций мнением. Ссылка вот — https://t.me/seomikhaylov
TF IDF часто называют показателем частотности слов, то есть сколько раз то или иное слово встречается в документе. Это не совсем верное определение, так как TF-IDF отражает соотношение вхождений к объему. Например, 2 вхождения термина на 100 слов будут иметь показатель TF-IDF ниже, чем тех же два вхождения, но в документе на 150 слов.
TF-IDF простыми словами – статистический показетель, как часто слово упортребляется в документе, который учитывает длину текста и используется для проверки соответствия текста поисковому запросу.
Ранжирование результатов в поисковой выдаче осуществляется по разным критериям, и вхождение слов – один из главных. Релевантность документа поисковому запросу напрямую влияет на позиции. Поэтому любая статья, создаваемая для органического трафика, желательно, должна быть написана с использованием релевантных слов в нужном количестве.
Метод TF-IDF помогает с оптимизацией новых и старых страниц. Расчет вхождений полезен для подготовки материала в любой нише. Например, результаты расчета можно использовать для следующих задач:
Например, если на вашем сайте уже есть страница не в ТОПе выдачи, которая по всем остальным метрикам достаточно качественная. Расчет TF-IDF и последующее добавление/удаление слов на странице способно дать желаемый рост позиций. Так как поисковики, например, Яндекс или Google, оценивают содержание, в том числе по употребленным на странице словам.
Работать с TF-IDF можно как на русском, так и на любом другом языке. Не обязательно знать язык в совершенстве, чтобы использовать данный метод для расчета веса слов. Например, вы можете использовать данный метод для подготовки контента на английском, чтобы избежать так называемого “Keywords stuffing”, то есть переспама по ключам.
Читать всю статью и самостоятельно выискивать слова не требуется. Достаточно использовать специальные формулы расчета. Они работают для заданных ключевых слов в заданном тексте или в коллекции документов. Это значит, что для расчета вам потребуется знать два ключевых параметра:
В случае со статьей для сайта, узнать можно с помощью Word, Google Docs или любого другого современного редактора текста для документов. Например, вы можете использовать функцию поиск слова на странице:
Для подсчета вхождений в заголовках конкурентов, вы можете собрать их заголовки, то есть параметры “Title”, в одной таблице и далее автоматически посчитать повторы в Excel или Google Spreadsheets.
Для длины текста также доступен автоматический калькулятор. Например, в Google Docs вы легко можете узнать общую длину:
Когда вы узнали необходимые параметры, можно приступать к расчету, для этого используйте формулу:
TF = (количество повторений) разделенное на (общий объем текста)
Далее разберем реальный пример, пока делимся формулой для расчета IDF.
Это более сложное вычисление, так как включает в себя логарифм. Этот метод позволяет учесть вес слова в зависимости от его частоты в коллекции текстов. В результате вы узнаете релевантность документа по нужному вам ключевому запросу. Определять вес таким методом без специальных инструментов довольно сложно, так как коллекцией является весь Интернет. Монстр Оптимизации от Михайлов Диджитал позволяет удобно расчитать TF-IDF:
Монстр Оптимизации доступен всем участникам SEO Гильдии.
Далее мы рассмотрим ручной расчет IDF на примере ограниченной коллекции, то есть для задачи, когда вам известно количество документов. В этом случае лучше разложить подсчет IDF на два шага:
Существуют специализированные сервисы для расчета показателя. Например – https://calculatorlib.com/ru/tf-idf-calculator. Достаточно скопировать свой документ и указать ключевое слово. Калькулятор рассчитает показатели самостоятельно:
Решение реальной задачи – идеальный способ, чтобы не просто показывать, как рассчитывается TF-IDF, но и для полного понимания с вашей стороны. Поэтому рассмотрим на реальном примере трёх оценки следующих ключевых запросов:
Для этих запросов, для примера, мы подготовили 3 разных варианта заголовков с различной комбинацией ключевиков:
В скобках указана длина текста, в вашем случае длина может быть существенно больше. Например, при подсчете, как часто встречается фраза в статье, документ может содержать и 1000, 2000 слов, и даже больше.
Для удобства сведем все данные в одну таблицу. Мы учитываем только те уникальные слова в документе, которые нам необходимо посчитать. Используем в подсчете только леммы – исходные формы в именительном падеже и единственном числе:
Вариант заголовка | переработанный | пластик | вторичный |
1 | 1 | 1 | 0 |
2 | 1 | 2 | 0 |
3 | 1 | 2 | 1 |
Всего повторений | 3 | 5 | 1 |
Так как в нашем примере нет ключа “Купить”, не учитываем его в подсчете, хоть слово и употребляется в заголовках. Также в нашем примере нет глагола, но вы также можете подсчитать ключевик с глаголом. В этом случае необходимо ориентироваться на инфинитив, то есть на глагол, отвечающий на вопрос “Что делать?”.
Расчёт TF для заданных лемм:
Вариант заголовка | Первый | Второй | Третий |
TF (пластик) | 0,2 | 0,33 | 0,33 |
TF (переработанный) | 0,2 | 0,166 | 0,166 |
TF (вторичный) | 0 | 0 | 0,166 |
Для расчёта IDF вычислим DF – то есть количество повторений в документах, в нашем случае в трёх заголовках. Для этого делим 3 (число текстов) на количество упоминаний необходимых терминов:
“Пластик” и “переработанный” получили единицу, так как в трех заголовках есть их употребление. Вторичный получил “0,33” так как их трех вариантов он есть лишь в одном (1/3).
Отличие DF от TF, что в DF учитывается не фактическое количество повторений, а количество текстов, где было это повторение. Например, если слово повторилось 3 раза в одном тексте, для DF это “1”, так как важен сам факт наличия термина в документе, а не его количество.
Для расчета IDF достаточно разделить единицу на полученный показатель DF, в нашем примере:
Этот метод позволяет определять IDF без сложных расчетов. А также легко и наглядно демонстрирует, что чем реже встречается термин в коллекции документов, тем его показатель IDF выше.
Финальный штрих в этой концепции – расчет TFIDF, то есть целевого показателя для определения значимости каждого слова. Для этого необходимо перемножить TF на IDF:
Вариант заголовка | Первый | Второй | Третий |
TF-IDF (пластик) | 0,2 | 0,33 | 0,33 |
TF-IDF (переработанный) | 0,2 | 0,166 | 0,166 |
TF-IDF (вторичный) | 0 | 0 | 0,502 |
Таким образом вы можете посчитать вес слова независимо от того, сколько у вас документов в коллекции. То есть вы вычислите не просто количество раз, сколько встречаются те или иные слова, но и посчитаете вес. Применять такой подход для SEO можно лишь в части случаев, когда ваш ключевой запрос состоит из одного слова.
Если ваш запрос состоит из нескольких слов, например “переработанный пластик”, а не просто “пластик”, то воспользуйтесь простым алгоритмом для подсчета – сложите показатели для отдельных слов. Например, для наших изначальных заголовков:
Мы складываем показатели, например “Переработанный” – 0,2 и “Пластик” – 0,2, в сумме дадут 0,4. Общий расчет веса ключевых фраз в заголовках:
Ключевая фраза | Заголовок 1 | Заголовок 2 | Заголовок 3 |
переработанный пластик | 0,4 | 0,496 | 0,496 |
пластик | 0,2 | 0,66 | 0,66 |
вторичный пластик | 0,2 | 0,66 | 1,162 |
Этот упрощенный пример на коротком тексте – модель подхода, как вычислить наиболее релевантный текст для ключевых запросов. Вы можете масштабировать его на больший объем, но в нашем примере заголовок №2 и 3 будут наиболее релевантны ключевой фразе “Переработанный пластик”, а заголовок №3 – для фразы “Вторичный пластик”.
SEO копирайтинг – целое искусство, важной частью которого является работа с ключевыми словами.
Для решения задач с ключевиками можно использовать разные методы, но метод с TF-IDF – идеальное решение для подготовки нового контента или обновления старого с учетом веса ключевых слов.
Как бы вы ни гнались за идеальными показателям, важно помнить, что текст должен нести пользу тому, кто его читает. Даже идеально выверенный текст может не получить высоких позиций, если вы не проработали структуру и не ответили на запрос пользователя. Поэтому в ваш набор хорошего копирайтера должен состоять не только из формул, но и включать понимание, что текст должен быть полезным для живого читателя и качественным всестороннее.