Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов


Вот простой способ категоризировать 100 тысяч ключевых слов менее чем за несколько часов фактического рабочего времени.

Я ранее писал о том, почему исследование ключевых слов не умерло. Ключевой темой, которую я постоянно делаю, является то, что категоризация ключевых слов невероятно важна для того, чтобы быть полезными, чтобы вы могли оптимизировать по темам и кластерам, а не по отдельным ключевым словам.

Мои документы по исследованию ключевых слов часто превышают 20-50 тысяч ключевых слов, которые обычно разбиты на две, три или иногда более категорий, отражающих рассматриваемую таксономию сайта.

Как видите, я разделил ключевые слова на 4 фильтруемых столбца, что позволяет вам выбрать определенную «тему» ​​и просмотреть общий объем поиска по когорте ключевых слов. Чего вы не видите, так это того, что существует более 8 тысяч ключевых слов.

Несколько лет назад я классифицировал это довольно вручную, используя несколько простых формул, где мог. Принял века. Поэтому я сделал инструмент категоризации ключевых слов, который мне помог. Он построен с использованием php и все еще довольно примитивен, но он ускорил время, которое я могу провести исследование ключевых слов и распределить его по категориям с пары дней до 12-15 часов, в зависимости от количества ключевых слов.

Я любитель тренда. Итак, в ту минуту, когда все оптимизаторы начали кричать о том, насколько хорош Python, я, конечно же, поддержал эту идею. Моя цель – еще больше упростить процесс исследования ключевых слов, и мне нравится изучать такой адаптируемый язык. Но потом я наткнулся на это видео Дэвида Соттимано, где он представил BigML в мою жизнь. Представьте себе онлайн-сервис машинного обучения с возможностью перетаскивания; систему может использовать буквально каждый. Это BigML.

Я все еще преследую свою конечную цель – освоить Python, но тем временем BigML предоставил мне некоторые очень интересные идеи, которые уже ускорили мою категоризацию ключевых слов. Цель этой статьи – дать вам некоторые идеи об использовании уже существующих (бесплатных) технологий для более эффективной работы.

Прежде чем мы углубимся в детали, сделаем небольшое примечание: BigML – это бесплатный инструмент. Существует ежемесячная плата, если вы хотите обрабатывать большой объем данных или хотите добавить функции (например, более одного человека в учетной записи одновременно). Однако для достижения результатов в этой статье уровня бесплатного пользования будет более чем достаточно. Фактически, если вы не являетесь серьезным специалистом по обработке данных и вам не нужно анализировать МНОГО переменных, вам всегда будет достаточно уровня бесплатного пользования.

Шаг 1 – Получение данных обучения

В этом примере мы представим, что проводим исследование ключевых слов для River Island – крупного розничного продавца одежды в Великобритании для всех моих друзей через пруд. (Если вы читаете это и работаете на River Island, я не буду проводить полное исследование ключевых слов.)

Если мы посмотрим на таксономию участков Ривер-Айленда, мы увидим следующее:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

В рамках этого руководства мы просто проведем исследование ключевых слов для мужчин и сосредоточимся на следующих нескольких товарных позициях:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Предположим, гипотетически я хочу сгруппировать свои ключевые слова по следующим категориям и подкатегориям:

Топы > Пальто и куртки

> Футболки и жилеты

Низ > Джинсы

> Брюки и брюки чинос

Сначала мы сделаем «низ».

Возьмите «джинсовый» URL для River Island и подключите его к SEMRush:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Отфильтруйте по 20 наиболее популярным ключевым словам и экспортируйте:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Я выбрал топ-20, потому что часто, помимо этого, вы начинаете ранжироваться по некоторым нерелевантным, а иногда и довольно странным ключевым словам. Да, River Island занимает 58-е место по этому критерию:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Мы не хотим, чтобы эти термины влияли на нашу модель обучения.

Для «джинсов», когда мы фильтруем ключевые слова в позициях 1-20 и экспортируем, мы получаем 900 с лишним ключевых слов. Перетащите их в электронную таблицу и добавьте заголовки «категория 1» и «категория 2». Затем вы отбросите «низ» в категорию 1, а «джинсы» – в категорию 2 и заполните:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Это начало ваших «обучающих данных» машинного обучения. Вероятно, здесь уже достаточно данных, но я предпочитаю быть внимательным, поэтому я также собираюсь взять все ключевые слова от компании, которая, как я знаю, занимает высокие позиции по каждому ключевому слову, основанному на одежде, – ASOS.

Я собираюсь повторить процесс для их страницы джинсов:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

После того, как я экспортировал полученные ключевые слова ранжирования из SEMRush, добавил их в свою электронную таблицу, опустил категории и удалил дубликаты из списка, у меня есть 1300 ключевых слов для «Низ»> «Джинсы».

Я собираюсь повторить процесс для:

Низ> Брюки и брюки чинос

Топы> Пальто и куртки

Топы> Футболки и жилеты

Для этих трех я не стал помещать домен River Island в SEMRush, так как ASOS ранжируется по такому количеству ключевых слов, что данных для моей модели обучения будет достаточно.

После быстрого поиска и замены, чтобы избавиться от брендовых ключевых слов:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

И если исключить дублирование, у меня осталось почти 8000 ключевых слов, которые разделены на «Низ» и «Топы» на первом уровне и «Джинсы» и «Брюки / брюки чинос» на втором уровне.

Совет – вам может потребоваться использовать функцию обрезки, чтобы избавиться от любых пробелов после поиска и замены, поскольку в противном случае этот лист будет загружен с ошибками, когда мы будем использовать его в качестве данных для обучения:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Время, потраченное на данный момент: 5 минут

Вы, конечно же, продолжите делать это для всех продуктов River Islands и во столько категорий, сколько потребуется. Если бы вы занимались мужскими и женскими упражнениями, они, вероятно, были бы первой категорией. Тогда у вас, возможно, будет четвертая категория, которая разбивает такие вещи, как «куртки», на такие предметы, как «пуховики» и «кожаные куртки».

Если вы изо всех сил пытаетесь визуализировать категории, которые могут вам понадобиться, я скоро напишу сообщение об этом. Иногда это просто здравый смысл, но есть также программа машинного обучения, которая может помочь и в этом, если вам это нужно:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Шаг 2. Обучение модели машинного обучения

Круто – у нас есть список из 8000 ключевых слов без брендов, которые были отнесены к категории за 5 минут.

Сохраните файл как CSV и перейдите в BigML и зарегистрируйтесь. Это бесплатно.

Теперь мы выполним следующие невероятно простые шаги, чтобы научить программу машинного обучения классифицировать ключевые слова.

  1. Перейдите на вкладку источников и загрузите данные о тренировках:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов
  1. После загрузки щелкните файл, чтобы открыть настройки:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов
  1. Щелкните «Настроить источник данных» и убедитесь, что для категорий задано «категориальное»:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

В большинстве случаев остальные настройки подойдут. Если вы хотите узнать больше о том, что делают все настройки, я бы порекомендовал вам посмотреть образовательный канал BigML на YouTube. здесь.

  1. Закройте настройки «Настроить источник» и нажмите кнопку «Настроить набор данных». Затем снимите флажок «Категория 2»:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Нажмите кнопку «Создать набор данных»:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Хотя, прежде чем вы это сделаете, переименуйте «имя набора данных» во что-то вроде ML Blog Data (Категория 1).

  1. Выберите новый набор данных на вкладке «наборы данных»:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов
  1. Это снег «Токенизированный» все ваши ключевые слова. Отсюда вы можете обучать так много интересных моделей, но для целей этой статьи мы будем делать самые простые. Перейдите к «контролируемой модели одним щелчком мыши»:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

После завершения вычислений вы увидите такое дерево решений:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Опять же, я не собираюсь вдаваться в подробности, что вы можете с этим делать, но то, что по сути сделано, представляет собой серию если утверждения, основанные на данных, которые вы ему предоставили, которые он будет использовать для определения вероятности категории.

Например, кружок, на который я наведен на изображении, представляет собой путь принятия решения со следующими атрибутами – если ключевое слово не содержит «джинсы» или «брюки», это, вероятно, будет «верхний» с оценкой достоверности 85,71. %.

На самом деле вы можете создать нечто, называемое «ансамблевой моделью», которая будет еще более точной. Вы также можете разделить данные и запустить контролируемый тест, чтобы увидеть, насколько они будут точными, прежде чем использовать их. Если вы хотите узнать об этом больше, свяжитесь со мной или прочтите документацию на сайте.

Итак, мы создали модель для категоризации ключевых слов в первую категорию. Теперь нам нужно сделать то же самое для второй категории.

Вернитесь к своим источникам и снова выберите набор тренировочных данных:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Повторите шаги, описанные выше, но на этот раз снимите флажок «Категория 1» при настройке набора данных:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Как и раньше, создайте контролируемую модель одним щелчком мыши:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Вуаля – ваше второе дерево решений:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Итак, теперь у нас есть 2 обученные модели, которые будут классифицировать ваши ключевые слова с помощью машинного обучения с довольно высокой степенью точности.

Время, потраченное на данный момент: 10 минут (может быть, час, если вы просмотрели все категории товаров на веб-сайте River Islands)

Получение остальных ваших ключевых слов

Мы только обучили модель покрывать 2 категории и 4 подкатегории. Предполагая, что вы обучили его работе с каждым продуктом на веб-сайте River Island (что, скорее всего, займет у вас час или два максимум. Возможно, вы даже получите виртуального помощника, который сделает это за вас и поможет вам), остальная часть вашего исследования ключевых слов будет быть таким простым.

Все, что я собираюсь сделать сейчас, это подключить следующие домены конкурентов в SEMRush на уровне домена и экспортировать ключевые слова для ранжирования всего их сайта (для пояснения, я не собираюсь вдаваться в каждую папку продукта, как я делал с данными обучения) :

https://www.superdry.com/
https://www.topman.com/
https://www.ralphlauren.co.uk/
https://www.burton.co.uk/

И я мог продолжать.

После того, как я вычленил все ключевые слова на этих сайтах и ​​избавился от брендированных ключевых слов, у меня осталось около 100 тысяч ключевых слов без категорий.

Я также могу использовать некоторые стандартные методы исследования ключевых слов, такие как использование объединяющих слов и планировщика ключевых слов или проводника ключевых слов Ahrefs, чтобы получить еще больше предложений по ключевым словам. Прелесть в том, что нам не нужно тратить много времени на то, чтобы убедиться, что экспортируемые ключевые слова классифицируются правильно. Мы можем буквально просто подключить домены и ключевые слова и экспортировать.

Затем вы сбросите этот огромный уродливый список без категорий в таблицы Google:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Время, потраченное до сих пор: 25 минут (или час и 25 минут, если у вас есть все категории товаров с веб-сайта River Islands)

Использование API BigML для категоризации ключевых слов

Получите надстройку BigML на листах Google:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Вам нужно будет ввести свое имя пользователя и ключ API, но вы легко найдете их на панели инструментов BigML и в настройках.

Теперь начинается самое интересное.

  1. Выделите массив, который необходимо классифицировать, и выберите обученную модель, которую хотите использовать. В этом случае я использую категорию 1 (на данный момент я думаю, что мы можем делать только одну категорию за раз. Я не понял, как работать с обеими, поэтому мы обучили две разные модели):
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Затем нажмите «предсказать» и отпустите:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Это может занять некоторое время, в зависимости от того, сколько у вас ключевых слов, но, по крайней мере, вы можете справиться с некоторыми другими задачами. Вы заметите, что это также дает оценку вероятности. Я обычно фильтрую все, что меньше 50%, и удаляю их. У меня 100 000 ключевых слов, я не пропущу несколько лишних.

  1. Затем мы делаем копию листа, удаляем два столбца и делаем то же самое для категории 2:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов
  1. После того, как у нас будут обе категории и будут удалены ключевые слова с низким «показателем достоверности», вам просто нужно очистить форматирование, а затем запустить vlookup, чтобы собрать их вместе:
Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Запустите столько категорий, сколько вам нужно, а затем возьмите любые другие важные данные для своего окончательного документа по исследованию ключевых слов:

Как использовать машинное обучение (если вы не умеете кодировать) для исследования ключевых слов

Некоторые заключительные примечания

Итак, у нас есть простой способ классифицировать 100 тысяч ключевых слов менее чем за несколько часов фактического рабочего времени (я имею в виду, что вам придется подождать, пока ML перебирает ключевые слова одно за другим, но вы этого не сделаете). будет работать).

  • Я еще не нашел способа сделать и то, и другое одновременно, но думаю, что способ сделать это есть.
  • Модель, которую мы использовали, не так точна, как некоторые другие варианты движка. Например, использование ансамблевой модели даст лучшие результаты, особенно если обучающая модель была меньше, но ее немного сложнее настроить.
  • Вы также можете использовать движок для поиска категорий и тесно связанных тем. Но это для другого поста.

Это довольно простой, но удивительно мощный и действительно хороший вводный курс в машинное обучение. Веселиться!


Мнения, выраженные в этой статье, принадлежат приглашенному автору и не обязательно Search Engine Land. Список штатных авторов здесь.