Аннотация

Последнее время в сети все чаще стали появляться как списки факторов ранжирования поисковых систем с оценкой их влияния от экспертов, так и полноценные исследования влияния данных факторов.

К сожалению, многие выводы, сделанные в данных исследованиях сложно проверить, так как сами исследования невозможно воспроизвести, как минимум в силу отсутствия доступа к исходным данным.

Поэтому мы решили подготовить и провести свое собственное исследование.
Ниже представлены его результаты и исходные данные для проверки всеми желающим.

Цели

  • Проверить актуальность ряда факторов ранжирования поисковой системы Яндекс, используя современные данные из открытых источников.
  • Выявить корреляции и закономерности, которые можно использовать в практической работе.
  • Оценить статистическую значимость полученных результатов и, исходя из нее, значимость факторов.
  • Используя алгоритмы машинного обучения, построить модели для предсказания позиции и классификации документов на “релевантный” / “не релевантный”.

Результаты

1. На основании…

  • анализа мер центральной тенденции для 35 переменных,
  • корреляционного анализа,
  • определения значимости факторов при использования машинного обучения,

…можно подтвердить гипотезу, что значимыми факторами ранжирования являются:

  • объем и качество текста на странице,
  • количество вхождений запроса в текст страницы и основные элементы разметки,
  • объем сайта и регулярность его обновления,
  • оптимизация страницы для просмотра на мобильных устройствах,
  • количество ссылающихся доменов.

2. Нам удалось построить модель ранжирования с использованием алгоритма Random Forrest, которая на основании всего 13 выбранных переменных абсолютно точно предсказывает ранг в 8.1% случаев, а при допустимой ошибке в 5 - в более чем 50%.

Мы считаем, что подобный результат подтверждает выдвинутую гипотезу, и факторы, выбранные нами в качестве независимых переменных, определенно влияют на ранжирование.

А следовательно, данные факторы требуют обязательного учета при проведении работ по SEO.


Подробный обзор исследования

Построение выборки или отбор запросов для исследования

Так как…

  • нас в первую очередь интересует практическая сторона SEO при работе в конкурентных тематиках,
  • нам необходима достаточно большая выборка для репрезентативности,
  • и, насколько возможно, с меньшим количеством “искажений”,

….мы отобрали 1337 запросов со следующими параметрами:

  • запрос двусловный,
  • точная частотность по wordstat больше 99 и меньше 300 (среднее по всем запросам - 177, медиана - 167),
  • широкая частотность по wordstat меньше 50000 (среднее по всем запросам - 10822, медиана - 6298),
  • стоимость клика в Яндекс Директ больше 1 рубля (среднее по всем запросам - 98, медиана - 49),
  • стоимость клика в Google Adwords больше 1 рубля (среднее по всем запросам - 22, медиана - 16),
  • запрос гео-зависим (по оценке Key Collector).

Для каждого запроса через xml.yandex были получены первые 50 позиций для региона Москва (lr=213).

Всего получилось 66850 результатов, из которых 61962 - уникальных url, 23573 - уникальных доменов.

Сбор и обработка данных

Для каждого url мы получили:

  • код ответа сервера,
  • время загрузки в мс,
  • размер страницы,
  • оценку PageSpeed Insights,
  • оценку PageSpeed Insights для мобильных устройств,
  • оценку Mobile Friendly,
  • количество символов на странице,
  • количество слов на странице,
  • количество уникальных слов до стемминга,
  • количество уникальных слов после стемминга (с использованием mystem от Яндекса),
  • количество слов без учета стоп-слов,
  • количество уникальных слов без учета стоп-слов,

На основании последних 4х пунктов мы рассчитываем:

  • вариативность текста (отношение количества уникальных слов после стемминга к количеству уникальных слов до стемминга (1 - после / до)),
  • водность текста (отношение количества слов после исключения стоп-слов к общему количеству слов (1 - без_стоп_слов / все_слова)).

Для каждой пары url + запрос мы получили:

  • количество точных вхождений в title,
  • количество неточных вхождений в title,
  • суммарное количество вхождений в title,
  • количество точных вхождений в заголовки H,
  • количество неточных вхождений в заголовки H,
  • суммарное количество вхождений в заголовки H,
  • количество точных вхождений в meta description,
  • количество неточных вхождений в meta description,
  • суммарное количество вхождений в meta description,
  • количество точных вхождений в основной текст,
  • количество неточных вхождений в основной текст,
  • суммарное количество вхождений в основной текст.

Для каждого домена мы получили:

  • дату регистрации,
  • дату первого упоминания в веб-архиве,
  • тИЦ,
  • отметку о присутствии в Яндекс.Каталоге,
  • отметку о присутствии в DMOZ,
  • количество Facebook likes для главной страницы,
  • количество плюсов Google+ для главной страницы,
  • количество "поделиться" Вконтакте для главной страницы,
  • количество страниц в индексе Яндекс,
  • количество страниц, попавших в индекс Яндекс за последние 60 дней.

Для половины доменов также были получены данные о внешних ссылках из megaindex.com, из которых мы использовали:

  • количество ссылок,
  • количество уникальных ссылок,
  • количество уникальных анкоров,
  • количество ссылающихся доменов.

Под конец из всей выборки мы исключили наблюдения с ответом сервера отличным от 200 или 301, а также те случаи, где по каким-либо причинам нам не удалось получить информацию о тексте на странице.

В итоге у нас осталось 57925 наблюдений для 35 переменных.

Обзор собранных данных

Ниже представлены распределения всех собранных данных.
Большинство из них в силу своей природы ассиметричны и унимодальны, хотя есть и исключения (данные по “вариативности” и “водности” распределены нормально, а оценки удобства пользования для мобильных устройств - бимодально).
Все распределения представлены без выбросов.

Размер страницы и время загрузки

Объем текста на странице

Вхождения запроса

Вхождения в тело страницы

Вхождения в основные элементы

“Вариативность” и “водность” текста

Распределения возраста сайтов и тематического индекса цитирования

Распределения социальных сигналов

Распределения внешних ссылок

Распределения оценок PageSpeed Insights

Присутствие в каталогах

Распределения количества проиндексированных страниц

Корреляции между переменными

Корреляции с позицией

Как видно на карте и в таблице ниже, ни одна из переменных не обладает ярко выраженной корреляцией с позицией. Что, в принципе, соответствует нашему представлению о том, что ранжирование основано на сочетании факторов.

Переменная Коэф. корреляции Абсолютный коэф. корреляции
usability.m -0.0864316 0.0864316
Размер -0.0770809 0.0770809
D.суммарно -0.0717742 0.0717742
T.суммарно -0.0707980 0.0707980
Слова -0.0696574 0.0696574
Индекс.60 -0.0661504 0.0661504
Домены -0.0648865 0.0648865
G+ -0.0641408 0.0641408
D.неточные -0.0638251 0.0638251
Body.суммарно -0.0617626 0.0617626
Вариативность -0.0617156 0.0617156
H.суммарно -0.0600629 0.0600629
Водность 0.0599668 0.0599668
Индекс -0.0581697 0.0581697
Body.неточные -0.0511652 0.0511652
H.точные -0.0510284 0.0510284
H.неточные -0.0478353 0.0478353
DMOZ -0.0472207 0.0472207
PageSpeed.m 0.0421156 0.0421156
T.неточные -0.0413686 0.0413686
Символы -0.0393955 0.0393955
T.точные -0.0393578 0.0393578
Body.точные -0.0391701 0.0391701
Анкоры -0.0385468 0.0385468
PageSpeed 0.0352125 0.0352125
Уникальные -0.0351062 0.0351062
Ссылки -0.0347211 0.0347211
VK -0.0301793 0.0301793
D.точные -0.0263878 0.0263878
тИЦ -0.0259401 0.0259401
ЯК -0.0232935 0.0232935
Время -0.0171946 0.0171946
FB -0.0168394 0.0168394
Архив -0.0109888 0.0109888
Возраст -0.0059989 0.0059989

Значимые корреляции

Теперь посмотрим на корреляции между всеми переменными.
Отберем все значения с абсолютным коэффициентом > 0.4

Помимо очевидных закономерностей (возраст домена ~ возраст по веб-архиву, количество точных и неточных вхождений ~ суммарное количество вхождений, количество ссылающихся доменов ~ количество ссылок…) можно сделать несколько интересных наблюдений, например:

  • количество различных социальных сигналов и индекс цитирования,
  • количество различных социальных сигналов и количество ссылающихся доменов,
  • количество уникальных анкоров и количество страниц в индексе (в том числе и попавших в индекс за последние 60 дней),
  • оптимизация для мобильных устройств и количество страниц, попавших в индекс за последние время,
  • количество различных социальных сигналов и количество страниц в индексе (в том числе и попавших в индекс за последние 60 дней).

Так же может быть любопытным факт, что общее количество ссылок минимально связано с остальными переменными.

X Y Коэф. корреляции Абсолютный коэф. корреляции
H.суммарно H.неточные 0.8969563 0.8969563
Анкоры Уникальные 0.8926649 0.8926649
Body.суммарно Body.неточные 0.8887095 0.8887095
Архив Возраст 0.8437246 0.8437246
D.суммарно D.неточные 0.8253395 0.8253395
Индекс.60 Индекс 0.8130095 0.8130095
PageSpeed.m PageSpeed 0.7975134 0.7975134
FB тИЦ 0.7454969 0.7454969
T.суммарно T.неточные 0.6971557 0.6971557
H.суммарно H.точные 0.6836198 0.6836198
Слова Символы 0.6817389 0.6817389
Уникальные Индекс.60 0.6270667 0.6270667
Домены Анкоры 0.6141175 0.6141175
Домены Уникальные 0.6002550 0.6002550
Анкоры VK 0.5881823 0.5881823
Домены Индекс.60 0.5793101 0.5793101
Уникальные Индекс 0.5712731 0.5712731
Домены VK 0.5651779 0.5651779
Домены тИЦ 0.5536527 0.5536527
VK тИЦ 0.5408567 0.5408567
Водность Вариативность -0.5382638 0.5382638
Body.суммарно Body.точные 0.5220393 0.5220393
Анкоры Индекс 0.5073357 0.5073357
Анкоры Индекс.60 0.5068508 0.5068508
Слова Размер 0.5045195 0.5045195
Домены Индекс 0.5012934 0.5012934
D.точные T.точные 0.4978906 0.4978906
Уникальные VK 0.4808800 0.4808800
D.суммарно D.точные 0.4676939 0.4676939
Индекс.60 Размер 0.4592928 0.4592928
D.суммарно T.суммарно 0.4419847 0.4419847
D.неточные T.неточные 0.4413918 0.4413918
DMOZ Архив 0.4325290 0.4325290
DMOZ Возраст 0.4286299 0.4286299
ЯК Возраст 0.4149523 0.4149523
T.суммарно T.точные 0.4125422 0.4125422
Домены DMOZ 0.4074140 0.4074140

Анализ мер центральной тенденции

Для анализа и сравнения МЦТ мы разбили все данные на 5 групп в зависимости от позиции url по запросу:

  • 1~10 место - группа A,
  • 11~20 место - B,
  • 21~30 место - C,
  • 31~40 место - D,
  • 41~50 место - E.

Так как большинство полученных нами данных распределено асимметрично и присутствуют выбросы, мы сравниваем и среднее арифметическое и медиану.
Для вхождений в основные элементы страницы, возраста, тИЦ и социальных сигналов мы сравниваем только среднее арифметическое, так как медианы групп идентичны (за счет большой асимметрии в распределении).

Для оценки различия между группами использовался тест Манна — Уитни.
P-значение рассчитывалось для 95% доверительного интервала и округлялось в большую сторону до 4 знака после запятой.

Выводы из анализа

Все исследуемые факторы можно разделить на следующие 4 категории:

1. Явные различия для всех групп:

  • размер страницы,
  • объем текста в символах,
  • объем текста в словах,

с учетом высокого коэффициента корреляции этих параметров, можно говорить просто об объеме текста,

  • суммарное количество вхождений в title,
  • количество неточных вхождений в title,
  • суммарное количество вхождений в заголовки H,
  • количество неточных вхождений в заголовки H,
  • суммарное количество вхождений в meta description,
  • количество неточных вхождений в meta description,
  • суммарное количество вхождений в основной текст,
  • количество неточных вхождений в основной текст,

так как точные вхождения в данную категорию не вошли, а суммарное количество для каждого элемента сильно коррелирует с количеством неточных вхождений, возможно упростить до “суммарного количества вхождений в каждый элемент”,

  • количество страниц в индексе Яндекс,
  • количество страниц, попавших в индекс Яндекс за последние 60 дней,

  • оценка Mobile Friendly,

  • все данные по ссылкам,

но опираться стоит на количество ссылающихся доменов и уникальные анкоры, как на данные с наименьшей дисперсией и наиболее выраженными отличиями по группам,

  • все социальные сигналы,

но тут обязательно следует принять во внимание 1. большую дисперсию данных (кроме G+), 2. сильные корреляции с такими переменным как: страницы в индексе, страницы в индексе за 60 дней, ссылающиеся домены и уникальные анкоры;
иными словами, работа над сайтом в социальных медиа, сказывается на ранжировании положительно, но влияние может быть косвенным, например, за счет лучшей / быстрой индексации и распространения материалов,

  • тИЦ,

но тИЦ мы не считаем фактором ранжирования, а скорее следствием влияния прочих факторов,

  • присутствие в DMOZ.

2. Явные различия для большинства групп, но не для всех:

  • вариативность текста,
  • водность текста,
  • количество точных вхождений в title,
  • количество точных вхождений в основной текст,
  • присутствие в ЯК,

для данных факторов под сомнением различия лишь для некоторых соседних групп, в то время как общая зависимость хорошо прослеживается.

3. Слабо выраженные или отсутствующие различия для большинства групп:

  • количество точных вхождений в заголовки H,
  • количество точных вхождений в meta description,

  • оценка PageSpeed Insights,
  • оценка PageSpeed Insights для мобильных устройств,

данные от PageSpeed Insights, пожалуй, самые странные: с одной стороны, различия для большинства групп выражены слабо, с другой, наблюдается обратная зависимость позиции от оценки оптимизации.

4. Различия между группами отсутствуют:

  • возраст домена с даты регистрации,
  • возраст сайта по веб-архиву,
  • время загрузки.

Графики и таблицы

Размер страницы

Меры центральной тенденции по группам
Группа Среднее Медиана
A 180.8021 95.680
B 174.0666 90.190
C 161.8965 84.910
D 150.5666 79.395
E 138.1461 73.710
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0001

Время загрузки

Меры центральной тенденции по группам
Группа Среднее Медиана
A 764.4407 437.5170
B 758.9405 439.7930
C 744.4421 423.5180
D 750.5789 414.4295
E 731.5758 410.5945
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.5601 - - -
C 0.5601 0.2168 - -
D 0.0259 0.0017 0.348 -
E 0.0002 0.0001 0.0155 0.5601

Объем текста

Объем в символах

Меры центральной тенденции по группам
Группа Среднее Медиана
A 12669.70 9863.0
B 11941.92 9306.0
C 11697.52 8722.0
D 11142.09 8202.5
E 10820.82 7787.5
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0001
Объем в словах

Меры центральной тенденции по группам
Группа Среднее Медиана
A 1634.218 1310
B 1537.897 1210
C 1483.150 1142
D 1427.556 1077
E 1361.558 1015
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0001

Вариативность текста

Меры центральной тенденции по группам
Группа Среднее Медиана
A 0.1070449 0.1024629
B 0.1029820 0.0976497
C 0.1015776 0.0971014
D 0.1002098 0.0946858
E 0.0980036 0.0924059
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.063 - -
D 0.0001 0.0002 0.063 -
E 0.0001 0.0001 0.0001 0.0019

Водность текста

Меры центральной тенденции по группам
Группа Среднее Медиана
A 77.55871 77.57682
B 77.85641 77.90467
C 77.96132 77.94737
D 78.10232 78.13177
E 78.33615 78.40092
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0002 - - -
C 0.0001 0.3882 - -
D 0.0001 0.0102 0.0658 -
E 0.0001 0.0001 0.0001 0.0102

Вхождения запроса в элементы страницы

Title - точные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 0.2508082
B 0.2318103
C 0.2239854
D 0.2141179
E 0.2057158
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0168 - - -
C 0.0002 0.3071 - -
D 0.0001 0.006 0.1534 -
E 0.0001 0.0001 0.0044 0.3071
Title - неточные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 0.5445806
B 0.5237931
C 0.5086715
D 0.4864653
E 0.4683280
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0432 - - -
C 0.0002 0.1093 - -
D 0.0001 0.0001 0.0115 -
E 0.0001 0.0001 0.0001 0.0585
Title - суммарное количество вхождений

Меры центральной тенденции по группам
Группа Среднее
A 0.7944426
B 0.7548226
C 0.7319588
D 0.6997913
E 0.6726957
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0052 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0028
Заголовки H - точные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 0.7260511
B 0.6936054
C 0.5749644
D 0.5061363
E 0.4398307
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.4913 - - -
C 0.0490 0.1606 - -
D 0.0001 0.0007 0.1606 -
E 0.0001 0.0001 0.0004 0.1606
Заголовки H - неточные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 1.633810
B 1.495584
C 1.349893
D 1.189913
E 1.077554
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0003 - - -
C 0.0001 0.0002 - -
D 0.0001 0.0001 0.0003 -
E 0.0001 0.0001 0.0001 0.0019
Заголовки H - суммарное количество вхождений

Меры центральной тенденции по группам
Группа Среднее
A 2.313137
B 2.134516
C 1.872997
D 1.646062
E 1.464870
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0002 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0016
Meta description - точные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 0.1680087
B 0.1574214
C 0.1644812
D 0.1513857
E 0.1382430
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.2769 - - -
C 0.2769 0.8432 - -
D 0.0013 0.2769 0.2174 -
E 0.0001 0.0034 0.002 0.2769
Meta description - неточные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 0.5551248
B 0.5256138
C 0.4933402
D 0.4704105
E 0.4447133
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0005 - - -
C 0.0001 0.0005 - -
D 0.0001 0.0001 0.0005 -
E 0.0001 0.0001 0.0001 0.2341
Meta description - суммарное количество вхождений

Меры центральной тенденции по группам
Группа Среднее
A 0.6181169
B 0.5821564
C 0.5519362
D 0.5188663
E 0.4818261
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0205
Тело страницы - точные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 3.093474
B 2.869187
C 2.759768
D 2.445053
E 2.309739
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0425 - - -
C 0.0007 0.1646 - -
D 0.0001 0.002 0.0611 -
E 0.0001 0.0001 0.0001 0.0041
Тело страницы - неточные вхождения

Меры центральной тенденции по группам
Группа Среднее
A 13.10919
B 12.39537
C 11.68232
D 11.16658
E 10.70722
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0041 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0047 -
E 0.0001 0.0001 0.0001 0.0047
Тело страницы - суммарное количество вхождений

Меры центральной тенденции по группам
Группа Среднее Медиана
A 16.20267 10
B 15.26455 10
C 14.44209 9
D 13.61163 8
E 13.01696 8
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0014 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0015 -
E 0.0001 0.0001 0.0001 0.0015

Возраст домена с даты регистрации

Меры центральной тенденции по группам
Группа Среднее
A 8.594000
B 8.332844
C 8.249508
D 8.289167
E 8.368175
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0457 - - -
C 0.0025 0.9044 - -
D 0.0532 0.9044 0.9044 -
E 0.8118 0.818 0.1501 0.8364

Возраст сайта по веб-архиву

Меры центральной тенденции по группам
Группа Среднее
A 8.445925
B 8.211144
C 8.088694
D 8.117999
E 8.087248
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0472 - - -
C 0.0001 0.2774 - -
D 0.0010 0.9842 1 -
E 0.0001 0.4234 1 1

тИЦ

Меры центральной тенденции по группам
Группа Среднее
A 3217.1401
B 2590.7092
C 2106.8713
D 1370.5738
E 908.1926
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0001

Присутствие в каталогах

Яндекс.Каталог

Меры центральной тенденции по группам
Группа Среднее
A 0.5248980
B 0.5054254
C 0.4937191
D 0.4820901
E 0.4713043
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0116 - - -
C 0.0001 0.2246 - -
D 0.0001 0.0023 0.2246 -
E 0.0001 0.0001 0.0033 0.2246
DMOZ

Меры центральной тенденции по группам
Группа Среднее
A 0.2617267
B 0.2319153
C 0.2119033
D 0.2043123
E 0.1947826
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.001 - -
D 0.0001 0.0001 0.1558 -
E 0.0001 0.0001 0.0037 0.1412

Социальные сигналы

Facebook likes

Меры центральной тенденции по группам
Группа Среднее
A 18222.808
B 26313.601
C 29504.846
D 10675.622
E 2423.576
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0005 -
E 0.0001 0.0001 0.0001 0.0085
Плюсы Google+

Меры центральной тенденции по группам
Группа Среднее
A 58.74951
B 50.81975
C 46.71913
D 42.91659
E 36.44806
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0067 -
E 0.0001 0.0001 0.0001 0.0144
“Поделиться” VK

Меры центральной тенденции по группам
Группа Среднее
A 897.4697
B 815.2527
C 695.0995
D 578.1022
E 550.7025
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0012

Страницы в индексе

Меры центральной тенденции по группам
Группа Среднее Медиана
A 9016.821 3360.0
B 8466.883 2993.0
C 7846.965 2729.0
D 7215.995 2418.5
E 6791.522 2288.0
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0019 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0003 -
E 0.0001 0.0001 0.0001 0.0572

Страницы попавшие в индекс за последние 60 дней

Меры центральной тенденции по группам
Группа Среднее Медиана
A 2375.300 123
B 2171.661 97
C 1971.158 79
D 1729.941 60
E 1540.330 54
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0003 - - -
C 0.0001 0.0017 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.006

Данные по внешним ссылкам

Общее количество ссылок

Меры центральной тенденции по группам
Группа Среднее Медиана
A 1117091.3 10191.5
B 965838.1 5707.0
C 982904.1 4137.0
D 688784.1 3509.0
E 462511.0 2762.0
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0114 - - -
C 0.0001 0.0125 - -
D 0.0001 0.0001 0.0348 -
E 0.0001 0.0001 0.0001 0.0317
Уникальные ссылки

Меры центральной тенденции по группам
Группа Среднее Медиана
A 18687.64 984.5
B 19194.63 754.0
C 17984.81 639.0
D 17006.17 541.0
E 15154.84 494.0
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0267 - - -
C 0.0001 0.0148 - -
D 0.0001 0.0001 0.0166 -
E 0.0001 0.0001 0.0001 0.0483
Уникальные анкоры

Меры центральной тенденции по группам
Группа Среднее Медиана
A 10987.600 432
B 11397.295 348
C 10479.840 286
D 9675.507 250
E 8366.927 224
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0158 - - -
C 0.0001 0.0105 - -
D 0.0001 0.0001 0.0125 -
E 0.0001 0.0001 0.0001 0.0202
Ссылающиеся домены

Меры центральной тенденции по группам
Группа Среднее Медиана
A 2663.880 447
B 2569.246 356
C 2355.427 306
D 2054.228 265
E 1878.292 239
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0015 - - -
C 0.0001 0.0012 - -
D 0.0001 0.0001 0.0012 -
E 0.0001 0.0001 0.0001 0.0133

Данные PageSpeed Insights

Оценка для персональных компьютеров

Меры центральной тенденции по группам
Группа Среднее Медиана
A 63.20696 67
B 63.59936 68
C 64.19958 68
D 64.06971 68
E 64.79647 68
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0582 - - -
C 0.0001 0.1733 - -
D 0.0008 0.3291 0.622 -
E 0.0001 0.0001 0.0582 0.017
Оценка для мобильных устройств

Меры центральной тенденции по группам
Группа Среднее Медиана
A 54.84832 58
B 54.96021 58
C 55.67651 58
D 55.65983 58
E 56.39704 59
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.6007 - - -
C 0.0035 0.052 - -
D 0.0038 0.052 0.9528 -
E 0.0001 0.0001 0.0069 0.0068
Оценка удобства пользования на мобильных устройствах

Меры центральной тенденции по группам
Группа Среднее Медиана
A 85.13028 96
B 83.50030 94
C 82.67636 92
D 81.54035 89
E 80.78954 84
P-value различий по тесту Манна — Уитни
Группы A B C D
B 0.0001 - - -
C 0.0001 0.0001 - -
D 0.0001 0.0001 0.0001 -
E 0.0001 0.0001 0.0001 0.0005

Использование машинного обучения

Подготовка

На основании обзора данных, выводов из анализа МЦТ и используя алгоритмы машинного обучения мы попробовали построить на наших данных две модели: для ранжирования документов и классификации. В виду большой дисперсии всех данных классифицировать мы пробовали на группы A (1-10 место) и E (41-50 место).

Для этого мы предварительно исключили лишние переменные с сильной корреляций между собой и переменные с сильной дисперсией, а из оставшихся выбрали те, что обладают наиболее выраженными изменениями по группам.

Получился вот такой список:

  • количество слов,
  • вариативность,
  • водность,
  • суммарное количество вхождений в title,
  • суммарное количество вхождений в meta description,
  • суммарное количество вхождений в body,
  • присутствие в ЯК,
  • присутствие в DMOZ,
  • количество проиндексированных страниц,
  • количество проиндексированных страниц за 60 дней,
  • плюсы G+,
  • количество ссылающихся доменов,
  • оптимизация для мобильных устройств.

Модели строились как с использованием данных о ссылках (в нашем случае - количества ссылающихся доменов), так и без них. Всего было использовано:

  • 23268 наблюдений без учета данных о ссылках (12949 - с учетом) для классификации (40% всех данных).
  • 57925 (32078) для модели алгоритма ранжирования.

Для решения задачи классификации все данные были разделены случайным образом на обучающую выборку - 80% и тестовую - 20%.

Для решения задачи ранжирования - с сохранением групп запросов на обучающую выборку - 60% и тестовую - 40%.

Результаты

Классификация

Наибольшая точность классификации была достигнута с использованием алгоритма Random Forrest и достигла 67% при учете данных о внешних ссылках (без данных о ссылках - 65%).

Сложно назвать это выдающимся результатом, так что прейдем к ранжированию, там нас ждут более интересные результаты.

Ранжирование

Наибольшая точность при распределении рангов была достигнута также с использованием алгоритма Random Forrest и при учете данных о внешних ссылках.

Коэффициент корреляции предсказанного и реального ранга оказался равен 0.5059063

Средняя ошибка оценки ранга - 7.003428

Результаты предсказания и % соответствия действительности.

Точность предсказаний ранга в зависимости от допустимой ошибки
Допустимая ошибка % верных предсказаний
0 8.096841
1 20.105820
2 30.014430
3 38.832772
4 46.496713
5 53.615520
6 59.363476
7 64.670515

То есть наша модель абсолютно точно предсказывает ранг в 8.1% случаев, а при допустимой ошибке в 5 - в более чем 50%.

Оценка значения переменных.

Переменные в порядке убывания значимости
Переменная Относительная значимость для предсказания (%)
Количество слов 14.368488
Вариативность 13.788646
Водность 13.497076
Количество ссылающихся доменов 10.265125
Количество проиндексированных страниц 9.952054
Суммарное количество вхождений в body 9.867523
Количество проиндексированных страниц за 60 дней 8.147137
Оптимизация для мобильных устройств 7.903018
Плюсы G+ 5.258072
Суммарное количество вхождений в title 2.367771
Суммарное количество вхождений в meta description 2.242351
Присутствие в ЯК 1.300520
Присутствие в DMOZ 1.042219

Итоги и дальнейшие перспективы

Представители поисковых систем заявляют о влиянии на выдачу сотен или даже тысяч факторов ранжирования.
Как видно, учитывая для ряда запросов всего несколько из них, с определенной вероятностью можно сделать достаточно точный прогноз результатов.

Мы не ставили целью своего исследования анализ всех возможных факторов, но теперь, когда результат превзошел ожидания, мы планируем расширить список независимых переменных и выяснить, позволит ли это улучшить нашу способность к прогнозу, а заодно и понимание работы поисковых систем.

В дальнейших исследованиях мы планируем:

  1. расширить выборку запросов (увеличить количество, добавить запросы с большей частотностью ~ конкурентностью, добавить гео-независимые запросы, выделить коммерческие и информационные запросы),
  2. расширить список исследуемых факторов (например, вхождение запроса в анкоры ссылок, динамику изменения количества ссылок, количество релевантных страниц на сайта по запросу,…)
  3. искать взаимодействие между переменными (возможно, где-то лучше будет перейти от абсолютных значений к относительным или от количественным переменных к номинативным),
  4. исследовать влияние одних факторов, изолировав влияние ряда других (исследовать X при равных Y и Z).

Исходные данные

Запросы
Собранные данные


Станислав Моллекер
http://molleker.ru
https://www.facebook.com/stanislav.molleker