?

Log in

No account? Create an account
Ребятам о вордстате - Denis
December 26th, 2008
03:52 pm

[Link]

Previous Entry Share Next Entry
Ребятам о вордстате
Поскольку мне надоело повторять на разные лады одно и то же, сведу воедино и закрою тему аборта и оружия. По крайней мере, для нормальных людей ― а остальным уже ничто не поможет.

Исходные данные: группа товарищей обнаружила, что количество запросов 'сделать аборт', 'купить оружие' и т.п. резко выросло в октябре-ноябре. Ну и далее по накатанной, включая мнение экспертов ИА REGNUM в новостях.

Наша задача ― научиться делать правильные выводы по этой статистике.

Лирическое введение

Прежде всего, это не курс «Введение в вордстат» ― я не буду учить им пользоваться, а расскажу, куда смотреть, чтобы правильно интерпретировать количество запросов. Сначала теория, а потом на практике разберем этот 'аборт' с 'оружием'.

В введении же должны рассказывать совсем о других вещах: откуда берется эта статистика; про синтаксис запросов; что статистика запроса включает статистику всех подзапросов; за что и на сколько банят в вордстате (а там на редкость дурная баннилка) и где смотреть его статистику, после того как вас забанили; почему баранину не стоит рекламировать по запросу 'баранина'; что это за слова в правой колонке; рассказывают, что запросы в правой колонке строятся как раз к каждому запросу, а не к группе запросов; почему в «что еще искали» часто проскакивает всякая фигня; почему у 'киркоров' и 'пугачева' правая колонка идентична, а с запросом 'реакция манту' часто ищут 'хачапури', 'чахобили' и 'узбекский плов'.

Впрочем, для понимания этого текста знание всех основ не потребуется ― достаточно только примерно понимать, что показывает вордстат. Опираться буду на здравый смысл.

Теперь поехали.

Из чего вообще складывается статистика запроса?

1. Общие сезонные колебания.
Количество и активность пользователей Сети постоянно меняется. Основные тенденции: летом и в выходные народу меньше, с каждым годом народ прибывает. Если нам интересна динамика, то смотреть нужно не на абсолютные показатели, а на изменение интереса относительно общей динамики.

Специально для просмотра относительных изменений есть «относительная шкала». Скажем, запрос 'найти работу' вырос с сентября примерно в 1,4 раза. Однако тот же запрос на относительной шкале не показывает никакого роста, т.е. обусловлен исключительно ростом общего числа запросов.

Второй способ ― можно посмотреть на общее количество запросов. Для этого нужно посмотреть на динамику распространенных слов: как, mp3, скачать, порно ― и потом примерно прикинуть среднее значение. Получается, что в среднем число запросов выросло в 1,4 раза. Соответственно, об относительном росте можно говорить, только если он выше этого числа.

2. Тематические сезонные колебания.
Тут все просто: рефераты ищут в декабре и в мае, экзамены сдают в январе, мае и июне, а подарки ищут в феврале и в декабре. Здесь стоит удивляться, если вдруг эти колебания отсутствуют (скажем, в марте почему-то подарками не интересуются).

Характерный пример ― в Google.Trends четко виден ежегодный всплеск интереса к спиду в конце ноября ― начале декабря. Но не спешите делать выводы о всплеске заболеваемости: просто 1 декабря отмечается Всемирный день борьбы со СПИДом.

3. Все запросы, содержащие эти слова.
Обратите внимание: вам показывают не статистику запроса 'купить оружие', а статистику всех запросов, содержащих слова 'купить' и 'оружие' во всех формах. Т.е. если Украина купила оружие массового поражения, был принят закон о купле оружия или Тимати написал новую песню «Слышь чувиха я тут оружие купил» ― все это отразится на статистике фразы 'купить оружие'.

Ну и учтите, что слова, набравшие менее 5 запросов в месяц, вам не покажут ― т.е. есть еще невидимый длинный хвост из «совсем низкочастотников».

4. Спровоцированный интерес.
Скажем, в октябре 2007-го кто-то продвинул сайт Мегафона на первое место в Яндексе по слову 'гавно' (можно я про линкбомбинг хотя бы не буду рассказывать, а?), и об этом написал «Коммерсантъ» ― неудивительно, что в вордстате был отмечен резкий всплеск интереса к гавну.

Аналогично, в следующем месяце нас ждет серьезный спровоцированный рост по словам 'сделать аборт' и 'купить оружие' ― и хотя для кого-то это будет доказательством дальнейшего падения моральных устоев, это всего лишь пример спровоцированного интереса.

5. Автоматические запросы.
Ежедневно в Яндекс и Гугль делается тысячи автоматических запросов. Как правило, в SEO-шных целях раскрутки сайтов: узнать позицию в выдаче, поискать форумы, чтобы их потом заспамить, посмотреть, как индексируются свежие дорвеи, и т.д, и т.п. Все это потом валится в вордстат.

6. Баги.
Я их в вордстате не припомню (за исключением пары багофич, здесь не влияющих), но все может быть.

7. Нормальные запросы.
Ну вот и добрались наконец. Действительно, нормальные запросы пользователей ― далеко не единственный и часто не самый значимый параметр.

Теперь стоит определить понятие нормальности. Отдельным блоком, пожалуй.

Как распознать нормальные, естественные запросы?

Нормальный, естественный интерес пользователей распознается по ряду признаков:

― Ожидаемый набор запросов. Если же кто-то начнет утверждать, что самые популярные запросы в интернете ― вовсе не 'порно', 'скачать' и 'реферат', а 'клавирный концерт ре минор' ― это повод не удивиться, а посмеяться.

― Постепенный рост интереса. Вот, скажем, примерно так должен выглядеть типичный рост интереса на примере запроса 'вконтакте'.
Соответственно, резкий взлет в десять раз за один месяц (см. 'аборт') ― это признак неестественного роста (т.е. либо спровоцированный запрос, либо автоматика, либо баг).

― Распределение по регионам. Опять же, на примере 'вконтакте' можно посмотреть на нормальное региональное распределение: присутствует множество регионов, распределение показов примерно соответствует числу активных русскоязычных интернет-пользователей в регионе, нет серьезного перекоса в столбце «региональная популярность».
Соответственно, если в статистике по регионам есть только Москва, на которую приходится 94% процента всех запросов (см. 'сделать аборт') ― то это значит либо накрутку с московских IP, либо что москвички в ноябре возглавили всемирное движение «За аборты!».
Или, скажем, запрос 'купить' ― и зашкаливающая доля запросов из Германии, Бразилии, Китая и Японии (суммарно более трети от общего числа) заставляет предположить серьезную накрутку. В ней можно убедиться, сделав специфичный региональный запрос. Если уж 'купить оружие в петербурге' ищут в Германии, Китае и США чаще, чем, собственно, в Петербурге ― то о естественном интересе не стоит и заикаться.

Теперь идем смотреть статистику по словам. Там тоже есть на что обратить внимание.

― Набор входящих слов должен соответствовать ожидаемому. Скажем, со словом 'скачать' чаще всего ищут: 'бесплатно', 'игры', 'музыку', 'фильм', 'mp3', 'музыку бесплатно', 'программы', 'игры бесплатно' ― и этот набор практически без изменений повторяется изо дня в день. Понятно, что если среди них вдруг затесалось что-то типа 'скачать глюкозавра' ― это повод заподозрить неладное.

― Сохраняется частотное распределение статистики по словам.
При росте одного запроса должна соответственно вырасти доля всех словосочетаний, содержащих эту фразу: и высокочастотных, и среднечастотных, и низкочастотных.

Вот пример нормальной статистики по словам, содержащим 'сделать аборт'. Такой она была в июле (да, представьте, у меня сохранен почти весь wordstat за июль, и мне есть с чем сравнить):
сделать аборт ― 1139
где сделать аборт ― 248
как сделать аборт ― 71
сколько стоит сделать аборт ― 24
сделала медикаментозный аборт ― 20
сделать мини аборт ― 20
я сделала аборт ― 20
сделать аборт спб ― 16
аборт сделать москва ― 13
сделать аборт цены ― 12
заставляет сделать аборт ― 12
где лучше сделать аборт ― 12
где сделать медикаментозный аборт ― 11
где можно сделать аборт ― 11

Не забываем, что статистика по 'сделать аборт' включает все содержащие эти слова словосочетания. Т.е. смело вычитайте из этого числа статистику 'где сделать аборт', 'как сделать аборт' и кучу низкочастотников ― по примерным прикидкам, сам запрос 'сделать аборт' делали раз 500―600, что согласуется с частотой остальных слов.

А теперь смотрим на декабрьскую статистику.
сделать аборт ― 53109
где сделать аборт ― 29400
как сделать аборт ― 92
сделала медикаментозный аборт ― 64
где можно сделать аборт ― 37
где сделать аборт красноярск ― 29
сколько стоит сделать аборт ― 29
сделать аборт москва ― 24
сделать мини аборт ― 16
сделать аборт спб ― 16
где сделать медикаментозный аборт ― 15
новосибирск сделать аборт ― 14
хочу сделать аборт ― 11
женщины сделавшие аборт ― 11

Как видим, низкочастотники остались на том же уровне (а если учесть общую динамику роста в 1,4 раза, даже чуть снизились), зато высокочастотный и среднечастотный запрос выросли в 50 и 120 раз соответственно. Это явный признак «неестественной статистики».

― Кроме того, даже при росте интереса низкочастотные запросы должны остаться низкочастотными: если интерес к фразе вида 'бабуин гамадрил' вдруг перевалил за 50 запросов в месяц ― повод поинтересоваться происхождением трафика.

Посмотрим, например, на словосочетания, включающие слова 'аборт'. Ничего не смущает? 'абортов пользователь' ― 1621, 'аборт убийство' ― 952, 'аборт сана' ― 908, 'аборт зарегистрирован' ― 894 ― это все не бывает просто так.

― Наконец, полезно сравнить с другими источниками.
В нашем случае это Гугль.Трендс и Рамблер.Адстат. Понятно, что аудитория Яндекса, Рамблера и Гугля различается, но вряд ли в десятки раз. И если остальные источники не обнаруживают хотя бы намека на ту же тенденцию ― повод задуматься.

Смотрим 'аборт' в Гугль.Трендс ― нет роста.

Практика

С теорией закончили, перейдем к практике. Та-ра-да! Время разгадок!

Берем пресловутый запрос 'сделать аборт', с которого все началось, и считаем признаки неестественного происхождения.
резкий взлет,
перекос в региональном распределении,
рост количества двух запросов без соответствующего роста остальных,
в Гугль.Трендс близко нет схожей динамики.

Итого: кто-то делает множество автоматических запросов в Яндекс с московских IP на тему абортов.

Теперь идем в "аборт" искать концы. У какого подзапроса смущала слишком большая статистика, прямо не связанная с темой 'сделать аборт'? 'аборт убийство'. Кликаем, чтобы посмотреть, из чего она складывается. 'пользователей', 'сообщение', 'гостей', 'зарегистрирован', 'создать топик', 'быстрый переход', 'последнее сообщение...' ― ничего не напоминает, нет?

Ну давайте тогда посмотрим, что же искали этими запросами: 'аборт убийство создать топик' ― что объединяет пингвина, поезд, сапог и пианино все эти сайты? Это все форумы. И кто-то делает множество автоматических запросов в Яндекс с московских IP, чтобы найти форумы, посвященные абортам. Надо полагать, в грязных SEO-шных целях ― чтобы их потом заспамить сообщениями или ссылками.

Идем в 'купить оружие' ― в статистике по словам из общего ряда как-то выбиваются слова forum, vbulletin, phpbb, showthread php, threads, topic index...

Не буду больше томить ― такая картина наблюдается сейчас везде.

Скажем, статистика слов по запросу 'купить' ― те же forum, vbulletin, phpbb, showthread php... Не забудьте обратить внимание на показатели региональной популярности в Германии, Китае, Бразилии и Японии. Такая картина по всем запросам, хоть, простите, 'купить анальную пробку'.

В смысле, совсем практически по всем запросам, хоть бабуин ― везде видим парсинг выдачи Яндекса на предмет форумов.

Выводы

Начиная примерно с октября, кто-то в огромных объемах автоматически парсит выдачу Яндекса, преимущественно с московских, немецких, китайских, японских и бразильских IP ― явно на предмет найти форумы. Скорее всего, чтобы эти форумы затем спамить сообщениями или ссылками.

Нельзя сделать вывод, что, помимо этой накрутки, есть еще какой-то рост. В самом Яндексе статистика безнадежно испорчена (вспоминаем правило тринадцатого удара), а ловить рыбку в мутной воде ― не лучшее занятие. Гугль.Трендс же никакого роста сверх обычного не показывает.

Wordstat ― это тонкий инструмент, который прекрасно помогает в определенных задачах, если подойти к нему с умом. Я хорошо разбираюсь в поиске, написал статью о профессиональном поиске в интернете (единственную в своем роде), выигрывал Кубок Яндекса по поиску, сам в свое время парсил выдачу Яндекса и Гугля на предмет пробития и дальнейшего заспамливания форумов ссылками :-), знаю о SEO не понаслышке, использую wordstat в своей повседневной работе, сделал в нем не одну сотню тысяч запросов и могу сходу назвать минимум три проблемы в «Базе Пастухова».

А вы ― не лезьте в wordstat, коли ничего там не понимаете.

Лирическое заключение

Вообще, все это помешательство на вордстате хорошо согласуется с правилами, описанными в книге Майерса «Социальная психология». Не устаю ее рекомендовать ― это одна из немногих книг, способная поставить мозги на место и в дальнейшем избежать подобных ошибок.

1. «Яркие, запоминающиеся, а потому и когнитивно доступные события влияют на наше восприятие социального мира. Чем значительнее событие, тем интенсивнее противоречащее фактам мышление» [1]
2. «Люди преисполнены желанием подтверждать свои убеждения, но не спешат искать доказательства, способные опровергнуть их». [2]
3. «После того как человек мысленно логически обоснует ложное представление, его на удивление трудно разрушить». [3]

Ну и то что большинство способно усваивать материал максимум до первой встреченной цифры.

Т.е. если человеку показали рост запросов у 'купить оружие', то большинство тут же подставит эмоционально близкое обоснование ― кризис. После этого подавляющее большинство будет делать только запросы, подтверждающие первоначальную теорию: 'купить пистолет', 'купить сигнализацию', 'уволили' или 'потерял работу' ― и любоваться на рост графика. В то время как нужно было делать еще и запросы, опровергающие эту теорию, типа: 'купить говно', 'купить' или 'и'.

И, наконец, хотя вы теперь знаете, что весь этот рост ― результат автоматических запросов в Яндекс в грязных SEO-шных целях, наверняка «осадочек остался»: вы «нутром чуете», что остается какой-то рост по запросам 'сделать аборт' и 'купить оружие', обусловленный все-таки не накруткой, а кризисом. Так вот, это психологическое. Вам кажется.

Теперь закройте наконец wordstat и идите работать или читать Майерса ― все лучше будет.

(37 comments)

Comments
 
Page 1 of 2
<<[1] [2] >>
[User Picture]
From:kohaku_no_neko
Date:December 26th, 2008 01:36 pm (UTC)
(Link)
Спасибо. Очень интересно)
(Replies frozen) (Thread)
[User Picture]
From:skytao
Date:December 26th, 2008 02:30 pm (UTC)
(Link)
Интересно: по "продать оружие" роста никакого не наблюдается. А, к примеру, "продать санки" -- четкие сезонные колебания :-).
(Replies frozen) (Thread)
[User Picture]
From:olegart
Date:December 26th, 2008 02:33 pm (UTC)
(Link)
У меня по данной теме быстро нашёлся любимый пример использования wordstat.

Ничто так не демонстрирует глубину кризиса и безнадёжность положения этой планеты.
(Replies frozen) (Thread)
[User Picture]
From:teinett
Date:December 27th, 2008 03:35 am (UTC)
(Link)
Проверила полученные знания на практике.
(Replies frozen) (Parent) (Thread)
From:(Anonymous)
Date:December 28th, 2008 04:16 pm (UTC)
(Link)
Статистика по слову php скачет как горный козел по вершинам кавказа...
(Replies frozen) (Thread)
[User Picture]
From:commentator40
Date:December 28th, 2008 06:45 pm (UTC)
(Link)
Спасибо, очень интересно. Не всё понял в деталях, ибо не спец, но общая картина понятна. По крайней мере, некоторые мои прежние недоумения насчет этой статистики теперь прояснились.
(Replies frozen) (Thread)
From:(Anonymous)
Date:December 29th, 2008 08:58 am (UTC)

Ссылки на примеры из Вордстат не работают.

(Link)
На выдачу ссылки открываются, из Вордстата ни один пример посмотреть так и не смог, похоже битые ссылки((
(Replies frozen) (Thread)
[User Picture]
From:liveuser
Date:December 29th, 2008 10:31 am (UTC)

Re: Ссылки на примеры из Вордстат не работают.

(Link)
Поздравляю, вас в вордстате забанили (там очень дурацкая баннилка). Ждите полдня примерно.
(Replies frozen) (Parent) (Thread) (Expand)
[User Picture]
From:minaton
Date:December 29th, 2008 09:54 am (UTC)
(Link)
красавчег
(Replies frozen) (Thread)
[User Picture]
From:gena_by
Date:December 29th, 2008 01:29 pm (UTC)
(Link)
Спасибо, классный анализ. Лично я не думал, что это парсинг выдачи, а склонялся к идее "нагона трафика" по заказу клиента (вот моя теория: http://www.serp.by/blog/abort-ili-kak-obmanyvayut-klientov). Но идея с поиском форумов для проспама вполне правдоподобна.

Ещё раз спасибо.
(Replies frozen) (Thread)
[User Picture]
From:yaroslav_k
Date:December 29th, 2008 05:10 pm (UTC)
(Link)
Отлично!
(Replies frozen) (Thread)
[User Picture]
From:simmons_fan
Date:December 29th, 2008 07:55 pm (UTC)
(Link)
Да, "Социальная психология" Майерса - книжка на все случаи жизни. Жаль только, что её издало ублюдочное издание "Питер". Эти гондоны всю библиографию выкинули.
(Replies frozen) (Thread)
[User Picture]
From:rublevich
Date:January 3rd, 2009 10:49 pm (UTC)

купить оружие в петербурге

(Link)
Всего запросов: 24
Регионы / города Показов в месяц ↓ Региональная
популярность, %
1 Петербург 24 1067.24
2 Северо-Запад 24 830.56
3 Россия 24 116.92


Яндекс исправил результаты, или мне что-то не ведомо?

(Replies frozen) (Thread)
[User Picture]
From:liveuser
Date:January 8th, 2009 11:06 am (UTC)

Re: купить оружие в петербурге

(Link)
> Яндекс исправил результаты, или мне что-то не ведомо?
В декабрьской статистике автоматические запросы пропали из wordstat'а. Надо полагать, просто закончили парсить. Кто успел посмотреть на живые примеры - тот молодец.

> Эм, впервые слышу о "Базе Пастухова", но у меня есть в аське один нижегородский SEO-шник pastuhoff
Кубки кончились, о поисковиках можно забыть?

> Ну и напоследок: кто бабуина-то продаёт?
Запрос - просто 'бабуин', не 'купить/продать бабуина'.
(Replies frozen) (Parent) (Thread)
[User Picture]
From:rublevich
Date:January 3rd, 2009 10:56 pm (UTC)
(Link)
Эм, впервые слышу о "Базе Пастухова", но у меня есть в аське один нижегородский SEO-шник pastuhoff. Это в честь него?
(Replies frozen) (Thread)
[User Picture]
From:rublevich
Date:January 3rd, 2009 10:57 pm (UTC)
(Link)
Ну и напоследок: кто бабуина-то продаёт?
(Replies frozen) (Thread)
[User Picture]
From:i_crust
Date:March 25th, 2009 06:47 am (UTC)
(Link)
Skoda Babuin -секретная калужская модель!
(Replies frozen) (Parent) (Thread)
[User Picture]
From:iseg
Date:January 11th, 2009 12:25 am (UTC)
(Link)
Похожий комментарий должны были дать мы конечно, но не хватило скорости реакции и остроты желания. Кроме того, нас напрямую никто так и не спросил.

А твой анализ - супер! Спасибо, отлично! И все правильно.
(Replies frozen) (Thread)
[User Picture]
From:dp_maxime
Date:February 5th, 2009 04:03 pm (UTC)
(Link)
А Яндекс не хочет избавить Wordstat от автоматических запросов, если еще не сделали ?
Например, у вас есть подсказки (suggestions), появляющиеся по мере ввода запроса - естественный запрос легко определить по шлейфу запросов на подсказки перед ним.
(Replies frozen) (Parent) (Thread)
[User Picture]
From:piercingradiant
Date:January 13th, 2009 11:38 am (UTC)
(Link)
спасибо.Было неожиданно круто когда неспециально нашла ответ на возникший было вчера вопрос - откуда берутся слова типа"создать топик" в стате 8)
(Replies frozen) (Thread)
Powered by LiveJournal.com