?

Log in

No account? Create an account
Я, не робот - Denis — LiveJournal
May 17th, 2013
01:11 pm

[Link]

Previous Entry Share Next Entry
Я, не робот
Если на сайте нет приличного фильтра товаров, его можно изобрести самому.

Например, на Амазоне в разделе "Игрушки" нельзя отсортировать список по количеству отзывов. Параметр нужно подсмотреть в другом разделе (например, книги) и самому подставить в адресную строку &sort=review-count-rank.

На goodreads.com с фильтрами вообще плохо. Например, нельзя получить хоть тот же список книг по определенному тегу с наибольшим количеством отзывов.

Тогда можно пойти в Гугль с примерно таким запросом: "childrens" "10000.. ratings" site:goodreads.com/book/show/. "10000.. ratings" — это такая отличная фича Гугля, его можно просить найти любое число в заданном диапазоне. "10000.." — любое число больше 10 тысяч. 25..50 — в интервале от 25 до 50 и т.п.

В адресной строке еще нужно вручную приписать &filter=0 (чтобы Гугль показал все результаты, включая "похожие" друг на друга — а то мало ли что ему похожим покажется). И теперь можно брать список с Гугля. Разумеется, нужно, чтобы все результаты поместились в выдачу, поэтому, если результатов предполагается больше пятисот, имеет смысл поделить интервал на несколько меньших.

Правда вот, поскольку поисковый ваш паттерн станет отличаться от привычного для Гугля, вскоре вам покажут "экран смерти".


Ровно так — просто картинку. Тогда нужно вернуться на предыдущую страницу и снова повторить запрос. Тогда уже потребуют ввести каптчу. "Sometimes you may see this page if you are using advanced terms that robots are known to use" — вот это про вас.


Доказали, что не робот? Продолжайте листать страницы. Через некоторое время покажут еще каптчу. Потом, кажется, еще одну...

А потом вас забанят в Гугле. "Our systems have detected unusual traffic from your computer network. Please try your request again later". Страница счастья - http://www.google.com/sorry/misc/
Никакой каптчи. Бан. Про "The block will expire shortly after those requests stop" — врут, даже если выключить компьютер на 12 часов, при повторе запроса — страница счастья.

Впрочем, не переживайте, бан ненастоящий, Гугль будет работать как обычно. Вам не позволят только делать запросы, похожие на исходный — например, можно продолжать искать то же слово по тому же сайту, а вот с диапазоном уже нельзя.

Переход на google.ru вместо google.com ожидаемо не помогает. Замена site на inurl не помогает. Замена интервала "1000..2000" на "1000.." -"2001.." (показать всё больше 1000, при этом исключить все больше 2001) — ого, помогает, можно листать дальше.

С этим (пока) не забанили, так что продолжение следует.

(Leave a comment)

Powered by LiveJournal.com