Гражданская позиция

Было:


Глубиной так метров пять, мало не покажется. Сверху еще был прикрыт такой картонкой, чтоб уж наверняка за пару дней снегом занесло. Решил проявить сознательность, благо, номер для приема соответствующих обращений 004 (в Питере) сходу находится Яндексом. На следующий день — два звонка от разных людей с просьбой уточнить, где именно находится колодец. Еще через три дня — два звонка с просьбой проверить еще раз и подтвердить, что колодец закрыт.

Стало:


Вот этим, в сущности, исчерпываются мои представления о гражданской позиции. Учитывая что до меня этот колодец был открыт черт знает сколько — не так уж и мало.

Зощенко, дети, фильмы

На днях вдруг вспомнил передачу своего детства - "Будильник", где взрослые актеры Богатырев и Назарова сыграли "Рассказы для детей" Зощенко ("Это меня Лёлька научила!", "Но тут в комнату вошел папа"...).
Невероятно, но в интернете ее не оказалось, зато удачно в процессе поисков обнаружился форум канала "Ностальгия", где ее обещали показать в конце октября (и заодно рассказывали, что "любое скачивание есть пиратство", но не суть). Дальше мое участие ограничилось отслеживанием телепрограммы и заявкой на запись передачи в найденном по случаю профильном форуме (пользуйтесь на здоровье, кто не в курсе).
Короче, теперь Зощенко в исполнении Богатырева и Назаровой в интернетах есть - http://rutracker.org/forum/viewtopic.php?t=3784299

------

Российские матери в уходе за маленькими детьми в основном сверяются с книгами Сирзов ("Ваш малыш от рождения до двух лет"), Комаровского ("Здоровье ребенка и здравый смысл его родственников"), еще каких-то непонятных, преимущественно отечественных авторов, некоторые до Спока доходят - при том что ни одна из книг, увы, не обошлась без ничем не подкрепленных предрассудков авторов.
Желающие же, чтобы все утверждения опирались на исследования и точные данные, могли обратиться разве что к англоязычной Caring For Your Baby And Young Child: Birth To Age 5, составленной Американской академией педиатрии (миллионные тиражи, 20-летняя история, недавно вот вышло пятое издание со свежими сведениями), или, если только для первого года жизни, ее же Your Baby’s First Year.

Внезапно настает счастье - их впервые (вроде как) переводят на русский язык, первую книгу в прошлом году, вторую в этом. Но здравствуйте, российские реалии - обеим книгам присвоены максимально неподходящие названия и обложки, а упоминания об American Academy of Pediatrics загнаны куда-то внутрь, в выходные данные, мелким шрифтом. Вот, зацените масштаб пиздеца:

Как итог - за прошедший год о них полтора отзыва в интернетах, ноль упоминаний на littleone.ru, все продолжают слушать "Валенки", в смысле, читать Сирзов.

------

Годами пытался оптимизировать процедуру выбора фильмов для просмотра. Рецензии Экслера, рецензии Афиши, оценки на Metacritic, IMDb Top 250 - ничто из этого не выдержало проверки временем. А хотелось многого: чтобы и разнообразно, и незанудно, и было с кем обсудить, и культурные пробелы ликвидировать (в т.ч. в области известного говна), и с уклоном в Голливуд, и чтобы и Чаплин был, и Трансформеры (но больше, понятно, Трансформеров, чем Чаплина), и чтобы ничего отслеживать и читать не надо было.

В итоге идеальный параметр был найден - количество голосов на IMDb (т.е. то, что, условно, смотрели все современные американцы). Вдобавок с помощью тамошнего поиска можно отображать только фильмы, которые еще не смотрел - и совсем удобно, смотришь на верхнюю пятерку "Most voted titles you haven't seen", выбирая один из них под настроение (чтобы оно работало, нужно завести аккаунт на IMDb и поставить просмотренным фильмам любую оценку). До 221-го места пока дошел, поводов усомниться в методе не было. Для примера, сейчас топ-3 фильмов, которые смотрели все, кроме меня (и, соответственно, ближайшие кандидаты на просмотр): "Славные парни" Скорсезе, "Взвод" Оливера Стоуна и корейский "Олдбой".
Гугль, кстати, находит сейчас 0 результатов на "Most Voted Titles You Haven't Seen", так что метод, видимо, не самый известный.

Moscow Strikes Back

К слову о 9 мая.

Не самый известный факт — документальный фильм "Разгром немецких войск под Москвой" (1942 г.) стал первым советским фильмом, получившим Оскара. Документальные фильмы тогда впервые вошли в перечень номинаций, и Оскары были вручены сразу четырем лентам. Фильм был традиционно приобретен Artkino (американская компания, десятилетиями остававшаяся практически единственным прокатчиком советского кино в США), перемонтирован, снабжен дурацкими комментариями (цитата с сайта Библиотеки Конгресса), наскоро разбавлен — видимо, ради концептуальности — фрагментами записей всесоюзного парада физкультурников 1939 г. и военного парада 1940 г. и вышел в американский прокат в августе 1942 г. как "Moscow Strikes Back".

70 лет назад про него писали в NY Times, кадры из фильма заняли четыре страницы журнала LIFE. Сегодня американскую версию фильма — одно из главных средств пропаганды роли Советского Союза во Второй мировой, пригодных для экспорта, — можно найти разве что в Библиотеке Конгресса, "в ужасном состоянии".

Так что впервые в свободном доступе — американская версия "Moscow Strikes Back". (Ублюдки с сайта "Traditions" посмели влепить свой логотип на наше достояние, но выбирать пока не приходится).

Youtube: часть 1, часть 2, часть 3, часть 4.

Александрова-Игнатьева. Практические основы кулинарного искусства

Впервые в интернете. Александрова-Игнатьева Пелагея Павловна, «Практические основы кулинарного искусства» (7-е изд., 1909 г.).

Скачать через narod.yandex.ru:
PDF (13 МБ) — интернет-издание с современной орфографией и прочими радостями. Обновлено 25 марта 2013 г.;
— исходные фотографии страниц: DjVu (92 МБ).

И наконец, в сентябре 2013 г. издательство Corpus выпустило отлично сверстанное переиздание, стоит около 700 рублей.

К вопросу о классическом «Оливье» (который с рябчиками)

Большинство статей о классическом рецепте салата (закуски) «Оливье», гуляющих по интернету, — попросту набор домыслов. Даже наиболее адекватная из них грешит фактическими ошибками: к моменту выхода первой книги Александровой было не 25 лет, а 24 года, после революции вышло минимум четыре ее книги. Главное же — никого не смутила идея, будто рецепт известного салата, который действительно готовили все, кому не лень (скажем, Игнатьев в "Нашей пище" упоминает, что в одесской кулинарной школе на посещенном им выпускном экзамене готовили в числе прочего и оливье, причем получился он, по его словам, превосходно), при обилии кулинарных книг в то время (пусть даже почти все они были безграмотными сборниками рецептов), мог быть напечатан всего в двух, причем впервые — в книге Александровой, которой на момент смерти Оливье было 11 лет, то есть рецепт она могла знать в лучшем случае из вторых рук.

Чтобы как-то сдвинуть дело с мертвой точки (но ни в коем случае не претендуя на самую первую публикацию рецепта).

Журнал «Наша пища» № 5 за 1894 г., рубрика «Вопросы и ответы».
(Для непосвященных: журнал «Наша пища» издавался в 1891—1896 г., редактор М. А. Игнатьев, в нем публиковались статьи, в том числе, самого Игнатьева, Зееста, Астафьева и др., а с 1894 г. — и Александровой).


И ответ на него в № 6 от 31 марта 1894 г.



Небольшое дополнение к ответу было опубликовано в № 10 за тот же год.


Соя кабуль — неизменный компонент классических рецептов салата — также вызывает немало споров.

В журнале «Наша пища» № 24 за 1894 г. опубликован ответ на вопрос № 328: „Какъ приготовляется «Соя и Кабуль» шампиньонная и друг.?”


Еще чуть дальше позволяет продвинуться books.google.com.

В Chemist and druggist: the newsweekly for pharmacy: Том 29 за 1886 г.:
" Cabul Sauce," also " Mogul Sauce," and other wording, on labels ; for sauce. By Crosse & Blackwell, Soho Square, WC 54951, 55318.

Так что, видимо, правы были те, кто трактовал «сою» в определении Даля: «СОЯ ж. англ. пряная приправа, подлива к яствам.»

Увы, на отправленный наудачу запрос в The J.M. Smucker Company, владеющей сейчас торговой маркой «Crosse & Blackwell», бессмысленно ответил корпоративный робот («we are unable to supply Crosse & Blackwell® products to areas outside of North America»), а рецепт «Mogul Sauce», найденный в американском журнале тех времен — все-таки требует слишком уж многих допущений, чтобы прямо отнести его к салату Оливье.

Поэтому тема классического рецепта «Оливье» еще ждет своего пытливого изыскателя.

Ребятам о вордстате. Недокументированном

Про wordstat.yandex.ru. Те пятеро из вас, кто знает, что это такое, - читают и радуются (будет то, чего вы не знали), остальные лучше проскролливайте.

Дата обновления

Сейчас на страницах статистики по словам написано "Обновлено: 21/01/2011". Вопрос, за какой период приведены данные? Если вы решили, что за "21.12.2010—20.01.2011" (плюс-минус день) - то это неверный ответ. В действительности, статистика приводится с опозданием на неделю.

Убедиться в этом легко - достаточно посмотреть даты популярных новостей. Например, 18 января 2011 г. было объявлено о назначении Гуллита главным тренером Терека, но вот обновленный 21 января Вордстат об этом еще не знает.

Немного о том, как ищут пользователи

Статистика запроса "в" немного расскажет нам о поведении пользователей. По вордстату, его набирают 1,5 млн раза в месяц - в 10 раз чаще, чем какие-нибудь "а", "с" и "и".

Понять истоки этот феномена поможет здравый смысл и главная страница Яндекса. Как известно, Яндекс предлагает поисковые подсказки - по-видимости, многие школьники видят всевоможные "в контакте", "вконтакте", "в контакте добро пожаловать", "в контакте вход моя страница" - и, не утруждая себя выбором одной из них, сразу жмут "Ввод" или кнопку "Найти". По счастью, сайт vkonktakte.ru на первом месте в выдаче по запросу "в", так что поисковый шаблон только закрепляется.

Создателям сайтов-обманок на заметку. Запросы "о" и "од" по аналогичным причинам также весьма популярны - при этом в первой десятке по этим запросам сайта odnoklassniki.ru нет, так что Яндекс давно ждет желающих сделать фальшивый сайт Одноклассников, продвинуть его по запросу "о" в топ и собирать до полумиллиона показов в месяц (при желании - и базу логинов с паролями).

В декабре Яндекс показал страницу результатов 3 226 264 143 раза

Еще Яндекс в вордстате показывает, сколько всего, по всем запросам, было показов страниц выдачи за выбранный период. Достаточно лишь посмотреть в вордстате статистику запроса, например, "яндекс" по месяцам, навести курсор на нужную точку и посмотреть число, которое Яндекс указывает с абсолютной точностью.
В декабре 2010 г. на абсолютной шкале: 6193948 показов, на относительной шкале: 0,00191985148315861.
Несложные расчеты - и получаем, что общее число показов страниц выдачи в декабре составило ровно 3 226 264 143 показа.
В январе 2009 г., для сравнения, 1 470 763 753 - желающие могут дружно проследить за ростом Яндекса за последние два года.

Только нужно быть внимательным и не брать низкочастотные запросы, поскольку у Яндекса на этой странице баг, и начиная с определенного момента он ошибается на порядок - вместо пяти нулей после запятой рисует шесть (в этом можно убедиться, посмотрев, например, статистику запроса "океания").

Сезонные запросы

Вообще, на статистику запросов по месяцам бывает полезно взглянуть. Любые небольшие сезонные колебания - повод для внимательного изучения. Тогда, если ваш клиент вздумал рекламироваться по запросу "спид" - вы заранее, до наступления 1 декабря сможете добавить стоп-слова "день борьбы"; а для рекламы мешков - добавить стоп-слово "осень" до того, как школьники начнут писать сочинение по картине Мешкова "Золотая осень".

Кому нужен inurl?

Помнится, поисковые операторы link и anchor выпилили под предлогом, что они "задаются, в основном, не людьми, а роботами".
Теперь любой желающий вправе посмотреть на статистику по словам для запроса inurl (сплошные гостевые и форумы), на статистику по регионам (98,5% приходится на американского робота), на статистику по месяцам (активность роботов достигает почти двух миллионов показов страниц в месяц) и порекомендовать Яндексу "или крестик снять, или трусы надеть".

Баден-Баден и его роль в подборе запросов

Из хелпа: "Повторяющиеся слова в ключевом словосочетании объединяются. Например, вместо «Баден-Баден» в форме запроса останется только слово «Баден»".

Яндекс забыл уточнить (скорее всего, и сами не знают) одну полезную особенность. Дело в том, что вместо слов "баден баден" в кавычках Яндекс покажет не количество запросов "баден", а количество двухсловных запросов, содержащих слово "баден". И далее - "баден баден баден" - количество трехсловных запросов, и т.д.

Соответственно, для любого запроса можно построить табличку с распределением количества слов.
Например, для запросов, содержащих слова "!мягкая" и "!мебель":
СловПоказов
217920
340916
443730
518826
68529
73210
81371
9614
10271
11130
1268
...193
Все135778
Так что можно узнать, что 96% запросов со словами "мягкая" и "мебель" приходится на запросы из шести и менее слов.

Сериалоликбез

Устал каждый раз объяснять, буду ссылку давать.

Прежде чем новая серия любимых Гриффинов в озвучке FiliZa Studio (или что вы там смотрите) появляется на вашем компьютере, происходит примерно следующее.

1. В США транслируют эпизод с Closed Captions - это что-то вроде скрытых субтитров, которые по тамошним правилам должны быть у всех программ, идущих в телеэфире. Если повезет, еще и размещают эпизод с Closed Captions на hulu.com или сайте телеканала. Подробнее про CC читайте в Википедии - http://en.wikipedia.org/wiki/Closed_captioning. Что характерно, статьи на русском языке нет.
2. Эти субтитры выдирают из трансляции специальной программой. Кроме того, есть livedash.com, на котором автоматически размещаются CC примерно с 30 каналов.
3. В течение суток английские субтитры прилизывают (проверяют, синхронизируют по времени с имеющимися рипами) и размещают на сайте addic7ed.com. Оттуда они уже расползаются по интернету.
4. В течение одного-двух дней с английского на русский переводят на сайте notabenoid.com (если массово) или на своем компьютере (если один переводчик).
5. Видео с субтитрами размещают на торрент-трекере.
6. В течение недели кто-нибудь озвучивает эпизод по этим субтитрам и размещает на торрент-трекере.
7. Эпизод с русской озвучкой расползается по интернету.

Возможны варианты (скажем, Lostfilm получают CC через знакомых, минуя addic7ed), но, как правило, порядок именно такой.

При любом нарушении в этой цепочке (эпизод показали в Британии, на livedash отсутствуют 10 минут текста, субтитры не выложили на addic7ed, addic7ed лежит...) - процесс стопорится: начинается беготня, все ждут выхода DVD, повторного показа или редкого талантливого товарища, который может написать транскрипт на слух. (Хотя людей с родным английским дофига, они себя написанием и редактированием транскриптов на постоянной основе не утруждают - по крайней мере, мне такие неизвестны.) В особо веселых случаях в Сети сначала появляется перевод на итальянский или португальский; его прогоняют через Google.Translate и переводят, где непонятно на слух, с получившегося текста.

Если зайти на сайт http://www.addic7ed.com/, можно сразу заметить, что большинство субтитров (на данный момент - около 5700) выкладываются одним человеком - honeybunny. У нее свои источники Closed Captions и своя команда синхронизаторов, через которую проходит основной поток. Чаще же вовсе правит и синхронизирует субтитры сама - можете посмотреть на частоту упоминаний "Sync by honeybunny" в Гугле - и это только проиндексированные источники.

Фактически, почти весь современный любительский перевод англоязычных сериалов держится на одном человеке, который уже несколько лет бескорыстно снабжает субтитрами интернет; чье имя незнакомо Рунету, а Яндекс и вовсе считает опечаткой.

honeybunny, она же Diana Oprea, 26-летняя румынская девушка.

Операция "В"

(По результатам просмотра топа запросов в Яндекс.)

Я наивно полагал, будто рабочий день асессора Яндекса начинается с проверки, условно, топ-50 запросов. И если, не дай бог, по запросу "в контакте добро пожаловать" не окажется на первом месте vkontakte.ru, или на втором месте окажется очередная обманка c порно-рекламой, то выдача вручную поправляется. Как никак, топ-50 запросов - это суммарно 100 млн. запросов в месяц, около 4,5% от всех поисковых запросов в Яндекс (по данным wordstat.yandex.ru). Я все-таки очень наивный человек.

К счастью, на первом месте по топ-запросам всегда нужный сайт, а шаблон "кликнуть на первый результат" у пользователей очень силен. Но бедный Яндекс каждый раз вынужден предлагать еще девять результатов. И, увы, все асессоры Яндекса не способны промодерировать 500 результатов, которые Яндекс показывает суммарно по 3 млн. раз в день.

По главному запросу Рунета - 'в контакте' (15 млн. запросов в месяц) - на первой странице какие-то старые новости.
Запрос 'вконтакте' (5-е место, 4 млн.) - и просмотр выдачи успешно приведет на сайт vkontakte-x.ru, который, в свою очередь, по ссылке "Вконтакте" приведет на страницу с бесплатным порно-видео; помимо него, в выдаче предлагается сайт webmilk.ru, ссылка с которого ведет на очередную обманку.
3 млн. пользователей, ищущих "контакт" (6-е место), по мнению Яндекса, очень интересуются веб-провайдером из г. Дубна.
Ищете "майл ру"? (7-е место в топе запросов, 2,9 млн.). Слушайте дальше ваши "Валенки" - в смысле, идите-ка на свой "Вконтакт" - он на 5-м месте в выдаче. (На третьем - majl.ru, автоматически перенаправляющий на список сайтов Можайска - жизненно необходимый результат!)
Продолжать? "одноклассники моя страница" (12-е), "зайцев нет" (14-е), "вконтакте вход на сайт" (17-е), "в контакте добро пожаловать" (35-е)... - везде та же картина: в десятке присутствует порно, обманки, левые сайты (в случае с "добро пожаловать" - в десятке сейчас два полных клона и один сайт с порно-баннером). А потом пароли куда-то пропадают...

В действительности, в большинстве топ-запросов пользователь не ждет, что заданные слова будут присутствовать в тексте. Запрос вида "в контакте добро пожаловать" - это не поиск страниц, на которых есть эти слова, а vkontakte.ru на первом месте и сайты с примочками и рассказывающие о нем - в остальной десятке. Соответственно, выдача по запросам типа "вконтакте вход на сайт", "в контакте добро пожаловать", "вконтакте", "vkontakte.ru", "вконтакте моя страница" и т.п. должна быть идентична.

Пользователям, которые считают, что Яндекс - это такой способ перейти в любимый "В Контакте", заготовлен особый подарок. В Яндексе, как известно, есть поисковые подсказки, и двух случаях можно, введя всего одну букву в поисковую строку, сразу увидеть ссылку на нужный сайт. Так вот, эти две "волшебные буквы" - "я" (yandex.ru) и "о" (odnoklassniki.ru). А чтобы увидеть прямую ссылку на vkontakte.ru, нужно набрать уже "вк" или "в к", до чего, разумеется, доходят немногие (зачем им набирать вторую букву, если Яндекс уже для буквы "в" предлагает "вконтакте вход на сайт", "в контакте вход моя страница" и "в контакте добро пожаловать"?). В довершение, Яндекс искренне считает, что школьникам, которые путают Яндекс с интернетом, не знают, что делать с адресом сайта, и вводят vkontakte.ru в поисковую строку, будет понятен вот этот текст: "vkontakte.ru - "В Контакте.ру" - социальная сеть".
Многие школьники уверены, что подсказки даже не нужно выбирать, поэтому вводят в поисковую строку "в", видят многочисленные "вконтакты" и сразу жмут кнопку "Найти" или Enter на клавиатуре (результат - запрос "в" занимает 32-е место в топе с 900 тыс. запросов в месяц. Яндекс в выдаче ожидаемо предлагает почитать про Ленина или вернуться на yandex.ru).
И вообще, количество однотипных "вконтактных" подсказок стоит подсократить: Яндекс предлагает их, потому что пользователи часто их ищут, а пользователи ищут их лишь потому, что их предложил Яндекс. Из этого замкнутого круга есть разумный выход.

(no subject)

«12:30 по Москве почти каждую субботу в Фонде Аркадия Петрова проводятся практические занятия, можно участвовать очно и телепатически, технологии создаются прямо в процессе. Позавчера, например, работали на ОСВОБОЖДЕНИЕ и РЕАБИЛИТАЦИЮ Григория Петровича, людей участвовало огромное количество, энергия была мощнейшая» (форум по учению Григория Грабового, 5 апреля 2010 г.)

«Это все-таки произошло - псевдоцелитель Григорий Грабовой в пятницу условно-досрочно вышел на свободу. "Он освобожден сегодня в 12:00. В колонии его уже нет"» (Интерфакс, 21 мая 2010 г.)

Однако, работает.

Современные поисковые операторы

Яндекс недавно вроде как обновил язык запросов.

Ох.

Сущность изменений точно охарактеризовали в тамошних комментах как «поменяли равно на двоеточие». А весь сыр-бор, подозреваю, только ради того, чтобы под шумок выбросить минус. В любом случае, за обновление языка запросов Яндекс получает тройку с минусом. Их понимание, кто и зачем его использует, застряло где-то на уровне пятилетней давности. (Говорю как человек, побывавший по ту сторону поисковых запросов и благополучно вернувшийся.)

В реальности из всего этого зоопарка в 25 строк реально для поиска используются штук шесть: поиск по сайту, исключение слова из документа, ИЛИ, поиск цитат (кавычки), поиск по дате создания документа, поиск синонимов (aka «поиск с учетом расстояния»).

Перспективы «ИЛИ», кавычек и оператора поиска с расстоянием, в общем, никудышные. Основные автозамены (ну там, 'яндекс' <=> 'yandex', 'НИИ' <=> 'научно-исследовательский институт') оба поисковика давно сами умеют. За цитаты из книг уже отвечает отдельный колдунщик, осталось его на тексты песен натравить. Поиск дубликатов документа ― тоже лучше отдельным сервисом реализовать. Ну и для поиска синонимов тоже создать отдельный сервис, сразу показывающий все варианты слов и их частотное распределение.

Остались три полезных возможности. Две из них Яндекс убил реализацией.

1. Есть такая очень полезная вещь ― поиск по сайту. Обычно быстрее и проще поискать по сайту через Гугль, чем разбираться с запутанной структурой сайта или пользоваться его внутренним поиском (часто неадекватным, с алгоритмами поиска заведомо хуже, чем у «больших» поисковиков, с непривычным дизайном и часто отсутствующими сниппетами ― вдобавок, еще сам внутренний поиск предстоит найти).

Яндекс эту возможность благополучно угробил: выдает только один результат и заставляет при каждом запросе нажимать «еще с сайта». Нормальные люди пожали плечами и продолжили пользоваться Гуглем.

А надо всего лишь (ау, в Яндексе, слышите?) разворачивать выдачу сразу. Вот так.

2. Есть еще полезная вещь ― поиск по дате создания документа. Используется, чтобы получить срез интернета на определенную дату: что думали про Путина до 1999 г., какие фичи обещали в STALKER'е каждый год, когда возник какой-нибудь мем, что рассказывали про клуб «Хромая лошадь» до известных событий.

Тут Яндекс может гордиться: с этой возможностью он облажался ровно так же, как и Гугль. Оба поисковика, во-первых, доверяют дате изменения страницы на сервере (куда часто пишут полную ересь), во-вторых, ищут по текущей версии страницы. А что толку от того, что страница про Путина была создана в 1996 году, если ее обновили не далее как позавчера?

Как надо. Во-первых, учитывать не дату последнего обновления, а дату создания страницы. Во-вторых, брать в качестве даты создания только дату первого попадания в индекс. В-третьих ― господи, такая элементарная и ненапряжная вещь ― сохранять первую версию документа (заодно и вполне себе Веб.Архив получится, что само по себе ценно) и, если пользователь задействует поиск по датам, искать только по ним.

P.S. Третья и последняя полезная возможность языка запросов ― исключение слова из документа. И тут поменяли: было '-магазин', станет '~~ магазин' (формально, оно было и раньше, только о нем мало кто знал). Тоже апдейт вряд ли добавит популярности использования.
P.P.S. В пост призываются iseg и anatolix, куда же без этого. Иначе опять сгинет.