?

Log in

No account? Create an account
"Со временем" - Denis — LiveJournal
January 28th, 2013
12:28 am

[Link]

Previous Entry Share Next Entry
"Со временем"
В интернете есть только первое издание книги "Живой как жизнь" Чуковского, 1962-го года. Второго, дополненного, вышедшего в 1966-м, - нету.
Во всех изданиях, в т.ч. печатных, во фразе: "Английский филолог С. Поттер насчитал в речи современных британцев целых двадцать восемь арготических слов, соответствующих нашему уходи прочь. Среди них есть такие непривычные для английского уха, как шушу (shoo-shoo), вемуз (wamoose), имши (imshe), скидеддл (skedaddl) и пр." — три английских слова приводятся с ошибкой.

(20 comments | Leave a comment)

Comments
 
[User Picture]
From:itman
Date:January 27th, 2013 09:27 pm (UTC)
(Link)
Ага vamoose. От испанского. Но я из этих слово только это и знаю.
[User Picture]
From:liveuser
Date:January 27th, 2013 09:45 pm (UTC)
(Link)
Черт, "vamos" знаю, но не спаралеллил (и vamoose не знал все равно).
"skedaddle" и без знания видно (оно меня и смутило, полез проверять).
С "shoo-shoo" я придрался, конечно, но таки у Поттера оно без дефиса:
[User Picture]
From:itman
Date:January 27th, 2013 10:31 pm (UTC)
(Link)
Кстати, skedaddle я тоже учил, но забыл что значит.
[User Picture]
From:_winnie
Date:January 27th, 2013 09:51 pm (UTC)
(Link)
Есть бесконечно много слов как вообще, так и для любого понятия. Просто некоторые - очень малораспространенные.
[User Picture]
From:itman
Date:January 27th, 2013 10:30 pm (UTC)
(Link)
В английском просто слов больше, чем в русском, кажется. Vamoose довольно известное слово, есть даже сеть автобусов с таким названием. Но я его знаю, потому что к GRE готовился.
[User Picture]
From:_winnie
Date:January 27th, 2013 11:45 pm (UTC)
(Link)
Ну это же ведь непонятно как считать. Для начала, потому что непонятно как определить "количество слов". И что такое "английский (русский) язык" - язык кинорежиссера скорее всего гораздо богаче языка официантки, и тем не менее язык официантки не будет являться подмножеством. Даже про определение "слов" можно спорить - почему "был" и "будет" считаются "формами одного слова", а "будущее" и "прошедшее" - не считаются формами одного слова. Или почему "поела" и "поел" - одно слово, а "девочка/мальчик", "курица/петух" - разные.

Любое определение - абъюзится какими-нибудь контр-примерами. Если не пытаться вдаваться в тонкости смысла, и определить слова исходя из текстов как "разные последовательности букв в книгах разделённые пробелами и .,:?~!»..." то какой-нибудь сборник слов вида "метоксихлордиэтиламинометилбутиламиноакридин" или "тысячадевятьсотдевяностодевятикилометровый" даст бесконечно много слов.


Edited at 2013-01-27 11:54 pm (UTC)
[User Picture]
From:itman
Date:January 28th, 2013 12:00 am (UTC)
(Link)
Я уж про это писал, что можно спорить об определениях, но они все будут давать довольно похожие значения. Можно посчитать surface forms минус грамматические формы одного слова. На самом деле, было бы странно, если бы язык, на котором говорит почти миллирада как на родном (не считая индусов) имел бы меньше слов, чем в русском.
[User Picture]
From:_winnie
Date:January 28th, 2013 12:37 am (UTC)
(Link)
Я ещё не знаю что такое "слово", а ты уже о "грамматических формах слова" :)

> На самом деле, было бы странно, если бы язык, на котором говорит почти миллирада как на родном
И у каждого из миллиарда каждый год придумывается какое-нибудь новое слово, известное лично ему (типа "кукарямба"). Или только его семье ("папа опять намзюкался")

Edited at 2013-01-28 12:39 am (UTC)
[User Picture]
From:itman
Date:January 28th, 2013 12:49 am (UTC)
(Link)
Вот по поводу кукарямбы. В английском (в связи с увлечением лыжным спортом), очень развитая методология для обозначения разных видов снега. А в русском?
[User Picture]
From:_winnie
Date:January 28th, 2013 01:06 am (UTC)
(Link)
Я не лыжник, но вот тут это обсуждали - http://fregimus.livejournal.com/207766.html#comments

Возникаюет всё те же проблемы. Редкое слово, которое знают только лыжники магаданской области или только шотландские лыжники или только гляциологи или только крестьяне 17 века или только обитатели антарктической станции "Дружная 4" - это слово или нет ("Наслуд")?
То, что в термине есть пробелы ("Сквозной водяной заберег") - считать ли признаком того, что язык слишком слаб для описания термина?

Edited at 2013-01-28 01:16 am (UTC)
[User Picture]
From:itman
Date:January 28th, 2013 12:02 am (UTC)
(Link)
то какой-нибудь сборник слов вида "метоксихлордиэтиламинометилбутиламиноакридин" или "тысячадевятьсотдевяностодевятикилометровый" даст бесконечно много слов.

посчитайте частоту вхождения и выкиньте редкие слова. вот и вылетит вся терминология.
[User Picture]
From:_winnie
Date:January 28th, 2013 12:26 am (UTC)
(Link)
Ок, выкину все слова которые не входят в top-100000, и сравню.
Хм... В обоих языках по 100000 слов!

Если выкинуть слова которые встречаются реже чем один раз на миллион, то тоже могут быть какие-нибудь спецэффекты, что из-за кучи слов для оттенков одного понятия - эти слова вылетают за threshold.
И это таки функция от threshold. Возьмем 1e-6 - получим скажем 100000 слов. Возьмем 1e-7 - получим 200000 слов.

Распределение Цыпфа и другие распределения с длинным хвостом - очень антиинтуитивная штука, слова "часто" и "редко" к ним неприменимы, выбор произвольного обрезания распределения - приводит к сильному изменению результатов.

Edited at 2013-01-28 12:35 am (UTC)
[User Picture]
From:itman
Date:January 28th, 2013 12:47 am (UTC)
(Link)
Если выкинуть слова которые встречаются реже чем один раз на миллион, то
тоже могут быть какие-нибудь спецэффекты.


Могут быть. Но думаю, что если постараться, то можно методологию неплохую развить. Конечно, для этого будет надо делать correction bias и пр... Есть и другие способы: смотреть, сколько слов употребляют те или иные писатели. И даже, на самом деле, можно как-то грубо семантику оценить. Но это все равно лучше, чем кричать: аааа мы ничего не можем посчитать.
[User Picture]
From:_winnie
Date:January 28th, 2013 01:26 am (UTC)
(Link)
> Но это все равно лучше, чем кричать
Чем лучше? Вопрос "сколько слов в языке" бессмысленный. Неяно, что такое конкретный язык (где начинается основной и начинаются диалекты, профессиональная лексика, субкультуры), неяно что считать. Самое главное - неясно для чего это считать, и как можно использовать посчитанное.

И скорее всего, это окажется не "количество слов", а некий абстрактный "коэффициент разноообразия" или "количества смысла на бит зазипованного текста".

Обычно нужно не слова в языке считать, а сделать какую-нибудь удобную программу для людей, понимающих что хочет человек, если практически подходить.

Или расшифровать летопись непонятного городка, разрушенного за 100500 лет до нашей эры.

Или какие-нибудь факты интересные устанавливать.
Факт "Дарья Донцова употребляет слов меньше, чем Лев Толстой" вряд ли интересный.
Или "по случайно выбранной методологии с произвольными волшебными константами на этом вот корпусе текстов получилось 138711 слов" тоже вряд ли интересно.


Edited at 2013-01-28 01:38 am (UTC)
[User Picture]
From:itman
Date:January 28th, 2013 01:45 am (UTC)
(Link)
Нет, это как раз очень даже интересно, потому что количество слов ограничивается когнитивными способностями человека. Если много слов, то тяжелее учить язык.
[User Picture]
From:_winnie
Date:January 28th, 2013 02:30 am (UTC)
(Link)
Изучить язык - это научиться объясняться в своей профессиональной области, или на улице? Или во всех профессиональных областях, включая лыжный спорт, земледелие, зимнее судоходство, зимовку в Антарктиде и выпас оленей?

Надо ещё отличать разные источники усложнения изучения языка -
"нелогичность" языка, когда дополнительные усложнения не несут информации, вроде рода существительного ("кровать" - она, "кресло" - оно, "стул" - он, и чо?) или правил "как называть туалет в этой тусовке", "светло-синий - это голубой", begin - began - begun, три склонения существительных.

регулярное усложнение, применяемое везде одинаково и благодаря этому несущее дополнительную информацию (род глагола, "я сделала" - говорит женщина, артикли в английском)

Требование к говорящим использовать и понимать дополнительные слова для оттенков смысла в разговоре, даже если это не особо важно для темы разговора ("не, небо сейчас не синее, а светло-синее. Только дурак будет называть светло-синее - синим!").

Требование к говорящим понимать (но не использовать) 100 синонимов для одного и того же (сто способов сказать "уйди отсюда"), при этом разницы в синонимах и нет.

Может посчитаный непонятный коэффициент разнообразия слов и связан как-то со сложностью изучения языка, но явно не связан напрямую и не решающий фактор. Сложность может заключаться в порядке слов, а не в их количестве. Дополнительные пара слов a и the вроде мелочь по сравнению с мириадами других слов, но весьма неприятная штука для русского человека. Правила вежливости в другом языке - вообще не про количество слов (а без этого нельзя говорить на языке). Правила склонения слов, когда для каждого слова надо запомнить какого оно типа или все формы ("мать" "матери", "был"-"есть"-"буду", "победил"-"побеждаю"-"как это нет?!!!") основная сложность.
[User Picture]
From:itman
Date:January 28th, 2013 02:37 am (UTC)
(Link)
Мне кажется, что это опять утверждение из серии: раз это сложно, значит невозможно это оценить. Все эти уровни понимания можно оценить. Есть более часто используемые слова, есть редкие. Это даже гораздо проще, чем число слов посчитать.
[User Picture]
From:_winnie
Date:January 28th, 2013 02:39 am (UTC)
(Link)
Что такое слово?
[User Picture]
From:itman
Date:January 28th, 2013 02:51 am (UTC)
(Link)
Я уже сказал, что можно думать над точным определением этого понятия очень долго, но, тем не менее, количество слов (большое или маленькое) имеер решающее значение для многих приложений. И, несмотря на то, что нельзя этому дать точное определение, вполно можно подобрать статистические. Все, разговор окончен.
[User Picture]
From:itman
Date:January 28th, 2013 12:03 am (UTC)
(Link)
То есть это все семечки. Гораздо сложнее, ИМХО, оценить число разных оттенков одного слова. А английский, например, явно более многозначный чем русский.
Powered by LiveJournal.com