Selhoz-katalog.ru

Сельхоз каталог

Метод Зипфа

Закон Ципфа для русской Википедии

Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в работе[1].

«Опровержение» закона Ципфа

Американский биолог Ли Вэньтянь попытался[2] опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов также подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

Несмотря на строгость доказательства, заключительный вывод Ли Вэньтяня представляется недостаточно обоснованным: естественные языки, на материале которых был открыт Ципфом его закон, сильно отличаются от предложенной Ли Вэньтянем модели[источник не указан 225 дней].

Примечания

  1. Rank distributions of words in additive many-step Markov chains and the Zipf law = Arxiv LANL. — 2004.; Phys. Rev. E. – 2005. – V. 72. – P. 046138(1)–046138(6).
  2. Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution = IEEE Transactions on Information Theory. — Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87501, 1992. — В. 38. — № 6. — С. 1842-1845.

См. также


Метод Зипфа.

© 2021–2023 selhoz-katalog.ru, Россия, Тула, ул. Октябр 53, +7 (4872) 93-16-24