Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОТВЕТЫ.doc
Скачиваний:
101
Добавлен:
11.02.2015
Размер:
1.84 Mб
Скачать

Вопрос 28: Статистическая обработка текста(области использования, статистика электронного документа в ms Word, частотные словари).

Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи.

Объектом применения статистических методов обычно является письменный текст (в первую очередь его лексический состав).

Компетентное мнение Игорь Милославский(профессор МГУ): Идеи и методы математики по отношению к русскому языку эффективно используются уже более полувека. Ведь русский язык - это очень сложный многоаспектный код, в единицах которого "зашифрованы" разными способами наши представления об окружающей действительности. Данное от рождения и воспитания более или менее бессознательное умение пользоваться этим кодом - совсем не то же самое, что строгое, объективное знание о том, как он устроен и работает. Но только на основе именно такого знания можно осуществлять автоматический анализ и синтез текстов, делать машинный перевод. Представление о том, что пренебрегающий математикой школьник может стать в будущем хорошим ученым в области гуманитарных наук, в частности лингвистики, безнадежно устарело. И, будучи филологом, я полностью соглашаюсь с утверждением: "Математики не может быть много".Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи.

Области использования

Статистическая обработка текста используется для:

1.  Математически точного различения стилей и жанров (статистическая стилистика); Так, в немецкой художественной литературе среднее число слогов в слове 1,5-1,9 (англ. 1,3-1,5), в научной 1,9-2,3 (англ. 1,5-1,8). По авторам:самые скупые на слоги Рильке, Хэмингуэй, Диккенс, самые щедрые К.Маркс и А.Гумбольд. По чередованию ударных и безударных слогов определяется величина метрической связи, которая возрастает о научных текстов к поэзии. Здесь лидеры: Байрон, Данте, Рильке, Пушкин, Шекспир, Гете, Брехт, Гомер, Виргилий, Овидий, К Маркс, Ю.Цезарь.

2. Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания стаистических параметров авторского текста;

  1. Описания поведения разлисных языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребеления);

  2. Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях) Так в соответствии с формулой Клода Шеннона (1948) количесво информации которую несет одна буква русского алфавита равна 3,01 бита, английского - 3,1, французского 2,83 бита. Траты информации на ритм и рифму: в классическом четырехстопном ямбе 10 и 7 бит, в современном четырехдольнике 5 и 8 бит. Ослабление ритмических ограничений в современной поэзии усилило ограничения по рифме: практически исчезли простые грамматические рифмы (окном-пером, стоять-лежать и т.п.) За счет передачи смысла через ритм, рифму, звуковую инструментовку поэзия, как правило, информационно богаче прозы. Но, информационная плотность “Поединка” Куприна, вдвое больше заурядных стихов с отрывного календаря (сопоставление кафедры теории вероятностей МГУ).

  3. Воcстановления текстов (и языков!) по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации (в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе);

  4. Определения уровня родства, скорости языковых изменений и времени разделения различных языков (глоттохронология);

  5. Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) (квантитативная типология) и т.д.

Формула для измерения информации о событиях, происходящих с разной вероятностью. 

Статистика электронного документа в MS Word

Word анализирует свойства создаваемых в нем документов (название, автор, тема, ключевые слова, дата последнего изменения), которые служат для упрощения поиска документов.

К автоматически обновляемым свойствам текстовых документов, которые регистрирует ТП Word относятся и статистические данные, такие как количество символов, символов и пробелов, слов, строк, абзацев и страниц текста.

При создании и обновлении автореферата такие стандартные свойства файла, как ключевые слова и заметки, также обновляются автоматически.

Доступ к просмотру статистики документа:

  • Файл/Свойства/Статистика

  • Сервис/Статистика

Текстовый процессор Word позволяет после проверки правописания получить статистику удобочитаемости документа включающую характеризующую проверенный текст с точки зрения того, насколько текст легко читается и насколько должен быть подготовлен читатель для его прочтения.

Для ее просмотра должен стоять флажок в позиции "статистика удобочитаемости" в окне Правописание (Сервис/Параметры/Правописание)

Статистика включает:

 Уровень образования- показатель основан на образовательном индексе Флеша-Кинсайда и показывает, каким уровнем образования должен обладать читатель проверяемого документа. Подсчет показателя делается на основе вычисления среднего числа слогов в слове и слов в предложении. Значение показателя варьируется от 0 до 20. Значения от 0 до 10 означают число классов школы, оконченных читателем. Следующие пять значений — от 11 до 15 — соответствуют курсам высшего учебного заведения. Высшие пять значений относятся к сложным научным текстам. Рекомендуемый диапазон значений этого показателя: от 8 до 10.

Легкость чтения- показатель основан на индексе легкости чтения Флеша. Показатель подсчитывается по среднему числу слогов в слове и слов в предложении и варьируется от 0 до 100. Чем выше значение показателя, тем легче прочесть текст. Рекомендуемый интервал значений для обычного текста: от 60 до 70.

Число сложных фраз- показатель показывает в процентах, какое количество сложных фраз содержится в проверенном тексте. Сложными считаются фразы с относительно большим количеством знаков препинания, перегруженные союзами, местоимениями, прилагательными и так далее. Нормальным количеством сложных фраз можно считать 10 — 20 процентов.

Благозвучие- показатель указывает на удобочитаемость текста с фонетической точки зрения. Подсчет показателя основан на вычислении среднего количества шипящих и свистящих согласных. Интервал изменения показателя: от 0 до 100. Рекомендуемый диапазон значений: от 80 до 100. Этот индекс указывает на удобочитаемость текста с фонетической точки зрения.

Частотные словари

Частотный словарь- пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте.

Частотные словари приводят числовые характеристики употребительности слов какого-либо языка.

Частотные словари составляются по текстам отдельных авторов, произведений, предметных областей. 

Частотные словари являются основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, автореферирования и автоаннотирования текстов, автоматизации изучения стилистических особенностей отдельных авторов и т.п.

Частотные словари дают возможность сравнить численные закономерности в структуре словаря и текста.Эти словари полезны во многих отношениях и представляют большую ценность для преподавателей, методистов и лексикографов. Сведения о наиболее частотных и коммуникативно важных словах того или иного языка значительно расширяют возможности как успешного преподавания иностранного языка, так и более глубокого овладения родным языком.

 Примеры частотных словарей

 Иоссельсон Г. [Josselson, H.] Словарь русского языка. Детройт, 1953.

  • Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. Таллин, 1963.

  • Полякова Г. П. И Солганик Г. Я. Частотный словарь языка газеты. М., 1971.

  • Частотный словарь общенаучной лексики / Под общ. ред. Е. М. Степановой. М., 1970.

  • Грузберг А. А. Частотный словарь русского языка второй половины XVI - начала XVII века. Пермь, 1974.

  • Оливерус Зденек Ф. Морфемы русского языка: Частотный словарь. Praha, 1976.

  • Частотный словарь русского языка: Около 40 000 слов / Под ред. Л. Н. Засориной. М., 1977.

  • Денисов П. Н. и др. Комплексный частотный словарь русской научной и технической лексики: 3074 слов. М., 1978.

  • Частотный словарь романа Л. Н. Толстого «Война и мир» / Сост. Великодворская З. Н., Галкина Г. С. и др. Тула, 1978.

  • Караулов Ю. Н. Частотный словарь семантических множителей русского языка / Отв. ред. С. Г. Бархударова. М., 1980.

  • Сводный словарь современной русской лексики: В 2 т. / Под ред. Р. П. Рогожниковой. Л., 1991. (Этот словарь отчасти частотный; в большей степени он носит справочно-библиографический характер.)

  • Лённгрен Л. Частотный словарь современного русского языка. Uppsala, 1993.