Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Роботожурналистика в русскоязычном контексте анализ современного состояния и перспективы развития.docx
Скачиваний:
6
Добавлен:
10.06.2019
Размер:
480.6 Кб
Скачать

3.4 Морфологический анализ текстов

Морфологический анализ выполнен в четыре этапа с применением программного кода на языке Python 3, написанного на основе материалов дисциплины «Текстовый анализ» в рамках образовательной программы «Журналистика данных» НИУ «ВШЭ». Фрагменты кода на примере анализа одного текста прикреплены к магистерской диссертации в качестве приложения.

Первый этап. С помощью библиотеки NLTK (Natural Language Toolkit) определены 20 наиболее часто встречающихся словоформ в анализируемом тексте (Приложение 1). Запустив в работу морфологический анализатор Pymorphy2, произведена очистка списка от служебных частей речи и других лексических единиц, не несущих смысловую нагрузку, - стоп-слов (Приложение 2). Результат выведен на экран в виде списка.

Второй этап. Выполнена следующая задача – лемматизация (приведение лексических единиц к исходной форме) с помощью морфологического анализатора pymystem3 (Приложение 3).

Третий этап. Определены части речи словоформ и их грамматические признаки (Приложение 4). Расшифровка граммем – по ссылке94.

Четвертый этап. Выявление частоты употребления определенных частей речи в тексте (Приложение 5). Построение круговой диаграммы. Использование пакета инструментов Excel.

Процесс анализа текстов подробно описан на примере двух заметок – русскоязычной и англоязычной.

Текст №1: «Курс доллара на Московской бирже снизился до 58,69 рубля»95. При выявлении 20 наиболее популярных словоформ, получаем список (в скобках указаны словоформа и частота ее употребления):

Рис. 1. Наиболее частотные словоформы в Тексте №1

Так как в список вошли единицы, не несущие смысловую нагрузку, добавим русскоязычный словарь стоп-слов. Выведем на экран десять наиболее часто встречающихся словоформ.

Рис. 2. Список наиболее частотных лексических единиц без стоп-слов

Проведем лемматизацию списка лексических единиц, представленного на рисунке выше.

Рис. 3. Лемматизация

Определим части речи и грамматические признаки лексических единиц, встречающихся в Тексте №1. Так как на выходе получаем детальную информацию о каждой словоформе, продемонстрируем только фрагмент вывода.

Рис. 4. Части речи и грамматические признаки

Обозначения на Рисунке 4. Части речи: noun – существительное, prep – предлог, adjf – прилагательное, verb – глагол. Грамматические признаки: inan – неодушевленность, masc sing – единственное число, nomn – именительный падеж, gent – родительный падеж, datv – дательный падеж, loct – предложный падеж (местный), past – прошедшее время, indc – изъявительное наклонение.

Рис. 5. Части речи и частота их употребления

Рис. 6. Частотное распределение частей речи в Тексте №1

На заключительном этапе морфологического анализа выявим частоту употребления частей речи.

На следующем рисунке представлено распределение частоты употребления той или иной части речи в виде круговой диаграммы.

Визуализация выполнена с помощью инструментов Excel.

Результаты анализа демонстрируют, что основную часть шаблона заметки составляют существительные, числовые значения и предлоги.

Текст №2. Проведем аналогичную процедуру для англоязычного текста, опубликованного на сайте журнала Forbes96. Выявим 20 словоформ, которые встречаются в заметке наиболее часто.

Рис. 7. Наиболее частотные словоформы в Тексте №2

Затем очистим список от стоп-слов и выведем на экран десять наиболее популярных показателей.

Рис. 8. Наиболее частотные словоформы без стоп-слов

Также представим частотное распределением словоформ в виде графика распределения.

Рис. 9. График распределения словоформ без стоп-слов

Лемматизируем полученные словоформы с помощью сервиса Pullenti.ru. После предыдущего этапа обработки текста видны незначительные изменения: существительное множественного числа преобразовано в форму единственного, сложное слово (year-over-year) разделено на основы.

Рис. 10. Лемматизация

Визуализируем полученный результат в виде круговой диаграммы.

Рис. 11. Частотное распределение частей речи

С помощью морфологического анализа заметок на русском и английском языках нам удалось выявить сходства и различия. В обоих случаях употребление имени существительного доминирует в количественном соотношении. Глаголы чаще встречаются в текстах на английском языке, что очевидно ввиду морфологических особенностей языка. В русскоязычных текстах весьма распространено склонение имен существительных и изменение лемм, что не характерно для публикаций на английском языке. Отметим, что данный фактор значительно влияет на сложность разработки алгоритма автоматической обработки текстов.

Соседние файлы в предмете Журналистика