- •Федеральное агентство связи
- •Введение
- •Язык программирования r
- •Инсталляция r и rStudio
- •Интерфейс среды разработки
- •Упражнения
- •Импортирование данных
- •Функция read.Table()
- •Функция read.Csv()
- •Доступ к столбцам фрейма
- •Доступ к строкам фрейма
- •Анализ xml документов
- •Пример функции visitNode()
- •Функция xmlSApply()
- •Анализ html контента
- •Загрузка контента
- •Примеры анализа
- •Интерактивный JavaScript
- •Создание консоли
- •Пример использования
- •Построение wordcloud
- •Подготовка корпуса
- •Построение облака
- •Кластерный анализ
- •Алгоритмы Кластерного Анализа
- •Алгоритм k-средних
- •Иерархическая кластеризация
- •Алгоритмы основанные на теории графов
- •Статистические алгоритмы
- •Пример использования функции kmeans()
- •Пример использования функции hclust()
- •Отдыхай с функцией getXksd()
- •Контрольные задания
Федеральное агентство связи
Федеральное государственное образовательное бюджетное
учреждение высшего профессионального образования
«САНКТ-ПЕТЕРБУРГСКИЙ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ
им. проф. М. А. БОНЧ-БРУЕВИЧА»
__________________________________________________________________________
Ф.В. Филиппов,
А.Н. Губин
Руководство
для практических занятий по ТОИ
Часть 1
Уважаемые
бакалавры!
Внимание - это сигнальный вариант
пособия! Оно
только готовится к изданию, поэтому
авторы с радостью примут и учтут все
замечания по его содержанию. Несомненно,
особо ценные предложения будут
вознаграждены!
СПбГУТ )))
САНКТ-ПЕТЕРБУРГ
2015
Оглавление
Введение 3
Язык программирования R 4
Инсталляция R и RStudio 5
Интерфейс среды разработки 5
Упражнения 11
Импортирование данных 11
Функция read.table() 13
Функция read.csv() 15
Фреймы 16
Доступ к столбцам фрейма 17
Доступ к строкам фрейма 18
Анализ XML документов 19
Пример функции visitNode() 19
Функция xmlSApply() 21
Анализ HTML контента 22
Загрузка контента 23
Примеры анализа 23
Интерактивный JavaScript 24
Создание консоли 24
Пример использования 25
Построение wordcloud 25
Подготовка корпуса 26
Построение облака 27
Кластерный анализ 28
Алгоритмы Кластерного Анализа 29
Алгоритм k-средних 30
Иерархическая кластеризация 31
Алгоритмы основанные на теории графов 32
Статистические алгоритмы 32
Пример использования функции kmeans() 33
Пример использования функции hclust() 34
Отдыхай с функцией getXKSD() 35
Контрольные задания 36
Ссылки 37
Введение
Руководство содержит необходимый методический материал для подготовки к практическим занятиям по дисциплине «Технологии обработки информации». Для успешного выполнения контрольных заданий рекомендуется по мере знакомства с материалом выполнять описываемые команды и анализировать результаты их выполнения. Команды выделены в тексте следующим образом:
> команда
Контрольные задания размещены в конце руководства и содержат все ссылки на ресурсы интернета, которые необходимы для их выполнения. Кроме того, в разделе ссылки находятся все источники, материалы из которых заимствованы в настоящем пособии.
Язык программирования r
R является свободно распространяемым программным обеспечением (язык программирования и среда разработки) для решения широкого класса задач в различных областях научных исследований. Современной мощной средой разработки на основе R служит RStudio, которая доступна для Windows, Linux и MacOS.
R широко используется в подавляющем большинстве университетов мира в учебном процессе, в научных кругах для проведения исследований, а также для нужд промышленности.
В настоящее время репозитарий CRAN (Comprehensive R Archive Network) для языка программирования R включает более шести тысяч доступных пакетов. Их количество постоянно растет, а назначение расширяется, по мере роста задач в различных научных областях. Полную информация о доступных пакетах всегда можно получить на [1].
Для первого знакомства с R весьма полезна информация из [2, 3]. Более подробная информация доступна на [4], а веб-сайт [5] содержит ссылки на некоторые бесплатные онлайн документы для R.
R постоянно меняется - как в плане возможностей самого языка, так и платформы. Обновления, содержащие новые и пересмотренные пакеты появляются несколько раз в неделю. Чтобы оставаться в курсе этих многочисленных изменений нужно периодически обращаться к некоторым интернет-ресурсам, которые постоянно информируют о том, что происходит в мире R.
Конечно основой является сайт [5], а на сайте [6] собираетcя информация обо всех новых и обновленных пакетах, и содержатся ссылки на CRAN для каждого из них. Еще следует отметить сайт планета R [7], который является отличным агрегатором, и включает в себя информацию из широкого диапазона источников. Сайт [8] является центральным узлом (блог агрегатором) для сбора контента от блоггеров, пишущих о R. На нем публикуется несколько новых статей каждый день – это отличное пособие для изучения новых методов из области аналитики данных и программирования.
Наконец, существенную помощь можно получить на сайте [9], где содержится основной список рассылки и который является лучшим местом, чтобы задать вопросы о R.