Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kursovaya_po_ITM (1).docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
3.84 Mб
Скачать

Глава 3. Практическая часть

3.1 Технология поиска, сбора, подготовки данных

Технология поиска, сбора и подготовки данных представляет собой ETL-процессы.

Поиск информации осуществляется посредством использования Интернет пространства, необходимые данные были найдены на сайте Федеральной службы государственной статистики в разделе «Публикации»- «Каталог публикаций» (рис.3)

Рисунок 3 – Поиск данных

После того, как данные были найдены, был осуществлен процесс сбора данных, то есть для дальнейшего использования были взяты данные за последний 21 год.

Следующим шагом стал процесс подготовки данных для их дальнейшего анализа в СППР Deductor. Таким образом, необходимые данные (год, валовый сбор подсолнечника, площадь посева) были представлены в виде таблицы в MS Excel, затем была произведена организация расчётного поля (урожайность). Далее все ячейки таблицы были отформатированы. (рис.4).

Рисунок 4 - Представление данных в MS Excel

После окончательного представления данных в MS Excel (рис.5), было произведено сохранение таблиц в файл текстового формата (текстовый редактор Блокнот). (рис.6)

Рисунок 5 - Окончательное представление данных в MS Excel

Рисунок 6 – Представление данных в текстовом формате

3.2 Технология загрузки данных

Загрузка данных проводится путём импорта данных из файла текстового формата с использованием СППР Deductor Studio.

Сначала необходимо загрузить СППР Deductor Studio, затем создать новый проект «Урожайность подсолнечника». После этого вызвать мастер импорта (рис.7)

Рисунок 7 – Мастер импорта СППР Deductor Studio

Далее необходимо выбрать имя файла, при этом, необходимо отметить, что импорт таблицы начинается с 1 строки. (рис.8)

Рисунок 8 – Импорт первой строки

Далее необходимо настроить формат импорта из файла, указать параметры столбцов (тип и вид данных, назначение столбцов). Столбец «Год» имеет строковый тип данных, «Урожайность» – вещественный. (рис.9)

Рисунок 9 – Тип данных в столбцах

Затем необходимо определить способы отображения данных. (рис.10)

Рисунок 10 – Выбор способа отображения данных

3.3 Технология обработки, визуализации и анализ данных

После того, как в программу был совершен импорт данных, начинается процесс обработки и визуализации данных. Данные процессы имеют непосредственную взаимосвязь, так как ещё на стадии импорта данных выбирается способ их отображения, затем данные автоматически обрабатываются и выводятся на экран.

Визуализация данных проходит с помощью «Мастера визуализаций» (рис.11)

Рисунок 11 – Мастер визуализаций

Последним пунктом «Мастера визуализации» является обработка данных (рис.12)

Рисунок 12 – Успешное завершение работы мастера визуализации данных

На начальном этапе данные были отражены в виде таблицы (рис.13), диаграммы (рис.14) и гистограммы (рис.15).

Рисунок 13 – Таблица значения урожайности подсолнечника

Из рис.13 можно увидеть данные урожайности подсолнечника по годам за период 1991-2011 годов.

Рисунок 14 – Диаграмма значений урожайности подсолнечника

На рис.14 наглядно представлена урожайность культуры по годам. Можно заметить, что наибольший показатель урожайности наблюдался в 2011 году, а наименьший в 2001 году. Используя диаграмму, можно просматривать имеющиеся данные по годам: подведением курсора к интересующему году и нажатием на него.

Рисунок 15- Гистограмма значений урожайности подсолнечника

На рис.15 также наглядно представлены значения урожайности, но в отличие от диаграммы по оси Y откладываются не сами года, а их количество в той или иной интервальной группе. По оси Х откладываются интервалы урожайности. Анализируя гистограмму, следует отметить, что за 21 год исследования, значений низкой урожайности подсолнечника (1996, 1997, 1998, 1999,2001,2010 года) больше, чем высокой (2005, 2008, 2011 года).

Затем, сделаем прогноз урожайности подсолнечника, используя нейросеть и линейную регрессию.

Нейросеть – это математическая модель, использующаяся для прогнозирования, в данном случае, экономической информации. Она имеет входные, скрытые и выходные нейроны. Входными нейронами являются анализируемые годы, а выходными урожайность культуры (рис.16).

Рисунок 16 – Граф нейросети

Помимо, графика нейросети в модели нейросети были рассмотрены следующие визуализаторы: диаграмма рассеяния, «что-если», статистика.

Рисунок 17 – Визуализатор «что-если»

На рис.17 представлен визуализатор «что-если», в котором отображены значения урожайности в зависимости от входных данных.

Рисунок 18 – Визуализатор статистика

На рис.18 представлен визуализатор статистика, с помощью которого наглядно представлена частота встречаемости признака в зависимости его от диапазона.

Рисунок 19 – Диаграмма рассеяния в нейросети

Диаграмма рассеяния представлена на рис.19. Из неё следует, что при вероятности ошибки 5% большинство значений урожайности подсолнечника не выходят за предельный интервал.

Далее составим прогноз по нейросети (рис.20).

Рисунок 20 – Прогноз урожайности подсолнечника по нейросети

Перейдём к анализу линейной регрессии, которая является статистическим методом исследования зависимости одних показателей от других. Были рассмотрены следующие визуализаторы: диаграмма рассеяния (рис.21), «что-если» (результат аналогичен результату нейросети).

Рисунок 21 – Диаграмма рассеяния в линейной регрессии

Сравнив рис.21 и рис.19, можно сказать о том, что линейная регрессия позволяет учитывать больше значений, чем нейросеть, так как в данном случае количество результатов, вышедших за пределы интервалов, ниже.

Далее составим прогноз по линейной регрессии (рис.22).

Рисунок 22 – Прогноз урожайности подсолнечника по линейной регрессии

Сравним прогнозы урожайности подсолнечника между собой и с фактическим значением (таб.1).

Таблица 1- Сравнительный анализ прогнозов урожайности

Прогноз

Числовые данные урожайности, ц/га

В нейронной сети

11,801

Линейная регрессия

12,740

Фактическое значение

13,000

Из таблицы видно, что модель линейной регрессии позволила получить данные, более приближенные к фактическим. При использовании линейной регрессии, прогнозное значение урожайности отличается от фактического не более, чем на 2%. При использовании нейронной сети значения урожайности отличаются не более, чем на 10% (не входит в доверительный интервал).

Таким образом, модель нейросети, в отличие от модели линейной регрессии, нельзя использовать для качественного и наиболее точного прогнозирования урожайности подсолнечника.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]