Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Алтайский край - отчет.doc
Скачиваний:
11
Добавлен:
01.07.2025
Размер:
510.98 Кб
Скачать

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

“ВЫСШАЯ ШКОЛА ЭКОНОМИКИ”»

Факультет экономических наук

Образовательная программа «Экономика»

Отчёт по анализу инвестиционного климата Алтайского края средствами VBA

Выполнили студенты 2 курса

Шулепа В.Г., Игнатченко К.М.

Проверил

преподаватель департамента

анализа данных и искусственного интеллекта, к. ф.-м. н. Яворский Р. Э.

Оглавление

Введение 3

Анализ текстовых источников 6

Заключение 11

Список литературы и источников данных 12

Приложение 13

1. Макросы для VBA анализа текстовых источников 13

1.1. Импорт найденных в Интернете данных в Excel 13

1.2. Экспорт данный в файлы формата txt 14

1.3. Работа с программой MyStem 14

1.4. Экспорт обработанных данных из файлов txt в Excel 14

1.5. Сортировка и удаление дубликатов 15

1.6. Составление единого столбца из всех слов 16

1.7. Создание пар и их группировка 16

Введение

Автоматическая обработка и анализ крупных массивов данных приобретают всё большее значение в современном мире в связи с ростом объема информации, связанной с определенными вопросами. Особенно ярко эта тенденция выделяется в тех отраслях экономики, которые так или иначе связаны с макроуровнем, например, государственное управление. Анализ регионов Российской Федерации напрямую связан с необходимостью обработки таких массивов информации, которые не представляется возможным обработать вручную. Одним из наиболее эффективных инструментов для этого на данный момент является язык программирования Visual Basic for Applications (VBA), в частности применяемый в общеизвестной офисной программе Excel. Его внедрение в компаниях мирового уровня и в органах государственного управления значительно упрощает процедуру обработки с сбора необходимой информации. Цель данного проекта – первоначальный анализ инвестиционного климата Алтайского края с использованием VBA. Проект можно подразделить на следующие этапы (которые затем можно подразделить на под этапы в зависимости от вида обрабатываемой информации):

  • Обработка разных видов информации (текстовой, графической, цифровой, сетевой, картографической) с целью получения общих тенденций в инвестиционной сфере Алтайского края

  • Визуализация данных при помощи вспомогательных синхронизируемых с VBA программ: Mystem, Word in Out (онлайн система), yEd – Graph Editor

  • С опорой на полученную базу данных сделать необходимые выводы касательно инвестиционного климата в Алтайском крае

Для понимания общих положений касательно Алтайского края дадим краткую характеристику данному субъекту РФ. Он расположен на юго-востоке Западной Сибири, в 3419 км. от столицы РФ – Москвы. Территория края составляет 168 тыс. кв. км, по площади занимает 24-е место в Российской Федерации и 10-е место в Сибирском федеральном округе. Алтайский край обладает значительными природными ресурсами. Главные реки: Обь, Бия, Катунь, Алей, Чарыш. Суммарный поверхностный сток рек края составляет 53,5 км3 в год, причем большая его часть формируется в реке Обь. На территории края расположены 13 000 экологически чистых озер. Алтайский край также богат подземными водами. В крае используется менее 20% пресных подземных вод от общих прогнозных эксплуатационных запасов. Животный мир богат и разнообразен: около 290 видов птиц, более 400 видов насекомых, 82 вида млекопитающих. Флора Алтайского края насчитывает 2186 видов растений. Пастбищные и сенокосные угодья Алтайского края занимают 3731 тыс. га, что составляет 35% от площади сельскохозяйственных угодий. Полезная флора края насчитывает 1184 вида растений, среди которых имеются: лекарственные – 913 видов, медоносные – 379, кормовые – 663, декоративные – 400, пищевые – 228, витаминосные – 42, красильные – 117, эфирно-масличные – 87, дубильные – 58, ядовитые – 135, технические – 79 видов. Группа лекарственных растений наиболее крупная, из них широко используются в официальной медицине около 100 видов. Показатель средней лесистости края около 23,1%.1 Основной фокус минерально-сырьевых ресурсов – полиметаллические руды. На данный момент насчитывается всего 16 их месторождений. Большинство месторождений ведутся экологически безопасным подземным способом. Значительны и почвенные ресурсы края. Распаханность земель составляет около 40%.

В структуре валового регионального продукта существенно преобладают доли промышленности, сельского хозяйства, торговли. Эти виды деятельности формируют 53,6% общего объема ВРП.2 Свыше 80% промышленного производства – обрабатывающие. Фокусом пищевого производства можно считать производство экологически чистого пищевого сырья (крупнейший поставщик в России). Алтайский край занимает 1 место в Российской Федерации по посевной площади зерновых и зернобобовых культур и традиционно высокие позиции по объему производства продуктов животноводства. Значителен рекреационный потенциал края. Более того, государственная политика края направлена на формирование выгодных условий для привлечения инвестиций.

Таким образом, исходя из этих общих данных можно сформировать следующие положения первичной гипотезы нашего проекта:

  • Инвестиционный климат в Алтайском крае один из наиболее высоких по рейтингу субъектов РФ, причем он обнаруживает восходящую тенденцию во времени

  • Основные инвестиционные фокусы края: рекреационный, пищевой (в частности производство экологически чистой продукции), обрабатывающая промышленность

Основным источником данных для анализа текстовых источников стал сайт государственных закупок Алтайского края и сайт инвестиций Алтайского края [http://invest.alregn.ru/]. При написании программных кодов был использован ресурс факультета компьютерных наук НИУ ВШЭ «Введение в VBA». С более полным списком источников можно ознакомиться в разделе «Список литературы и источников данных».

Анализ текстовых источников

При анализе текстовых источников был использован сайт [http://invest.alregn.ru/], содержащий информацию о реализуемых в Алтайском крае инвестиционных проектах. В таблицу Excel был вручную выгружен список URL-адресов тех html страниц, которые содержали информацию об инвестиционных проектах. Следующим этапом был автоматизированный импорт текстовых данных с соответствующих страниц при помощи VBA, причем на данном этапе возникла проблема некорректного отображения некоторых данных (сливание слов) по причине табличного отображения текста, которая была решена написанием соответствующего кода. Далее текстовые данные были записаны в автоматически созданные файлы формата txt.

Средствами VBA была проведена синхронизация с программой MyStem, при помощи которой был произведен морфологический разбор получившихся текстов, слова были поставлены в начальную форму, удалены дубликаты. Затем была создана матрица слов, при помощи которой была визуализирована частота появления слова в конкретном отчете по проекту. Затем при помощи функции Excel «СЧЁТЕСЛИ» была подсчитана общая частота появления слов в выгруженных данных. Результат этих операций был визуализирован как облако слов (Рис.1) при помощи онлайн сервиса WordItOut [www.worditout.com].

Рис. 1. Облако слов для инвестиционных проектов Алтайского края

Источник: онлайн – сервис [www.worditout.com]

Таким образом, наиболее часто встречающиеся в отчетах по реализуемым проектам слова, с учетом погрешности на табличную запись (т.е. исключая такие общие слова, как страна, компания, стадия и т.д.) дают представления как о территориальном распределении инвестиций по Алтайскому краю, так и о наиболее благоприятных и популярных сферах вложений и даже о некоторых особенностях региона. Так, в наиболее частотные слова входят Барнаул, Белокуриха и Бийск – крупные города районного значения. Отсюда можно сделать первоначальный вывод о концентрации инвестиций по крупным городам края, что с учетом его географических особенностей (рельефа) и сложившихся традиций может быть довольно обоснованно. Судя по всему, основные сферы вложений – образование, рекреация и отдых, перерабатывающее хозяйства, животноводство (в особенности коневодство) и, наконец, пищевая промышленность. Эти результаты подтверждают нашу гипотезу.

Следующий этап работы заключался в парсинге слов – процедуре, часто используемой при создании контекстной рекламы в интернете (например, в сервисе Яндекс.Директ [direct.yandex.ru]). При помощи макроса и матрицы слов, созданной на предыдущем этапе работы с текстовой информацией, были созданы все возможные пары слов и найдена частота их появления в конкретном отчете. Полученный результат вручную был отсортирован по уменьшению частотности, наименее частотные пары были удалены. Далее для корректности и ясности отображения данных пар на графе массив данных был существенно сокращен: удалены все пары с частотностью менее 40. Наиболее частыми оказались словосочетания, в состав которых входили следующие слова: инвестиция, федерация, экономический, проект, стадия, компания и т.д. (Рис. 2). В целом вывод, который можно сделать, основываясь на данных сочетаниях слов – Алтайский край тесно «включен» в общегосударственные инвестиционные проекты, является привлекательным регионом как для государственных вложений, так и для частных инвесторов.

Рис. 1. Граф словосочетаний на основе информации о реализуемых инвестиционных проектах Алтайского края

Программные коды, использованные для обработки текстовой информации данного раздела, можно найти в разделе Приложение, п.1

Анализ инвестиций в регионе

При анализе инвестиций были использованы данные Международного центра по урегулированию инвестиционных споров (ICSID). В таблицу были скопированы и агрегированы инвестиции с 2005 по 2013 год. Следующим этапом было выражение инвестиций по годам в долях; за 100% считались инвестиции по всем статьям расходов по каждому году. Следующий шаг – вычисление суммы отличий для каждой пары лет. Последний шаг перед построением графиков – формирование в отдельном файле листов Notes и Edges. В процессе работы над предыдущим файлом были сделаны технологические упрощения в названиях: года были заменены на последовательную нумерацию, на листе «N» года были переобозначены обратно. На листе «Edges» были отсортированы пары лет по возрастанию значений.

Для построения графика была выбрана программа yEd Graph Editor.

Анализируя график, можно сделать вывод, что за период с 2005 по 2013 год инвестирование в регион было равномерным, не считая небольшой рецессии в периоде с 2006 по 2007. Данный анализ позволяет сделать вывод о том, что Алтайский край является надежным объектом для инвестирования: в качестве объекта для инвестирования Алтайский край отличается безрисковостью и постоянством инвестиционной отдачи.

Заключение

В процессе проведения нашего проекта у нас была возможность сделать некоторые практические выводы касательно VBA в приложении к Microsoft Excel. Данный язык программирования крайне полезен для пользования при обработке больших массивов информации, что делает его использование необходимым при работе в крупных корпорациях и государственных органах. Стоит заметить, что VBA уступает другим языкам программирования в теоретическом плане (т.е. разработке определенных сложных программ), однако не в практическом: т.е. данный язык можно назвать практически-ориентированным.

Мы обозначили цель данного проекта как первоначальный анализ инвестиционного климата Алтайского края с использованием VBA и считаем её успешно реализованной. На начальном этапе работы мы также составили две основных гипотезы: о положительном инвестиционном климате в Алтайском крае, который обнаруживает тенденцию к улучшению и о том, какие промышленно-экономические сферы могут быть наиболее инвестиционно-привлекательными. Данные гипотезы опирались на выводы, которые были сделаны нами на основании конкретных статистических выводов касательно экономических и географических особенностей края. Таким образом, мы выделили следующие инвестиционные направления: рекреационное, пищевое, обрабатывающее. В процессе работы над проектом было выявлено, что первая гипотеза верна, а вторая гипотеза может быть частично опровержена.

Среди недостатков инвестиционных особенностей края стоит выделить фиксированность инвестиций на определенных крупных городах (что, можно сказать, является особенностью большинства регионов России). Таким образом можно говорить о том, что для дальнейшего улучшения инвестиционной привлекательности Алтайского края следует географически «рассеять» инвестиции: это поможет как улучшить экологическую ситуацию, так и снизить конкуренцию, что приведет к росту «вливаний» в развитие края.

В результате нашего проекта были не только сделаны определенные качественные выводы, но и составлены два графа (связывающий ключевые паросочетания и по инвестициям Алтайского края), создано облако ключевых слов.

Список литературы и источников данных

  1. Лекции [Электронный ресурс] – http://wiki.cs.hse.ru/Введение_в_VBA

  2. Электронный ресурс – http://invest.alregn.ru/

  3. Инвестиционная карта Алтайского края - http://invest.alregn.ru/map/?lng=ru

  4. МЦУИС - https://icsid.worldbank.org

Приложение

  1. Макросы для vba анализа текстовых источников

    1. Импорт найденных в Интернете данных в Excel

'Программа открывает сайт в браузере импортирует необходимые данные в Excel

Sub ImportDataFromWeb()

'Объявление переменных. Для того, чтобы использовать классы InternetExplorer и HTMLDocument необходимо подключить соотвествующие библиотки во вкладке Tools, References

Dim ie As InternetExplorer, html As HTMLDocument, oElement As Object, oElement2 As Object

'Открытие и скрытие браузера

Set ie = New InternetExplorer

ie.Visible = False

'Цикл для обработки всех имеющихся 49 ссылок

For L = 1 To 49

'Присуждение ссылки объекту URL

URL = Sheets("UrlList").Cells(L, 1).Value

'Открытие ссылки

ie.navigate URL

Do While ie.readyState <> READYSTATE_COMPLETE

Application.StatusBar = "Trying to go to " + URL

DoEvents

Loop

'В переменную htlm вносится код страницы

Set html = ie.document

'В нашем типе html страниц используется два класса объектов:name и value. В ячейку импортируем то, что взято из соотвествующего класса со страницы, прибавляем к этому то, что уже есть в ячейке на тот момент и делаем табуляцию (vbCrLf)

For Each oElement2 In html.getElementsByClassName("name")

Sheets("Html").Cells(L, 1).Value = Sheets("Html").Cells(L, 1).Value & oElement2.innerText & vbCrLf

Next oElement2

For Each oElement In html.getElementsByClassName("value")

Sheets("Html").Cells(L, 1).Value = Sheets("Html").Cells(L, 1).Value & oElement.innerText & vbCrLf

Next oElement

Next L

'"Уборка мусора", т.е. очистка памяти

Set ie = Nothing

'Обнуление StatusBar

Application.StatusBar = ""

End Sub

    1. Экспорт данный в файлы формата txt

Sub WriteToText()

'Создаем папку txt, в которую будут экспортированы данные из Excel

FilePath = "C:\Users\123\Desktop\Project\text analisis\InformationTXT\"

'Цикл по каждой ячейке с текстом

For i = 1 To 49

'Преобразование из числа в строку - Str(i), фунция Trim удаляет пробелы

num = Trim(Str(i))

'Имя файла составляется из info, номера и формата файла

FName = FilePath & "info" & num & ".txt"

'Будем обращаться в программе к файлу как к #1

Open FName For Output As #1

Write #1, Sheets("Info").Cells(i, 1).Value

Close #1

Next i

End Sub

    1. Работа с программой MyStem

'Программа запускает вспомогательную программу Mystem

Sub RunMystem()

FilePath = "C:\Users\123\Desktop\Project\textanalisis\InformationTXT\"

For i = 1 To 49

num = Trim(Str(i))

fileIn = FilePath & "info" & num & ".txt"

fileOut = FilePath & "info" & num & "_res.txt"

'Запуск программы с учетом параметров выполнения программы и данных для этой программы

params = "C:\Users\123\Desktop\Project\textanalisis\mystem.exe -l -n -d -e win " + fileIn + " " + fileOut

'Запуск програмной строки компьютера, которая откроет программу

retVal = Shell(params, vbNormalFocus)

'Приложение закрывается через 2 сек.

Application.Wait (Now + TimeValue("0:00:02"))

Next i

End Sub