![](/user_photo/2706_HbeT2.jpg)
- •Семинар 1. Введение в Stata
- •Управление данными
- •Формат исходных данных
- •Импорт данных в пакет Stata
- •Удаление ненужных переменных или наблюдений
- •Проставление меток переменных
- •Создание новых переменных
- •Перекодировка переменных
- •Автоматическое создание набора дихотомических (бинарных) переменных из категориальной
- •Подсчет числа наблюдений, удовлетворяющих определенному условию
- •Примеры простейшей обработки данных
Автоматическое создание набора дихотомических (бинарных) переменных из категориальной
В эконометрике часто используются дихотомические переменные, принимающие значение 1 в случае наличия определенной характеристики и 0 – в случае отсутствия ее у наблюдения. Например, в нашем случае, может быть полезным исследовать, как каждый отдельный жанр влияет на кассовые сборы. Для этого из категориальной переменной нужно сделать набор бинарных переменных, указывающих на то, относится фильм к каждому из жанров или нет. Команду tabulate можно применить даже к исходным строковым переменным, содержащим жанр, метод производства и рейтинг MPAA.
tabulate genre, gen(genre_)
Команда создала 7 переменных genre1-genre7 (по количеству жанров). Если фильм представляет данный жанр, то переменная принимает значение 1, если нет, то значение 0.
Упражнение: Самостоятельно создайте наборы дихотомических переменных для метода производства и рейтинга MPAA
Решение:
tabulate prod_method, gen(prod_method_)
tabulate mpaa_rating, gen(mpaa_rating_)
Подсчет числа наблюдений, удовлетворяющих определенному условию
Иногда бывает нужно оценить число наблюдений, удовлетворяющих определенному условию. Для этого используется команда count if. Подсчитаем, сколько в выборке фильмов с рейтингом R или NC-17, вышедших в 2011 году:
. count if production_year==2011&(mpaa_rating=="R"|mpaa_rating=="NC-17")
Или
. count if production_year==2011&(mpaa_rating2==4)
Таких фильмов оказалось 37.
Упражнение: Самостоятельно подсчитайте количество необычайно успешных фильмов, которые, имея бюджет не менее $5000000, имеют отношение выручки к бюджету, превышающее 5.
Решение:
count if infadj_prodbudget>=50000000& revenue_budget_ratio>5
Таких фильмов оказалось всего 3.
Упражнение на закрепление материала: создайте переменную revenue3, делящую выборку на 3 части: фильмы, заработавшие более 100 млн. долларов, от 50 до 100 млн. и менее 50 млн. долларов. Создайте метки значений для этой переменной, чтобы было ясно, что означает каждый уровень новой переменной.
Решение:
recode infadj_dom_boxoffice (min/50=0) (50/100=1) (100/max=2), gen(revenue3)
label define revenue3 0 "<$50mln" 1 “$50-100mln” 2 “>$100mln”
Примеры простейшей обработки данных
Приведем примеры простейшего описательного анализа. Если Вы забудете команды, то можете выполнить аналогичный анализ с помощью диалоговых окон меню Statistics – Summaries, tables and tests
Показатели центра распределения и изменчивости отношения кассовых сборов к производственному бюджету
. sum revenue_budget_ratio, detail
revenue_budget_ratio
-------------------------------------------------------------
Percentiles Smallest
1% .0028877 .0004779
5% .0272891 .0007169
10% .1119531 .0009022 Obs 2016
25% .4267339 .0010528 Sum of Wgt. 2016
50% .9431007 Mean 5.409487
Largest Std. Dev. 159.4693
75% 1.814018 66.55815
90% 3.283354 101.2196 Variance 25430.44
95% 5.227827 110.7806 Skewness 44.79311
99% 16.66324 7158.086 Kurtosis 2009.588
Частота встречаемости фильмов разных жанров
. proportion genre2
Proportion estimation Number of obs = 2016
_prop_6: genre2 = Romantic Comedy
_prop_7: genre2 = Thriller/Suspense
--------------------------------------------------------------
| Proportion Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
genre2 |
Action | .1185516 .0072014 .1044287 .1326745
Adventure | .1031746 .0067765 .089885 .1164642
Comedy | .2514881 .0096654 .2325328 .2704433
Drama | .3000992 .0102097 .2800765 .3201219
Horror | .0679563 .0056065 .0569611 .0789516
_prop_6 | .0570437 .0051667 .046911 .0671763
_prop_7 | .1016865 .006733 .0884822 .1148909
--------------------------------------------------------------
Средние кассовые сборы фильмов разных жанров
. tabstat infadj_dom_boxoffice, statistics( mean min max cv sd p50 ) by(genre) columns(statistics)
Summary for variables: infadj_dom_boxoffice
by categories of: genre
genre | mean min max cv sd p50
-----------------+------------------------------------------------------------
Action | 9.04e+07 868 7.79e+08 1.114717 1.01e+08 5.56e+07
Adventure | 1.36e+08 174637 5.55e+08 .9590641 1.30e+08 8.52e+07
Comedy | 5.55e+07 3172 3.80e+08 1.13609 6.31e+07 3.43e+07
Drama | 3.06e+07 5073 4.71e+08 1.636504 5.01e+07 9931695
Horror | 4.50e+07 521 2.92e+08 .944265 4.25e+07 3.71e+07
Romantic Comedy | 5.38e+07 11575 3.27e+08 1.05254 5.67e+07 3.58e+07
Thriller/Suspens | 4.82e+07 4063 3.10e+08 1.183138 5.70e+07 3.10e+07
-----------------+------------------------------------------------------------
Total | 5.89e+07 521 7.79e+08 1.350091 7.95e+07 3.18e+07
------------------------------------------------------------------------------
При копировании в Word подобных таблиц нужно использовать шрифт Courier New 8-10 кегля. При использовании других шрифтов таблицы будут смещены.