Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар 1. Введение в Stata.docx
Скачиваний:
10
Добавлен:
10.11.2019
Размер:
343.05 Кб
Скачать
  1. Автоматическое создание набора дихотомических (бинарных) переменных из категориальной

В эконометрике часто используются дихотомические переменные, принимающие значение 1 в случае наличия определенной характеристики и 0 – в случае отсутствия ее у наблюдения. Например, в нашем случае, может быть полезным исследовать, как каждый отдельный жанр влияет на кассовые сборы. Для этого из категориальной переменной нужно сделать набор бинарных переменных, указывающих на то, относится фильм к каждому из жанров или нет. Команду tabulate можно применить даже к исходным строковым переменным, содержащим жанр, метод производства и рейтинг MPAA.

tabulate genre, gen(genre_)

Команда создала 7 переменных genre1-genre7 (по количеству жанров). Если фильм представляет данный жанр, то переменная принимает значение 1, если нет, то значение 0.

Упражнение: Самостоятельно создайте наборы дихотомических переменных для метода производства и рейтинга MPAA

Решение:

tabulate prod_method, gen(prod_method_)

tabulate mpaa_rating, gen(mpaa_rating_)

  1. Подсчет числа наблюдений, удовлетворяющих определенному условию

Иногда бывает нужно оценить число наблюдений, удовлетворяющих определенному условию. Для этого используется команда count if. Подсчитаем, сколько в выборке фильмов с рейтингом R или NC-17, вышедших в 2011 году:

. count if production_year==2011&(mpaa_rating=="R"|mpaa_rating=="NC-17")

Или

. count if production_year==2011&(mpaa_rating2==4)

Таких фильмов оказалось 37.

Упражнение: Самостоятельно подсчитайте количество необычайно успешных фильмов, которые, имея бюджет не менее $5000000, имеют отношение выручки к бюджету, превышающее 5.

Решение:

count if infadj_prodbudget>=50000000& revenue_budget_ratio>5

Таких фильмов оказалось всего 3.

Упражнение на закрепление материала: создайте переменную revenue3, делящую выборку на 3 части: фильмы, заработавшие более 100 млн. долларов, от 50 до 100 млн. и менее 50 млн. долларов. Создайте метки значений для этой переменной, чтобы было ясно, что означает каждый уровень новой переменной.

Решение:

recode infadj_dom_boxoffice (min/50=0) (50/100=1) (100/max=2), gen(revenue3)

label define revenue3 0 "<$50mln" 1 “$50-100mln” 2 “>$100mln”

  1. Примеры простейшей обработки данных

Приведем примеры простейшего описательного анализа. Если Вы забудете команды, то можете выполнить аналогичный анализ с помощью диалоговых окон меню Statistics – Summaries, tables and tests

  • Показатели центра распределения и изменчивости отношения кассовых сборов к производственному бюджету

. sum revenue_budget_ratio, detail

revenue_budget_ratio

-------------------------------------------------------------

Percentiles Smallest

1% .0028877 .0004779

5% .0272891 .0007169

10% .1119531 .0009022 Obs 2016

25% .4267339 .0010528 Sum of Wgt. 2016

50% .9431007 Mean 5.409487

Largest Std. Dev. 159.4693

75% 1.814018 66.55815

90% 3.283354 101.2196 Variance 25430.44

95% 5.227827 110.7806 Skewness 44.79311

99% 16.66324 7158.086 Kurtosis 2009.588

  • Частота встречаемости фильмов разных жанров

. proportion genre2

Proportion estimation Number of obs = 2016

_prop_6: genre2 = Romantic Comedy

_prop_7: genre2 = Thriller/Suspense

--------------------------------------------------------------

| Proportion Std. Err. [95% Conf. Interval]

-------------+------------------------------------------------

genre2 |

Action | .1185516 .0072014 .1044287 .1326745

Adventure | .1031746 .0067765 .089885 .1164642

Comedy | .2514881 .0096654 .2325328 .2704433

Drama | .3000992 .0102097 .2800765 .3201219

Horror | .0679563 .0056065 .0569611 .0789516

_prop_6 | .0570437 .0051667 .046911 .0671763

_prop_7 | .1016865 .006733 .0884822 .1148909

--------------------------------------------------------------

Средние кассовые сборы фильмов разных жанров

. tabstat infadj_dom_boxoffice, statistics( mean min max cv sd p50 ) by(genre) columns(statistics)

Summary for variables: infadj_dom_boxoffice

by categories of: genre

genre | mean min max cv sd p50

-----------------+------------------------------------------------------------

Action | 9.04e+07 868 7.79e+08 1.114717 1.01e+08 5.56e+07

Adventure | 1.36e+08 174637 5.55e+08 .9590641 1.30e+08 8.52e+07

Comedy | 5.55e+07 3172 3.80e+08 1.13609 6.31e+07 3.43e+07

Drama | 3.06e+07 5073 4.71e+08 1.636504 5.01e+07 9931695

Horror | 4.50e+07 521 2.92e+08 .944265 4.25e+07 3.71e+07

Romantic Comedy | 5.38e+07 11575 3.27e+08 1.05254 5.67e+07 3.58e+07

Thriller/Suspens | 4.82e+07 4063 3.10e+08 1.183138 5.70e+07 3.10e+07

-----------------+------------------------------------------------------------

Total | 5.89e+07 521 7.79e+08 1.350091 7.95e+07 3.18e+07

------------------------------------------------------------------------------

При копировании в Word подобных таблиц нужно использовать шрифт Courier New 8-10 кегля. При использовании других шрифтов таблицы будут смещены.

8