
Практические исследования Twitter предсказывает, что будет дальше
Вряд ли стоит удивляться тому, что изрядная доля попыток извлечь смысл из потока сообщений в Twitter непосредственно связана с биржевой торговлей. Трейдеры изобретали модели, позволяющие прогнозировать колебания курсов, задолго до появления первых социальных сетей. Они экспериментировали с самыми различными источниками данных, и, разумеется, не могли проигнорировать Twitter.
Пару лет назад специалисты из Мюнхенского технического университета опубликовали работу под названием «Твиты и сделки: информационное содержание биржевых микроблогов». Она описывала результаты шестимесячного эксперимента, во время которого анализу подвергались 250 тысяч постов в день, публикуемых в блогах биржевой тематики. С помощью средств анализа тональности текста исследователи делили твиты на пессимистичные и оптимистичные, а затем вычисляли «среднее настроение». Оказалось, что колебания индекса Standard & Poor’s 500, отражающего капитализацию пятисот крупнейших американских компаний, повторяют изменения настроений в Twitter, которые были зафиксированы днём раньше.
Похожее исследование опубликовали в 2010 году учёные из университетов Манчестера и Индианы, но они не отбирали сообщения биржевой тематики, а просеивали все твиты подряд. Кроме того, при семантическом анализе их интересовал не столько позитивный или негативный настрой твита, сколько чувства, которые он передаёт. Такой подход оказался не менее эффективным. Исследователи сумели выделить в анализируемых сообщениях факторы, которые верно предсказывали, куда направится индекс Dow Jones через несколько дней, в 87,6% случаев.
В 2011 году хедж-фонд Derwent Capital воспользовался методом, предложенным в этой работе. Компьютерная система, используемая компанией, искала в потоке сообщений из Twitter слова, соответствующие спокойному настрою. В Derwent Capital рассматривали изменение количества таких слов как признак изменений, которые произойдут с Dow Jones в ближайшие шесть дней, и реагировали соответственно. В течение первого же месяца работы по такой схеме фирма обошла показатели других хедж-фондов.
Twitter угадывает, кто победит
Другая известная публикация в этой области принадлежит исследователям из HP Labs. В 2010 году им удалось выработать математические модели, позволяющие с поразительной точностью предсказывать кассовый успех фильмов на основании упоминаний в Twitter. Исходными данными для анализа послужили 2,9 млн сообщений, оставленных 1,2 млн пользователей Twitter в течение трёх месяцев.
Первая модель, разработанная в HP Labs, учитывала количество кинотеатров, где прокатывается фильм, и частоту, с которой название фильма встречалось в Twitter перед премьерой. Этих данных оказалось достаточно для того, чтобы оценить потенциальные кассовые сборы каждого фильма за первую неделю проката. Точность прогноза составила 97,3%.
Другая модель предсказывала результаты второй недели проката. Если успех премьеры в значительной степени объясняется рекламой, то затем начинает работать «сарафанное радио». Это значит, что на вторую неделю важно знать не только количество упоминаний, но и контекст, в котором они появляются. Чтобы предсказать кассу второй недели с точностью в 94%, модель принимала во внимание количество положительных и отрицательных твитов.
Этот метод годится и для других целей. В начале 2012 года компания Globalpoint Research подсчитала количество упоминаний американских политиков в Twitter и обнаружила, что эта информация позволяет с высокой точностью предсказывать результаты праймериз, на которых Республиканская партия США выбирала кандидата в президенты.
Работа, опубликованная специалистами из Университета Индианы несколько месяцев назад, подтверждает эту оценку. Они рассмотрели зависимость между шансами кандидата в президенты США на успех и частотой, с которой его имя появляется в Twitter. Связь оказалась прямой: результаты на выборах коррелировали с количеством упоминаний. Есть, правда, одно «но»: выяснилось, что твиты о кандидате, который уже занимает государственный пост, несколько менее значимы, чем о его конкурентах. То же самое можно сказать о политиках, которые по какой-то причине попали в центр внимания СМИ. Если учитывать частоту упоминаний таких кандидатов с понижающим коэффициентом, то прогноз оказывается точнее.