Кодировка и согласованность в интерпретации понятий
Для исследования выбирались комментарии, относящиеся к одному из новостных постов, принадлежащих наиболее популярными изданиями России и США, опубликовавшими новость, связанную с данным событием. Популярность издания определялась по количеству подписчиков (более 300 (трехсот) тысяч подписчиков).
Выборка комментариев осуществлялась по следующему принципу:
Для кодирования использовались первые 50 комментариев в каждом источнике;
Комментарии должны были быть оставлены в день легализации или в течение 2 дней после;
Комментарии не должны были быть частью обсуждения (ответы другим пользователям);
Комментарии должны были принадлежать пользователям, аккаунты которых активны.
При кодировке использовались следующие категории:
пол комментатора (мужской/женский/невозможно определить);
«Мужской» и «женский» пол ставится, если пользователь указал соответствующую информацию в данных своей страницы.
«Невозможно определить» - если соответствующей информации нет и определить ее по фотографии профиля, записям на стене и т.д. невозможно.
возраст комментатора (до 30 лет/30 лет и старше/невозможно определить);
Код ставится в соответствии с информацией о возрастных данных, указанных на странице пользователя или полученных с помощью анализа его страницы (фотографий, пабликов, групп и т.д.).
место проживания комментатора (Россия: Москва, Санкт-Петербург/Россия: другой регион/Россия: не указано; США: консервативный штат/США: либеральный штат/США: не указано; невозможно определить; иное);
Код ставится в соответствии с информацией о географических данных, указанных на странице пользователя или полученных с помощью анализа его страницы. Разделение штатов на консервативные и либеральные представлено в Приложении 1.
уровень образования комментатора (среднее образование/высшее образование/невозможно определить);
Код ставится в зависимости от наличия и/или отсутствия у субъекта того или иного образования, если эта информация доступна после анализа страницы пользователя.
Сфера комментария (политико-правовая/экономическая/социокультурная/религиозная сферы);
Под «политико-правовой сферой» комментария следует понимать комментарий, в котором упоминаются институты политической и правовой сфер общества (такие как президент государства, правительство, суды, политики, правовая система, законы, министры и т.п.).
Под «экономической сферой» следует понимать упоминание в комментарии состояние экономики государства, покупательную способность граждан, заработную плату населения, налоги и т.п.
Под «социокультурной сферой» следует понимать высказывание, в котором упоминаются характерные особенности той или иной социальной группы, населения определенного региона, которые определяют содержание комментария.
Под «религиозной сферой» следует понимать упоминания Бога, церкви, религиозных книг и религиозных институтов общества в комментарии.
тональность сообщения (позитивное/нейтральное/негативное);
Код ставится в зависимости от отношения субъекта к теме обсуждения в конкретном сообщении. Отношение определялось с помощью использованных слов и выражений, знаков препинания, ненормативной лексики, и.т.д.
интенсивность оценивания лайками (меньше 1%, от 1% до 5%, от 5% до 10%, 10% и более).
Код ставится в зависимости от числа, равного отношению количества лайков комментария к количеству лайков инфоповода.
Из-за того, что категории Возраст и Тональность были довольно субъективными, нами было проведено пробное тестирование, оговорено несколько тонкостей, связанных с определением кода, а все спорные моменты выносились на общее обсуждение.
Пример кодировки:
