Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Естественно-научные методы исследований в теории и практике производства судебных экономических и речеведческих экспертиз_ Материалы Всероссийской научно-практической конференции

.pdf
Скачиваний:
16
Добавлен:
06.09.2022
Размер:
3.62 Mб
Скачать

определение и дифференциация пределов компетенции выполняющих экспертизу

(исследование) специалистов, подвигает научное сообщество искать новые формы и методы ее производства. В Республике Беларусь разработчики НИР предлагают следующее –

«создание собственной методики проведения комплексной психолого-лингвистической экспертизы информационных материалов экстремистской направленности с учетом требований национального законодательства… что может послужить ориентиром в формировании в обществе представлений о пределах допустимости в вопросах толерантности» [5, 369].

Резюмируя выше сказанное следует признать, что проведение лингвистических экспертиз в Республике Беларусь пока юридически не закреплено, отсутствуют аттестованные специалисты и структурные экспертные подразделения по ее производству, не имеется собственных экспертных методик и методических материалов, однако лингвистическая экспертиза является активно развивающимся направлением прикладной лингвистики и представляет значительный интерес как для научных исследований, так и вызывает большую потребность для правосудия. Выступая регулятором законности, судебная лингвистическая экспертиза, таким образом, способна играть важную роль в установлении истины в спорном вопросе, а правоохранительные органы должны обладать достаточной осведомленностью о возможностях лингвистической экспертизы и особенностях ее назначения.

Полагаю, что для улучшения всей системы производства в Республике Беларусь судебной лингвистической экспертизы в современных условиях на более высокий уровень функционирования, требуется:

разработка стандартов переподготовки судебных экспертов по специальности

«Судебная лингвистическая экспертиза», аттестация судебных экспертов по направлению специальности, организация непрерывного обучения экспертов-лингвистов, в том числе новым методам, средствам и методикам производства судебных экспертиз;

постоянная разработка прикладных НИР для исследования различных компонентно-

сложных и комплексных объектов лингвистической экспертизы, в том числе с привлечением компетентных специалистов из других областей научных знаний, например, психологии,

культурологии, искусствоведения, социологии, этнографии, религиоведения, политологии и др.;

активное внедрение научно-методических, информационных и технических разработок в экспертную практику;

создание в Республике Беларусь общественных и научных экспертно-лингвистических объединений подобно российским и зарубежным сообществам;

регулярное проведение научно-практических конференций, семинаров, круглых

столов, школ для участия судебных экспертов и научных работников по прикладной

лингвистике.

Список литературы:

1.Щербакова, О.И. Лингвистическая экспертиза как новый вид экспертных исследований / О.И. Щербакова // Судовы веснiк. – 2005. – № 2. – С. 60-63

2.Андреева, А.В. Состояние лингвистической экспертизы в Республике Беларусь / А.В. Андреева, А.А. Кирдун // Криминалистические средства и методы в раскрытии и расследовании преступлений: Матер. VI Всероссийской научно.-практ. конф. по криминалистике и судебной экспертизе (г. Москва, 4-5 марта 2014 г.). – М.: ЭКЦ МВД России, 2014. – С. 105-107

3.Тематический план работ по научно-техническому обеспечению деятельности Государственного комитета судебных экспертиз Республики Беларусь (2015-2016 гг.), государственная регистрация темы № 20150380 от 02 апреля 2015 г. (научный руководитель – Кирдун А.А.)

4.Кукушкина, О.В. Методика проведения судебной психолого-лингвистической экспертизы материалов по делам, связанным с противодействием экстремизму и терроризму / О.В. Кукушкина, Ю.А. Сафонова, Т.Н. Секераж. – М.: ФБУ РФЦСЭ при Минюсте России,

2014. – 98 с.

5. Кирдун, А.А. Комплексная психолого-лингвистическая экспертиза письменных

текстов в Республике Беларусь / А.А. Кирдун, Г.В. Михайленко, А.В. Андреева, А.С.

Жмакова, О.В. Середа // Уголовный процесс и криминалистика: Криминалистические чтения

памяти заслуженного деятеля науки Республики Беларусь Н.И. Порубова. Ч.2: Матер. Межд.

научно-практ. конф., г. Минск, 3 декабря 2015 г. – Минск: Академия МВД, 2015. – С. 365-370

Possibilities of forensic linguistics in the republic of belarus: current situation and development prospects

I.G. Doda

State Institution «Scientific and Practical Center of the State Forensic Examination

Committee

of the Republic of Belarus»

The article analyzes the information on the possibilities of forensic linguistic examination of the Republic of Belarus. The factors of formation of linguistic expertise in Belarus are analyzed, as

well as the prospects for the development in accordance with the terms of the task and the nature of the special knowledge used, the formation of a theoretical and methodological framework of forensic linguistic by carrying out applied research work, the result of which are modern methodological materials; concrete proposals on the establishment of examination at this stage of development are provided.

Keywords: forensic examination, verbal text, crime, forensic linguistic examination, methodological support.

ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТОЛЕРАНТНОСТИ БЛОГОВ ПОЛИТИКОВ

СИСПОЛЬЗОВАНИЕМ КОЛИЧЕСТВЕННЫХ МЕТОДОВ

ИКОМПЬЮТЕРНОГО ИНСТРУМЕНТАРИЯ

К.А. Дружков, М.А. Фокина

Национальный исследовательский университет «Высшая школа экономики»

etlau3@yandex.ru

Статья посвящена проблеме использования квантитативных методов для выявления такого качества политического дискурса, как интолерантность. На материале блогов политиков исследуется возможность применения компьютерного инструментария для оценки толерантности записей электронных дневников и комментариев к ним. На основании предварительной ручной разметки записей блогов и комментариев к ним по признаку интолерантности, а также словаря интолерантной лексики, составленного в ходе работы с эмпиричесой базой, было проведено тестирование компьютерной программы, написанной на языке программирования Python 3.4.2. В статье приводятся основные количественные показатели работы программы, ее результаты для проверки гипотезы о взаимообусловленности интолерантности записей и комментариев и анализ ошибок. Обоснован вывод о необходимости дополнения лексического подхода технологиями машинного обучения.

Ключевые слова: политический дискурс, блоги политиков, толерантность, компьютерная лингвистика.

В настоящее время в русской лингвокультуре толерантность предстает в роли новой

коммуникативной нормы, декларируемой в первую очередь для официальной коммуникации,

к которой можно отнести большинство текстов политического дискурса, что обосновывает

рассмотрение блогов политиков в аспекте толерантности. Целью настоящего исследования

является анализ толерантности записей блогов политиков и комментариев к ним с использованием методов компьютерной лингвистики с опорой на накопленный в данной научной области опыт автоматизированной оценки тональности текста [1], [2]. Актуальность исследования связана в том числе с областью лингвокриминалистики и обусловлена

взаимосвязью интолерантности и таких понятий, как негативная информация и оскорбление,

являющихся базовыми для речеведческих экспертиз [3].

Материалом для первого этапа исследования послужили 60 записей и соответствующие комментарии из блогов Никиты Белых, Сергея Миронова и Бориса Немцова за 2014 год на платформе Lifejournal.

Работа с эмпирической базой состояла в ручной разметке записей блогов и составлении словаря интолерантной лексики, использованной в комментариях. При определении толерантности записей блогов авторы руководствовались пониманием толерантности как терпимости к чужому, в том числе к инакомыслию (при возможности оставаться при своем мнении), стремления к согласию, предупреждению конфликтов [4]. Для анализа записей блогов на предмет интолерантности электронные дневники были рассмотрены с точки зрения реализации авторами речевой стратегии дискредитации, нацеленной на подрыв доверия к объекту через оскорбление, издевку, осмеяние и др. [5]. Исследование обнаружило значительную разницу в степени интолерантности дискурса политиков: лишь одна запись из

20 была признана интолерантной в блоге Никиты Белых, в электронном дневнике Сергея Миронова интолерантными было признано 8 записей, в блоге Бориса Немцова – все 20

записей.

На этапе эмпирического исследования комментариев к анализируемым блогам был составлен словарь интолерантной лексики, включающий более 200 единиц, обладающих пейоративной эмоционально-экспрессивной коннотацией. Большинство выявленных лексем может быть отнесено к одному из следующих классов: слова и выражения, обозначающие социально осуждаемую деятельность (алкаш, проститутка, жулик, рецидивист); слова,

содержащие экспрессивную негативную оценку поведения человека, без отношения к указанию на конкретную деятельность или позицию (ублюдок, говнюк); слова, содержащие экспрессивную негативную оценку уровня интеллекта (придурок, недоумок, дегенерат);

слова, содержащие осуждение общественно-политической позиции (русофоб, госдеповский,

либераст, путиноид, крымнашист, едросня); слова, содержащие негативную оценку записи блога или других комментариев (неадекват, вранье, наивняк, демагогия).

Для исследования возможности автоматизации определения толерантности текстов была написана компьютерная программа, основывающаяся на лексическом подходе. Данный подход состоит в подсчете слов и их коэффициентов, оценка которых предварительно определяется эмпирическим путем. Традиционно под оценкой подразумевается тональность слова, в простейшем случае «-1» и «+1». В данной работе предлагается оценка на основании толерантности. В качестве классов выделялись 3 или 2 категории в зависимости от

поставленной задачи: троичная при выявлении закономерностей на уровне ручной разметки и двоичная при тестировании автоматизации. В первом случае рассматриваются следующие классы: «-1», для интолерантных сообщений, «0» для нейтральных и «1» для толерантных. Во втором случае толерантные и нейтральные комментарии объединялись в одну категорию «0»,

поскольку именно интолерантность выступала в качестве маркированного признака.

Разграничение таких признаков, как нейтральность и толерантность, по наблюдениям авторов, в большей степени опирается на контекст, чем на конкретные лексические единицы,

в связи с чем его автоматизация находится за рамками данного исследования.

Файл с предварительно размеченными комментариями и словарь интолерантной лексики были использованы программой, написанной на языке программирования Python

3.4.2. Результатом работы программы стал вывод эмпирически и автоматически полученных значений толерантности для каждого из комментариев, а также информации о наличии ответа к нему и номера статьи, к которой он относится. Для второй выборки также был добавлен индекс ответа для анализа комментариев, являющихся ответом на предыдущую запись. На основании полученного файла проводилась дальнейшая статистическая обработка.

Рассмотрим полученные результаты.

 

 

 

Таблица 1

 

 

 

 

Категория i

Экспертная оценка

 

 

Положительная

Отрицательная

 

 

 

 

 

 

Оценка системы

Положительная

44

4

 

 

 

Отрицательная

65

79

 

 

 

 

 

Следует пояснить, что под положительной оценкой подразумевается соответствие выбранному классу. В нашем исследовании это класс интолерантных сообщений. Остальные категории обозначаются как отрицательные.

Для сравнения автоматических и эталонных значений был использован показатель аккуратности, представляющий собой отношение верно распознанных положительных и отрицательных комментариев к их общему числу.

Данная характеристика оказалась равна 0,64, что является результатом, превышающим случайное распределение, но недостаточно высоким для применения алгоритма и соответствующего словаря для получения точных результатов при помощи программы. Тем не менее, учитывая репрезентативность словаря, можно говорить о потенциале применения лексического подхода для определения толерантности текстов.

При статистической обработке данных была также найдена разница в определении толерантных, интолерантных и нейтральных комментариев. Поскольку используемый словарь позволяет определить только негативную категорию, как имеющую лексические маркеры, в

группе текстов, не содержащих лексику из словаря, на данном этапе невозможно дифференцировать толерантный и нейтральный классы. Таким образом, для возможности сравнения полученных значений с эталонными интолерантные и нейтральные комментарии были объединены в одну группу.

Метрика аккуратности не является оптимальной, поскольку придает одинаковое значение всем классам, и отрицательный класс может внести значительные помехи в финальный результат. Для более точного анализа используются значения точности, полноты и f-меры.

Точность вычислялась как отношение верно распознанных комментариев,

принадлежащих к интолерантному классу, ко всем комментариям, которые были классифицированы программой как интолерантные. Значение оказалось равно 0,92. Это означает, что комментарий, определенный программой как интолерантный почти со 100%

вероятностью, действительно, является таковым. Однако также важно оценить долю распознанных интолерантных комментариев к их общему числу. Для этого применяется показатель полноты, вычисляемый как соотношение количества распознанных интолерантных комментариев к числу принадлежащих этому классу сообщений в соответствии с ручной разметкой. Полнота оказалась равной 0,4, следовательно, большая часть интолерантных комментариев была неверно отнесена к нейтральному/толерантному классу. Это существенно при оценке степени интолерантности дискуссии. Для данной выборки число интолерантных комментариев превышает число комментариев, не являющихся таковыми, однако по результатам программы можно сделать обратный вывод.

Были рассмотрены причины расхождения результатов работы программы с ручной разметкой. Наиболее сильные расхождения наблюдались в группе неверно распознанных интолерантных комментариев. Для объяснения было выдвинуто две гипотезы. Во-первых,

расхождение могло быть вызвано отсутствием в словаре лексики, встречающейся в комментариях. Во-вторых, ошибка программы может объясняться действием экстралингвистических факторов.

В результате эмпирического анализа расхождений было выявлено, что в 39 из 66

комментариев, составляющих 59%, присутствует интолерантная лексика, в том числе в составе устойчивых выражений, таким образом, расширение словаря способно улучшить аккуратность вплоть до 84%, то есть на 20% от текущего уровня.

При анализе расхождений была выявлена лексика с пейоративной эмоционально-

экспрессивной коннотацией («америкосы», «китаезы»), в том числе в виде неологизмов

(«укробайтеры»). В одном из комментариев присутствовал эвфемизм «худею», оправданность последующего добавления которого в словарь объясняется большей вероятностью появления в неформальном политическом дискурсе. Аргументация на основании вероятности допустима ввиду того, что ни одни система тональности не претендует на 100% точность и в ситуации неоднозначного определения значения следует выбирать наиболее вероятное. Был найден один случай омонимии («бреду»). Также присутствовал случай употребления уменьшительно-

ласкательного суффикса с негативной коннотацией («павиашка»). В настоящее время в компьютерной лингвистике не решена проблема определения тональности на основании суффикса, поэтому отсутствуют предпосылки для наличия соответствующего модуля в системе по обнаружению интолеранотности.

Оставшиеся 27 записей относятся к группе, где следует признать определяющим действие экстралингвистических факторов. Значительная часть из них содержит неполиткорректные высказывания по национальному признаку, например: «Крым настолько русский, что для названия этого полуострова используются названия из других языков. Был бы всегда ваш, было бы свое, национальное, название. А то взяли, сперли наше, еще и исковеркали, превратив "Къырым" в "Крым"». Характерно частое применение иронии при аргументации: «Может быть организовать им бесплатную поставку газа, а лучше сразу отстёгивать им ежемесячно по миллиарду? А почему бы и нет, глядишь любить нас начнут.

)))». В других случаях интолерантность выражается в категоричных суждениях по отношению к оппоненту: «Я так понял-вы в раю живёте. Или что -то не договариваете...».

Последним из рассматриваемых параметров для оценки работы алгоритма стала f-мера,

являющаяся средней гармонической между точностью и полнотой, которая может считаться наиболее объективным показателем при сравнении. Значение метрики оказалось равно 0,56.

Задачей второго этапа исследования стало повышение точности и других количественных показателей работы программы с учетом ошибок первого этапа. По экстралингвистическим причинам из круга анализируемых блогов был исключен электронный дневник Бориса Немцова. Его место занял блог Валерия Шанцева,

сопоставимый по популярности и активности пользователя с блогами Сергея Миронова и Никиты Белых. Для большей достоверности статистических значений была проведена разметка комментариев к 60 записям из данных электронных дневников, а также составлен новый словарь интолерантной лексики, в котором, с одной стороны, присутствовали примеры каждой категории лексики из первого словаря, с другой стороны, обнаружились лексические

единицы, претендующие на отдельные категории. Таким образом, семантическая классификация интолерантной лексики была дополнена следующими классами: зооморфные оскорбительные слова (щенок, змеюка); слова, содержащие оскорбление по национальному признаку (жид, жидовский, жидовствующий); слова, содержащие негативную оценку деятельности политика с интегральными семами «бездействие» и «многословие»

(соплежуйство, словоблудие, пустозвонство, болтология); слова и выражения, служащие окказиональными номинациями политических фигур и явлений (царь-путька, Яйценюк,

Парашенка, мигалков, быдлорашка, путеныш, пуйло, михалковщина, соловьевщина).

Необходимо отметить, что отдельные слова, подходящие под последнюю категорию,

встречались и в первом словаре (Госдура, Путяра), однако во втором словаре их количество заметно возросло. Подобные лексемы интересны с собственно-лингвистической точки зрения как результат развития словотворчества, однако необходимо признать, что их включение в словарь маркеров интолерантности не может принести больших результатов при автоматизированном анализе текста, так как большинство данных единиц являются если не индивидуально-авторскими, то малоупотребительными.

Для нового словаря были получены следующие значения (см. табл.2).

 

 

 

Таблица 2

 

 

 

 

 

Категория i

Экспертная оценка

 

 

 

 

Положительная

Отрицательная

 

 

 

 

 

 

Оценка

Положительная

31

2

системы

Отрицательная

41

131

 

 

 

 

Из полученных результатов видно, что распределение категорий по рангу осталось таким же, как и в первом случае. Аккуратность составила 0,79, что на 15% больше предыдущих результатов. Однако эта разница во многом обусловлена значительно возросшим объемом ложноотрицательной категории. Более показательными являются значения точности,

полноты и f-меры. Точность составила 0,93, что лишь на 1% больше, чем в предыдущем случае. Полнота также изменилась незначительно – 0,43 против 0,4 для первой выборки. F-

мера соответственно увеличилась с 0,56 до 0,59. В целом полученные показатели говорят о статистической значимости результатов работы алгоритма и методики составления словаря.

Для уточнения перспектив расширения лексикона два словаря были совмещены и применены для анализа второй группы комментариев.

Рассмотрим использование комбинированного словаря на второй выборке.

 

 

 

 

Таблица 3

 

 

 

 

 

 

Категория i

Экспертная оценка

 

 

 

 

Положительная

Отрицательная

 

 

 

 

 

 

 

 

Оценка

 

Положительная

38

9

системы

 

Отрицательная

34

124

 

 

 

 

 

Аккуратность абсолютно идентична предыдущему случаю, однако остальные показатели отличаются достаточно сильно. Точность упала до 0,8, что является худшим из трех результатов. Полнота, напротив, возросла до 0,53. В результате f-мера, наиболее объективный показатель для сравнения, выросла на 5% по сравнению с использованием второго словаря до 0,64.

Проанализируем причины расхождения в результатах.

В группе комментариев, которые стали верно определяться как интолерантные,

присутствовали такие слова как «позор», «бездельник» и др. Общее число комментариев в этой группе равняется 7. Расширение словаря для них дало положительный результат, однако нельзя не учитывать группу неверно классифицированных комментариев, которые ранее определялись как нейтральные.

Таких комментариев также оказалось семь. Причина расхождения оказалась в различном контексте употребления слов. Например, присутствовавшее в словаре слово

«лапоть», определенного как инвективная лексика в соответствии с изначальными условиями его применения, в данном случае оказалось частью сатирического стихотворения в словосочетании «наденешь лапоть». Этот пример не означает ошибочность отнесения слова в интолерантный лексикон, поскольку вероятность его применения как ругательства выше, чем в значении обуви. Безусловно, для более точной оценки вероятности следует использовать совмещенный подход с машинным обучением и обучающую выборку значительно большего объема. Создание словаря с коллокациями, которые следовало бы исключить при работе алгоритма, могло бы повысить точность, однако данная задача является значительно более трудоемкой, чем составление словаря с одной лишь лексикой. Возможно, оптимальным методом составления дополнительного словаря исключений является машинное обучение.

Другие случаи ухудшения работы алгоритма обусловлены следующими причинами:

использование интолерантной лексики с отрицательной частицей «не»: «не хамлю»; отсылка к комментарию собеседника, не имеющая интенцию оскорбления: «Но всё-таки, какими методами собираетесь вести борьбу, кроме посылания всех в жопу?»; недостаточность знаний о лексике для однозначной классификации сообщения: «…Позор нашим городским и

областным властям…». В последнем случае сам факт выражения недовольства еще не является основанием для отнесения сообщения к интолерантной категории, так как здесь нет выделенных нами ранее признаков, и выражение эмоционально-экспрессивной оценки по отношению к чужим действиям само по себе не является достаточным для классификации фактором.

Далее было рассмотрено предположение о большем количестве совпадений оценки программы с ручной при автоматических значениях меньших -1, то есть в тех случаях, когда в комментарии встречается сразу несколько слов с маркером интолерантности. Сравнение показало, что разница в проценте совпадений отсутствует, и значения равны 0,92 и 0,91 для оценки -1 и остальных отрицательных значений соответственно, однако для получения однозначных выводов по данному вопросу требуется бо'льшая база комментариев.

Была выдвинута гипотеза о влиянии толерантности статьи на характер комментариев.

Для этого сравнивалось число комментариев после нейтральных и интолерантных статей

(толерантные статьи среди исследуемой выборки отсутствуют). Исследование проводилось только на базе ручной разметки с целью выявить наличие зависимости. Результаты показали значительные различия в количестве комментариев: большая часть (61%) после интолерантных статей также была проклассифицирована как интолерантная, аналогично для нейтральных статей подавляющее число комментариев (70%) также принадлежало нейтральному классу. Исходя из этого можно сделать вывод о наличии обусловленности комментариев толерантностью текста записи.

 

 

 

Таблица 4

 

 

 

 

 

-1

0

1

 

 

 

 

Наличие ответа

0,631067961

0,281553398

0,087378641

Отсутствие ответа

0,494382022

0,483146067

0,02247191

Также проверялась взаимозависимость толерантности комментариев и наличия ответа на них. Оценка проводилась на основании доли категории комментариев к группе с ответом или без него. Интолерантные комментарии встречались чаще при наличии ответа, хотя разницу нельзя назвать существенной – 0,63 против 0,5. Можно сделать вывод о том, что нейтральные комментарии в меньшей степени провоцируют обсуждение: разница составила

20% в рамках нейтральной категории.

После добавления во вторую часть разметки тега о том, какие комментарии являются ответами, стало возможно оценить взаимосвязь между толерантностью сообщений и ответов на них. Была построена следующая матрица значений (см. табл.5).