Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
33
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать

Социолингвистика

Социолингвистика (социальная лингвистика) - научная дисциплина, развивающаяся на стыке языкознания, социологии, социальной психологии и этнографии и изучающая широкий комплекс проблем, связанных с социальной природой языка, его общественными функциями, механизмом воздействия социальных факторов на язык и той ролью, которую играет язык в жизни общества. Некоторые из этих проблем (например, "язык и общество") рассматриваются и в рамках общего языкознания. Междисциплинарный статус социолингвистики находит выражение в используемом ею понятийном аппарате. Так, языковой коллектив, рассматриваемый в качестве исходного понятия социолингвистического анализа, определяется на основе как социальных, так и языковых признаков (наличие социального взаимодействия и единство языковых признаков). Основные операционные единицы социолингвистического исследования - социолингвистические переменные - характеризуются соотнесенностью, с одной стороны, с определенным уровнем языковой структуры (фонологическим, морфологическим, синтаксическим, лексико-семантическим), с другой - с варьированием социальной структуры или социальных ситуаций.

Одной из основных проблем, изучаемых социолингвистикой, является проблема социальной дифференциации языка на всех уровнях его структуры, и в частности характер взаимосвязей между языковыми и социальными структурами, которые многоаспектны и носят опосредованный характер. Структура социальной дифференциации языка многомерна и включает как стратификационную дифференциацию, обусловленную разнородностью социальной структуры, так и ситуативную дифференциацию, обусловленную многообразием социальных ситуаций.

С этой проблемой тесно связана проблема "язык и нация", изучая которую социолингвистика оперирует категорией национального языка, трактуемого в советском языкознании как социально-историческая категория, возникающая в условиях экономической и политической концентрации, характеризующей формирование наций.

Одним из ключевых понятий социолингвистики является понятие языковой ситуации, определяемой как совокупность форм существования языка (языков, региональных койне, территориальных и социальных диалектов), обслуживающих континуум общения в определенной этнической общности или административно-территориальном объединении. Выделяются 2 группы языковых ситуаций: экзоглоссные - совокупности различных языков, и эндоглоссные - совокупности подсистем одного языка. Экзоглоссные и эндоглоссные ситуации подразделяются на сбалансированные, если их компоненты функционально равнозначны, и несбалансированные, если их компоненты распределены по различным сферам общения и социальным группам.

Особое место уделяется в современной социолингвистике вопросу о связи и взаимодействии языка и культуры. Связи между языком и другими компонентами культуры носят двусторонний характер. Процессы соприкосновения разных культур находят отражение в лексических заимствованиях.

Одной из важных социолингвистических проблем является проблема социальных аспектов билингвизма (двуязычия) и диглоссии (взаимодействия различных социально противопоставленных друг другу подсистем одного языка). В условиях билингвизма два языка сосуществуют друг с другом в рамках одного коллектива, использующего эти языки в различных коммуникативных сферах в зависимости от социальной ситуации и других параметров коммуникативного акта. В условиях диглоссии наблюдаются сходные отношения между разными формами существования одного языка (литературным языком, койне, диалектами). Социолингвистика изучает также использование языка в коммуникативных целях, и в частности речевое поведение как процесс выбора оптимального варианта для построения социально корректного высказывания. При этом выявляется сам механизм отбора социально значимых вариантов, устанавливаются критерии, лежащие в основе выбора. Конечной целью анализа является выявление социальных норм, детерминирующих речевое поведение.

Особое место среди проблем социолингвистики занимает проблема языковой политики - совокупности мер, предпринимаемых государством, партией, классом, общественной группировкой для изменения или сохранения существующего функционального распределения языков или языковых подсистем, для введения новых или сохранения старых языковых норм.

Методы социолингвистики представляют собой синтез лингвистических и социологических процедур. Они подразделяются на методы полевого исследования и методы социолингвистического анализа языкового материала. Методы полевого исследования включают анкетирование, интервьюирование, непосредственное наблюдение. Опросники, используемые при заочном выборочном анкетировании, существенно отличаются от социологических анкет характером и числом вопросов, а также стратегией опроса, определяемой его задачей - получить сведения о речи информанта. Большое внимание уделяется составлению программы и разработке техники интервью. Для получения достоверных данных о влиянии ситуативных параметров на речь информантов тщательно контролируют языковую ситуацию, стимулируя либо естественно-непринужденную речь, либо сознательную ориентацию на престижный эталон. Наблюдения над речевой деятельностью информантов строятся таким образом, чтобы исключить или свести до минимума влияние наблюдателя на их речевое поведение. Иногда проводится т.н. включенное наблюдение, при котором наблюдатель выступает не в роли интервьюера, а в качестве одного из участников коммуникативного акта.

Существуют также различные модели социально обусловленного речевого поведения, и в частности модели, в которых речевое поведение представлено в виде стратегии выбора социолингвистических переменных. Ограничивающие выбор социальные факторы моделируются в виде последовательных бинарных селекторов, позволяющих определить возможные исходы процесса выбора.

Основы социолингвистических исследований в СССР были заложены в 20-30-х гг. 20 в. трудами советских ученых Л.П. Якубинского, В.В. Виноградова, Б.А. Ларина, В.М. Жирмунского, Р.О. Шор, М.В. Сергиевского, Е.Д. Поливанова, изучавших язык как общественное явление на основе марксистского понимания языка как общественного явления и историко-материалистических принципов анализа общественных отношений. Почву для современной социолингвистики подготовили также труды представителей социологического направления во французском языкознании (А. Мейе), внесшего существенный вклад в выявлении роли социальных факторов в развитии языка; работы американских этнолингвистов, развивавших идеи Ф. Босса и Э. Сепира о связи языковых и социокультурных систем; труды представителей пражской лингвистической школы - В. Матезиуса, Б. Гавранека, Й. Вахека и др., продемонстрировавших связь языка с социальными процессами и социальную роль литературного языка; исследования немецких ученых, в особенности Т. Фрингса и созданной им лейпцигской школы, обосновавших социально-исторический подход к языку и необходимость включения социального аспекта в диалектологию; оригинальные работы в области языковой ситуации и культуры речи японской школы "языкового существования".

Контент-анализ

Контент-анализ - это количественный анализ текстов и текстовых

массивов с целью последующей содержательной интерпретации

выявленных числовых закономерностей. Определений КА существует

много, например, можно встретить следующие:

1. статистическая (квантитативная) семантика;

2. техника для объективного количественного анализа содержания

коммуникации;

3. техника для делания выводов при помощи объективного и

систематического установления характеристик сообщений.

Отличительной чертой КА является его квантитативный характер, т.е.

прежде всего это количественный метод, предполагающий числовую

оценку определенных компонентов текста, способную дополняться также

различными качественными классификациями и выявлением тех/иных

структурных закономерностей. С точки зрения лингвистов и специалистов

по информатике, КА является типичным примером прикладного

информационного анализа текста.

Количественный контент-анализ в первую очередь интересуется

частотой появления в тексте определенных характеристик (переменных)

содержания.

Качественный контент-анализ позволяет делать выводы даже на

основе единственного присутствия или отсутствия определенной

характеристики содержания.

Следует обратить внимание на то, что когда говорят о контент-

анализе текстов, то главный интерес всегда заключается не в самих

характеристиках содержания, а во внеязыковой реальности, которая за

ними стоит - личных характеристиках автора текста, преследуемых им

целях, характеристиках адресата текста, различных событиях

общественной жизни и пр.

Просто частота появления того или иного слова или темы мало что

говорят. Гораздо более информативны не абсолютные, а относительные

частоты, которые вычисляются как отношение абсолютной частоты к

длине анализируемого текста. В зависимости от того, что является

переменной содержания, под длиной текста может пониматься количество

слов в нем, количество предложений, абзацев и пр.

Были сформированы категории слов, относящихся к экономике,

бюджету страны, образованию, преступности, вопросам семьи,

международным делам, социальной помощи и др.

По изменению относительных частот в посланиях 1994 и 1995 годов

были сделаны выводы об изменении политики государства в различных

областях. Т.е. все эти темы нашли отражение в обоих посланиях, но в

одном из них некоторым темам уделялось больше внимания, а в другом

меньше. Например, в послании 1995 года больше внимания было уделено

вопросам образования, семьи, но меньше внимания - преступности,

международным делам, социальной помощи. Это дало основания для

того, чтобы судить о приоритетах правительства США.

В приведенном выше примере было упомянуто понятие категории,

или концептуальной переменной (К-переменной). В качестве категории

может выступать набор слов, объединенных по определенному

основанию. Можно сказать, что посредством категорий в контент-анализе

представлены определенные концептуальные образования. Так в случае с

посланиями Б.Клинтона была образована категория ЭКОНОМИКА, в

которую входили слова - экономика, безработица, инфляция. В категорию

СЕМЬЯ входили слова - ребенок, семья, родители, мать, отец. Именно

учет частот встречаемости категорий, а не отдельных слов, позволяет

судить о внимании, уделенном в послании тем или иным вопросам.

Очевидно, что от качества составления таких категорий во многом

зависит качество результатов анализа. Контент-анализ текстов с

использованием категорий иногда называют концептуальным анализом.

Сфера его применения довольно широка. Два основных типа задач,

решаемых с его помощью:

1. Есть два или более текстов, которые необходимо сравнить в

отношении нагрузки на определенные категории. Например, задача

выяснить, какое внимание уделяют две разные газеты определенным

темам. Если эти газеты рассчитаны на одну аудиторию, то существенное

различие в частотах позволит судить о различиях в политике, проводимой

людьми, стоящими за ними.

2. Задача отслеживания динамики изменения нагрузки на

определенные категории. Например, выяснить частоту упоминания темы

внешнего долга России в фиксированном наборе центральных газет на

протяжении какого-то времени и соотнести ее с колебаниями курса

доллара путем простого корреляционного анализа.

Дальнейшее развитие контент-анализа требовало более тонких

методов анализа текстов. К середине 50-х годов исследователи стали все

больше уделять внимания не простому наличию или отсутствию категорий

в тексте, а связям между категориями. Для этого обращают внимание на

совместную встречаемость (cooccurence) слов различных категорий.

Метод нахождения контекстов употребления слов – коллокаций

(collocations)- допускает дальнейшее развитие. Выбрав предложения, в

которых встречается конкретное слово или категория, мы получаем

некоторую подвыборку текста, к которой в свою очередь применимы все

методы контент-анализа. Т.е. контексты употребления слов и категорий в

свою очередь могут быть подвергнуты контент-анализу − выяснению

простых частот категорий, относительных частот, оценок категорий

относительно нормы и т.д.

Если выразиться образно, то контекстный анализ позволяет выделить

в тексте несколько тематических нитей и анализировать их отдельно.

Очевиден огромный потенциал контекстного анализа при мониторинге

больших объемов информации, так как он позволяет полностью

автоматизировать весь процесс сбора информации.

  1. Лингвистика в задачах информационного поиска. Лингвистическое обеспечение ИПС. Технологии поиска информации. Варианты ИПЯ. Информационно-поисковый язык как искусственный язык. Лексический уровень и Синтаксический уровень ИПЯ (на примере реального языка любой ИПС). Основные алгоритмы («прямой поиск» и инвертированный файл).

Общие понятия информационного поиска

Поиск информации – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и т.д.), которые соответствуют поступившему запросу.

В качестве средств хранения и поиска информации выступают информационно-поисковые системы (ИПС), элементами которых являются массив документов (баз данных), выступавших как объект поиска, информационно-поисковый язык (ИПЯ), правила индексирования, правила поиска, технические средства (для автоматизированных ИПС).

При вводе документа в базу данных ИПС его индексируют, т.е. определяют ключевые слова (тему, термины) и выражают их на информационно-поисковом языке, принятом в этой системе, записывают в виде поискового образа (ПО). Так база данных ИПС состоит из поисковых образов (формальная модель для поиска). При поиске производится сопоставление вашего запроса, т.е. того, что в ней хранится. Поисковое предписание (запрос на поиск) также должно быть ограничено по языку и иметь определенное формальное представление.

Автоматизированная иформационно-поисковая система (ИПС)

это функционирующая на основе ЭВМ и других технических средств

комплекс, обеспечивающий сбор, хранение, обновление и обработку

информации в целях поддержки какого-либо вида деятельности. Основное

достоинство ИПС заключается в обеспечении хранения больших объемов

данных и быстрого поиска нужной информации среди имеющихся данных.

К числу главных поисковых систем (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport).

Для решения проблемы максимального охвата ресурсов Интернета

создаются системы, называемые метапоисковыми (metasearch engines).

Они не имеют собственных поисковых баз данных, не содержат никаких

индексов и при поиске используют ресурсы других поисковых систем. За

счет этого вероятность нахождения нужной информации возрастает.

По характеру поискового массива и выдаваемой информации ИПС

подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания документов

(статей, книг, отчетов, описаний к авторским свидетельствам и патентам),

содержащих необходимую информацию. Поисковый массив такой ИПС

состоит из поисковых образов документов (т.е. текстов на ИПЯ,

поставленных в однозначное соответствие док-ту и отражающих его

признаки, необходимые для поиска его по запросу.) или из самих

документов. В ответ на предъявляемый запрос ИПС выдает некоторое

множество документов (или адреса их хранения), содержащих искомую

информацию.

Фактографическая ИПС обеспечивает выдачу непосредственно

фактических сведений, затребованных потребителем, т.е. она реализует

хранение, поиск и выдачу непосредственно фактических данных (научных,

технических, экономических характеристик и свойств объектов, процессов,

явлений, адресов, наименований, количественных данных и т.п.). В

настоящее время фактографические ИПС (как специальный класс

поисковых систем) практически не разрабатываются, выполняемые ими

действия реализуются с помощью штатных СУБД.

Присвоение документу набора ключевых слов или кодов,

определяющих его содержание называется индексированием.

Для пополнения списка ключевых слов служит робот-индексировщик,

который просматривает сеть, находит новые информационные ресурсы,

приписывает им термины и помещает в БД индекса. Возможны 2 способа

индексирования: свободное, когда из текста документа извлекаются

ключевые слова без учета всех их словоформ и отношений между ними; и

контролируемое, когда в поисковый образ документа включаются только

те слова, которые зафиксированы в информационно-поисковом тезаурусе

(ИПТ), где указаны их синонимические, морфологические и ассоциативные

отношения. ИПТ - специально организованный нормативный словарь

лексических единиц ИПЯ и ЕЯ - дескрипторов. Тезаурус учитывает

семантические связи м/д словами: антонимы, синонимы, гипонимы,

гиперонимы, ассоциации.

Виды автоматизированного поиска

1) библиографический (записи в каталогах, тип Record)

2) библиотечный (тексты, документы-записи в виде файлов)

3) фактографический (табличные данные в базе данных)

4) продукционный (процедурные правила вида если…, то …)

Характеристики информационного поиска – это такие его семантические показатели, как:

- полнота выдачи/потери информации;

- точность ее выдачи;

- информационный шум.

Релевантность — это фундаментальное понятие теории

информационного поиска. Говорят о двух видах релевантности: смысловой

и формальной. Соответствие документа содержанию информационного

запроса называют смысловой релевантностью, а соответствие

поискового образа этого документа формализованному поисковому

предписанию, выражающему данный информационный запрос, —

формальной релевантностью. Также формальную релевантность

называют релевантностью документа, а смысловую релевантность —

релевантностью информации (имеется в виду «информации,

содержащейся в документе»). Формальная релевантность еще

рассматривается как соответствие, определяемое алгоритмически путем

сравнения поискового предписания и поискового образа документа на

основании применяемого в ИПС критерия выдачи.

Критерий выдачи - это формальное правило, совокупность

признаков, по которым определяется степень формальной реливантности

поискового образа документа и поискового предписания и принимается

решение о выдаче/невыдаче некоторого документа в ответ на

информационный запрос.

Недостатки:

При поиске существуют 2 проблемы: нерелевантность поиска

(информационный шум) и неполнота поиска.

Причиной информационного шума может быть неправильное

ключевое слово, многозначность слова, нечеткое формулирование цели

поиска.

Неполнота поиска: система не может найти нужную информацию,

хотя она и имеется в базе данных. Одна из причин этого недостатка –

синонимия.

Проблема оценки эффективности поиска является комплексной

проблемой, включающей как теоретическую, так и практическую сторону.

Главные из функциональных (технических) показателей ИПС,

базирующихся на релевантности, — это полнота и точность, которые

основываются на разделении документов на релевантные и

нерелевантные, а также на выданные и невыданные.

Полнотой поиска (Recall) называется мера, вычисляемая как

отношение количества выданных релевантных документов к общему

числу релевантных документов, содержащихся в информационном

массиве.

Точность поиска (Precision) — это отношение количества выданных

релевантных документов к общему числу документов в выдаче.

Огромную роль в повышении точности поиска играет ранжирование.

Пользователь очень редко просматривает больше трех страниц с

результатами поиска. Поэтому субъективно он оценивает точность по

"верхним" документам. Даже если нужный документ найден поисковой

машиной, но расположен на двухсотой позиции, скорее всего, он никогда

не будет найден пользователем.

По умолчанию результаты ранжируются по степени соответствия

(релевантности) запросу и группируются по сайтам.

При ранжировании оцениваются различные характеристики текстов, такие как:

Количество вхождений слов (словосочетаний) в документ - чем

больше раз словосочетание "Красная площадь" присутствует в тексте, тем

выше вероятность, что в нем действительно говорится о Красной площади;

Расположение слов запроса в документе - если словосочетание

"Красная площадь" присутствует в заголовках или названии документа, то

документ с большей вероятностью посвящен Красной площади;

Формы слов запроса - преимущество отдается вхождениям, в

которых слова имеют тот же падеж, число, склонение и т.д., что и в

запросе пользователя ("Красная площадь", а не "Красной площадью").

Помимо точного совпадения, выделяются две группы форм слов - близкие

и далекие. Близкими считаются изменения по падежам, склонениям,

спряжениям, числам и родам.

Далекими формами являются причастия, деепричастия и т.п. При

ранжировании преимущество отдается близким формам слов запроса;

Расстояние между словами запроса - если запрос состоит из

нескольких слов, то в найденных документах оценивается, насколько

близко друг от друга расположены эти слова. Преимущество отдается

документам, в которых слова запроса находятся ближе друг к другу,

потому что в этом случае они с большей вероятностью связаны между

собой. Например, если слово "Красная" расположено в тексте на 5

позиции, а слово "площадь" - на 650, то скорее всего в документе речь

идет не о Красной площади;

Относительная частота (отношение количества вхождений слов

запроса в документ к общему количеству слов в документе) - если

словосочетание встречается 10 раз в документе из 100 слов, то он скорее

соответствует запросу, чем если оно встречается те же 10 раз в документе

из 20 тысяч слов;

Популярность - поисковая машина автоматически вычисляет

коэффициент популярности каждой страницы Интернет на основе данных

счетчика Top100 и анализа гипертекстовых ссылок между страницами.

Преимущество отдается более популярным ресурсам;

Ссылочный вес документа - при ранжировании учитывается

ссылочный вес страницы, рассчитанный на основании учета гиперссылок,

содержащих слова запроса. Так, если на некоторый документ словами

"Красная площадь" ссылается большое количество страниц с высокими

коэффициентами популярности, то ему отдается приоритет по запросу

Красная площадь.

Помимо автоматических способов увеличения точности поиска,

существуют различные средства, с помощью которых пользователь сам

может уточнить поиск по отдельным запросам. В первую очередь к ним

относится специальный язык поискового запроса, используя который

можно ограничивать количество найденных документов. Например, запрос

или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех

стоп-слов, форм, порядка, знаков препинания. Это повышает точность

поиска, но уменьшает его полноту: если часть, заключенная в кавычки,

неточна, нужный документ найден не будет.

Использование логического оператора OR (ИЛИ) позволяет

расширить сферу поиска и увеличить его полноту, в то время как оператор

NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения

документов, которые содержат одни слова запроса и не содержат другие.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]