Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ISTMV_lectures_2012.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
1.43 Mб
Скачать

Лекція 4 Програмні продукти для контент-аналізу

За О.Алексєєвим контент аналіз - це дослідження змісту текстових масивів з метою виявлення або вимірювання соціальних тенденцій, репрезентованих цими масивами.

Контент-аналіз - це прикладний інформаційний аналіз тексту, який зводиться до екстрагування з тексту потрібної інформації та представлення її у зручній для сприйняття і наступного аналізу формі.

Розрізняють чотири покоління програм для проведення контент-аналізу1:

Програми І покоління (1950 рр. – 1960 рр.) – вузькоспеціалізовані програми для проведення окремих розрахунків або програми загального користування (текстові і табличні процесори, системи керування базами даних); призначені для проведення числових розрахунків, статистичного аналізу, побудови примітивних графіків можливість виконання окремих менеджерських функцій щодо тексту (зберігання, копіювання, формування індексів).

Програми ІІ покоління (1966 р. – середина 1980 рр.) – спеціалізовані програми кількісного аналізу, обмежені обробкою текстів і які не виходять за межі ручної технології; основна увага на кодування, пошуку ключових слів і фраз, виведення інформації у формі різноманітних індексів, конкордансів; дозволяють здійснювати ручне, автоматизоване і автоматичне кодування з використанням словників; реалізуються різноманітні стратегії пошуку, формування таблиць конкордансу, здійснення аналізу колокацій; можливість роботи з електронними текстами; використовують винятково кількісні аналітики.

Програми ІІІ покоління (середина 1980 рр. – 1990 рр.) – спеціалізовані програми, обмежені обробкою текстів у рамках якісної та кількісної технології аналізу; характеризується надзвичайним розмаїттям програм; виходить за межі ручної технології і значно посилює аналітичні можливості дослідника, програма виступає своєрідним досвідченим експертом; реалізуються функції всіх етапів досліджень, збільшилося число виконуваних функцій (структуризація даних, візуалізація результатів, формування та перевірка гіпотез, формування висновків і звітів), принципові зміни в реалізації тих функцій, які були реалізовані раніше (кодування, конкорданс); активно застосовуються кількісними дослідниками, привернули увагу "якісників".

Програми IV покоління (від середини 1990 рр.) вийшли за межі винятково обробки текстів; технологічні програми, які в основі мають контент-аналіз і реалізуються для роботи в режимі реального часу; реалізуються у вигляді масштабних систем зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерний розвинений графічний інтерфейс, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер.

Прикладом сучасної програми контент-аналізу може служити програмний комплекс аналізу метафорики в російських політичних текстах Dialex, розроблений в Інституті російської мови РАН і здатний формувати частотні словників конкорданси, а також здійснювати пошук лексичних одиниць з їх контекстами і зберігати результати в базі даних. Зараз завершується робота над більш досконалою системою.

Ще одна сучасна програма "Контент-анализ Про" призначена для досліджень будь-яких текстів (реклами, передвиборних виступів, публікацій у ЗМІ, записів інтерв’ю). В ній реалізовані як кількісний, так і якісний підходи до контент-аналізу, що дозволяє розв’язувати широке коло задач, в тому числі: виявлення рекламної стратегії фірми та політичної орієнтації ЗМІ, вивчення соціально-психологічних портретів їх аудиторій, аналіз листів, встановлення авторства текстів. Пакет програм "Контент-аналіз" експлуатується понад 100 організаціями. Наприклад, в телекомпанії ОРТ “Контент-аналіз” використовується для автоматичного відбору потрібної інформації за змістовними критеріями з масивів публікацій, доступ до яких здійснюється через Інтернет.

Контент-аналітичні модулі можуть бути складовою частиною різного роду комплексних програм. Так підсистема контент-аналізу є важливим елементом ще однієї російської системи прикладного аналізу текстів ВААЛ.

Серед закордонних контент-аналітичних комп'ютерних систем можна виділити система KEDS, розроблену Ф.Шродтом у Канзаському університеті, яка використовується для аналізу потоку політичних подій, відображуваних на стрічці інформаційного агентства "Рейтер".

Лингвоанализатор (автор Д.В.Хмельов) - on-line версія програми математичного аналізу структури тексту. Метою аналізу є визначення ступеня близькості кожного з пропонованих користувачем текстів до одного з визначених заздалегідь авторських еталонів (авторський еталон – це набір текстів даного автора). Програма аналізує вхідний текст і видає імена трьох авторів, які можуть бути його найбільш імовірними авторами. Крім цього, знаходить три твори кожного автора, які найбільш близькі до даного тексту.

TextAnalyst 2.0 (Науково-виробничий центр "Мікро-Системи"). Дозволяє побудувати семантичну мережу понять, виділених в аналізованому тексті, з посиланнями на контекст. Є можливість значеннєвого пошуку фрагментів тексту з врахуванням прихованих у тексті значеннєвих зв'язків зі словами запиту. Дозволяє аналізувати текст шляхом побудови ієрархічного дерева тем/підтем, присутніх в тексті.

netXtract (Relevant Software Inc., 2000) Компонента, яка підключається до Microsoft Internet Explorer (версії 5.0 і вище) і яка дозволяє отримувати впорядкований індекс слів у завантаженому HTML-документі. Індекс може впорядковуватися за алфавітом або частотою. Для кожного слова в індексі можна досліджувати контекст, в якому це слово зустрічається. Відібрані слова за бажанням заносяться в персональну базу знань.

Худломер (автор Леонід Деліцен) Проект "Худломер" пов'язаний із автоматичною класифікацією стилю російськомовних текстів. Автором зібрані і проаналізовані чотири набори текстів – художні твори, публіцистика, наукові статті тощо. В результаті отримано емпіричні криві розподілу довжин слів у текстах, залежно від стилю. Криві використовуються як еталони для класифікації. Програма класифікує стиль вхідного тексту як РОЗМОВНА МОВА, ХУДОЖНЯ ЛІТЕРАТУРА, ГАЗЕТНА СТАТТЯабо НАУКОВА СТАТТЯ.

WordStat (Дубинський А.Г., 2001) Утиліта підрахунку частоти різних слів у текстових або html-файлах.

ПСИ-Офис версия 2.1 (Вадим Сисуєв) Система психолінгвістичного аналізу текстів, яка включає три компоненти:

– пошук вкладених слів у тексті, тобто слів, "захованих" всередині і на переходах між словами;

– пошук повторюваних фрагментів тексту при

аналізі "автоматичного листа" (такі тексти пишуться з метою аналізу поточних підсвідомих

процесів);

– синтез підсвідомої компоненти тексту.

ВААЛ- 2000 (Бєлянін В.П., МДУ, Шалак В.И., Інститут Філософії РАН) Психолінгвістична експертна система лексичного і контент-аналізу текстів. Основні завдання – прогнозування ефектів неусвідомлюваного впливу тексту на масову аудиторію, аналіз текстів з точки зору такого впливу, генерування тексту із заданим вектором впливу, виявлення індивідуально-психологічних якостей автора тексту. Використовується в Російській Державній Думі, уряді, великих банках і PR-компаніях.

TextAnalyst (Російська компанія "Мегап'ютер Інтеллідженс", http://www.megaputer.com/) вирішує такі задачі Text Mining:

– створення семантичної мережі великого тексту;

– підготовка резюме тексту;

– пошук по тексту;

– автоматична класифікація і кластеризація текстів.

Побудова семантичної мережі – це пошук ключових понять тексту і встановлення взаємозв’язків між ними. Створена мережа дозволяє не тільки зрозуміти, про що йде мова в тексті, але і здійснювати контекстну навігацію. Підготовка резюме – це виділення в тексті речень, у яких частіше за інших зустрічаються значущі для цього тексту слова. У 80% випадків цього цілком достатньо для отримання загального уявлення про текст. Для пошуку інформації в системі передбачено використання запитів природною мовою. За запитом будується унікальна семантична мережа, яка при взаємодії з мережею документа дозволяє виділити потрібні фрагменти тексту. Кластеризація і класифікація проводяться стандартними методами видобування даних. Система Text-Analyst розглядає Text Mining як окремий математичний апарат, який розробники програмного забезпечення можуть вбудовувати в свої продукти, не спираючись на платформи інформаційно-пошукових систем або СУБД. Основна платформа для застосування системи – MS Windows 9x/2000/NT.

Приклад проведення контент-аналізу з використанням програмних продуктів: за роботою Поляруша Д.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]