Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчёт о производственной практике (update).doc
Скачиваний:
17
Добавлен:
12.11.2019
Размер:
410.11 Кб
Скачать

Проблемы uda

В большинстве своем структурированные данные не имеют антропогенных особенностей, а неструктурированные, напротив, за редким случаем создаются именно людьми со всеми вытекающими отсюда последствиями. В системах UDA приходится иметь дело с «человеческой информацией» и «человеческим фактором», что обусловливает, целую массу отличий.

  • Разнообразие. Возможно огромное количество различных способов создания и источников информации, которая по очевидным причинам не может быть структурирована и помещена в какую-то даже самую невероятную по современным представлениям СУБД, ее лишь можно записать в файлы с теми или иными форматами.

  • Неоднозначность. Если высказывания двух людей совпадают дословно, то это не значит, что они идентичны, а если одна и та же идея выражена разными словами, то смысл переданного различается — люди по-разному воспринимают одни и те же фразы в зависимости от своего опыта, взглядов и т. п.

  • Контекстная зависимость. Одно и то же слово или имя могут в разных условиях интерпретироваться по-разному («Дядя Федор» может быть чьим-то родственником или мальчиком из Простоквашино).

  • Динамика значения. Слова могут очень быстро менять свой смысл, например, название никому ранее не известного населенного пункта из-за происходивших в нем событий может стать нарицательным.

  • Этнокультурная зависимость. В разных этносах и культурах, использующих один и тот же язык, слова могут приобретать разный смысл и обозначать совершенное разное.

В таких условиях поиск по ключевым словам (пусть даже самый изощренный), это весьма слабый инструмент.

Сводная информация о системах

ИАС

Поиск

Мониторинг

Рубрикация

Хранение (БД)

Анализ (Data Mining)

Лингв. процессор

Avalanche 2.5

Да

Да

Да

Да

Нет

Нет

Астарта

Да

Да

Да, обучаема

Нет

Нет

Нет

Аналитический курьер

Да

Да

Да,

тоны, теги

Да

Нет

Да

Айкумена Аналитика

Да

Да

Да

Да

Да

Нет

InfoNgen

Да, метаданные

Да

Нет

Да

Да

Нет

Clarabridge

Да

Да, ограничен

Нет

Нет

Да

Нет

АРИОН

Да

Да, ограничен

Нет

Нет

Да

Да

Семантический архив

Да

Да

Нет

Да

Да

Да

Семейство Ontos

Да

Да

Да

Да

Нет

Нет

Среди отобранных систем, большинство обладают сопоставимыми возможностями поиска, основанными на технологии «web crawler» (поискового робота). Главным существенным отличием между ними являются методы построения базовых поисковых алгоритмов и возможности их настройки, таких как: глубина индексации, критерии выделения значимой информации, порядок обхода страниц и др. (см. Детальное описание систем).

Система InfoNgen использует поиск по метаданным, что может положительно влиять на качество подборки, фильтруя информацию от «фона».

Полнота материала

Эффективными в дальнейшем отборе материала и увеличении полноты выборки, могут быть системы, оснащённые лингвистическим процессором. Их применение облегчает выделение тематических групп в найденном материале. Такие системы могут представлять базовый материал в виде реферата или дайджеста (текстового массива).

Data Mining

Более половины систем этого класса, способны к сопоставлению фактов, и определению неявных или нетривиальных связей в источниках любого типа (Data Mining, глубинный анализ данных), но этот метод главным образом эффективен в работе с крупными банками структурированных данных.

Итог

Эффективность ИАС неодинакова для разных целей поиска, и готовые системы, представленные в данный момент на рынке, могут не удовлетворять некоторым узким требованиям. Наиболее рациональным будет являться решение, разработанное совместно с подрядчиком, под конкретные нужды предприятия. Все компании-разработчики представленных выше систем обладают определенной гибкостью в разработке и интеграции.

Также, среди экспертов в области поиска, считается недостижимой 100%-ая релевантность поиска в неструктурированных источниках.