Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
40
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

Заключение

Задачи обработки текстов возникли практически сразу после появления вычислительной техники. Несмотря на полувековую историю исследований в области искусственного интеллекта, накопленный опыт вычислительной лингвистики, огромный скачок в развитии ИТ и смежных дисциплин, удовлетворительного решения большинства практических задач обработки текста пока не найдено. Однако ИТ-индустрия потребовала удовлетворительного решения некоторых задач обработки текстов. Так, развитие хранилищ данных делает актуальными задачи извлечения информации и формирования корректно построенных текстовых документов. Бурное развитие Internet повлекло за собой создание и накопление огромных объемов текстовой информации, что требует создания средств полнотекстового поиска и автоматической классификации текстов (в частности, программные средства для борьбы со спамом), и если первая задача более или менее удовлетворительно решена, то до решения второй пока еще далеко.

В последнее время, благодаря развитию систем документооборота, наличию множества постоянно обновляемых юридических справочников, ряду других факторов, наблюдается накопление массивов специализированных (но не формализованных) текстовых документов. По аналогии со структурированной информацией, когда усовершенствование средств анализа вылилось в появление хранилищ данных, развитие систем документооборота со временем может потребовать создания полнотекстовых хранилищ, дающих возможность всестороннего анализа и исследования неформализованных текстов на естественном языке. n

Литература

  1. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. 3-е изд. М. Русский язык, 1987.

  2. Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации. http://research.metric.ru.

  3. SRILM - The SRI Language Modeling Toolkit. http://www.speech.sri.com/projects/srilm.

  4. Тихонов А.Н. Морфемно-орфографический словарь: Русская морфемика. М. Школа-Пресс, 1996

  5. Кузнецова А.И., Ефремова Т.Ф. Словарь морфем русского языка. М. Русский язык, 1986.

  6. C. Manning, H. Schutze. Foundations of Statistical Language processing. The MIT Press, 1999.

  7. Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица и др. Синтаксический анализ научного текста на ЭВМ, К.: Научная мысль, 1999.

  8. Хант Э. Искусственный интеллект. Пер. с англ. -М.: Мир, 1978

  9. WordNet: a lexical database for the English language. http://www.cogsci.princeton.edu/~wn.

  10. Горбачевич К.С. Русский синонимический словарь СПб. ИЛИ РАН, 1996.

  11. Меркурьева Н. М. Словарь антонимов русского языка: Сложные слова. Около 1800 антонимических пар. М., Издательство: "Газета "Правда"", 1999

  12. Е. Игумнов, Основные концепции и подходы при создании контекстно-поисковых систем на основе реляционных баз данных. http://www.citforum.ru/database/articles/search_sys.shtml.

  13. U. Nahm, R. Mooney. Mining soft-matching rules from textual data. WA, 2001.

  14. D. Jurafsky, James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000.

Документальные информационные системы.

Конспект лекций, прочитанных доц. Алексейчуком А.Е.

2.9.2006

ИС – совокупность средств, предназначенных для сбора, обработки, хранения, поиска и распространения информации.

ИС выполняют определённый набор функций. Для лучшего восприятия декомпозируется на подсистемы (сбора, обработки, распространения информации и др.).

Информацию делят на

  1. жестко структурированную,

  2. слабоструктурированную

  3. неструктурированную.

Слабоструктурированная при формализованном описании много теряет (текстовая информация). Текстовая информация – предмет обработки документальных систем.

Жёстко структурированная информация не изменяется (данные).

Неструктурированная – смысл обработки которой на машине теряется (Эмоциональная сторона, художественная оценка).

Семантические оценки информации: релевантность и персинентность.

Чтобы оценить удовлетворенность информационной потребности (насколько эффективно прошёл поиск):

Персинентность – мера соответствия выдачи информационной потребности,

Релевантность – мера соответствия выдачи информационному запросу.

Формальная релевантность – соответствие запросу на формальном языке, смысловая – на естественном языке.

Любой тип системы ориентирован на определённую предметную область (часть реального мира, которая интересна пользователю).

Внимание фактографических систем сосредоточено на том, как организовать факты таким образом, чтобы было удобно работать. Вопросы семантической оценки остро не стоят. СУБД – система управления базой данных.

Предметную область можно описать не как совокупность фактов, а как совокупность документов. Первостепенная задача в документальных системах – как наиболее полно и точно описать совокупность документов. ИПС – информационно-поисковая система.

9.09.2006