Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
04.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
294.4 Кб
Скачать

Структурування тексту

В організаціях зазвичай накопичуються величезні обсяги даних, якими незручно користуватися через їх "нетехнологічність". Звичайно, фахівець швидше за все розбереться з будь-яким грамотно складеним описом. Але у разі машинної обробки необхідно подати відомості в зручному саме для машинної обробки вигляді, тобто в стандартизованому. Системи аналізу тексту дозволяють значно підвищити можливості автоматизованої обробки частково структурованих даних.

Аналіз тексту як правило містить етапи структурування вихідного тексту (зазвичай шляхом синтаксичного аналізу, додавання одних лінгвістичних структур і видалення інших з подальшою вставкою результатів в базу даних), пошуку закономірностей у даних, а також оцінювання та інтерпретації результатів.

Очищення і розбір тексту

Можливості машинної обробки інформації всередині організації варіюються залежно від ступеня структуризації даних. Чим вище ступінь структурованості даних, тим більше можливостей для їх автоматизованої обробки. Дані можна поділити на 3 частини:

  1. Високо структуровані. Це такого роду дані, як рахунки, платіжні документи, звіти та інше. Для такого роду даних є чіткі формати, правила, жорстко заданий зовнішній вигляд. Зазвичай вони зберігаються в базах даних компанії.

  2. Частково структуровані. Описи деталей і продукції, технологічна документація, відомості про співробітників та інше. Для цих даних визначено деякі правила і формати, але в самому загальному вигляді.

  3. Неструктуровані. Це електронні листи, відомості про конкурентів, доповідні записки та інше відомості, які пишуться у вільній формі.

Очевидно, що механізми підготовки, фільтрації, аналізу і обробки, наприклад, відомостей, представлених у вигляді звітів, значно потужніші, ніж механізми обробки довільного тексту. У разі використання автоматизованих механізмів обробки, необхідно застосовувати способи підвищення рівня структурованості використовуваних даних.

Найбільш простим завданням ТМ є обробка слабкоструктурованих вузькоспеціалізованих текстових масивів (різні звіти про поламки, результати опитувань). В текстових масивах, де форма документа і набір лексики є обмеженими, нову інформацію можна витягати, аналізуючи статистику на рівні окремих ключових слів (термінів).

Для таких текстів можливе створення механізмів, що перетворюють їх до чіткого (структурованого) виду. Наприклад, є опис препарату «Інсулін ряду SPP сусп.40 ОД / 1 мл 10 мл». Необхідно дані очистити від незначущих і перекручених відомостей і виділити назву препарату, фасування, дозування і т.п. Назвемо цей процес стандартизацією. Стандартизовану інформацію значно простіше обробляти, шукати, формувати на їх основі буклети та прайс-листи, робити переклади на інші мови.

Опис проблеми

Візьмемо для прикладу опис клавіатури: "Клавіатура Defender, Windows-сумісна, роз'єм PS / 2, 124 клавіші". Такого роду описи зустрічаються практично в будь-якій сфері діяльності.

Необхідно даний текст перетворити до вигляду:

Поле

Значення

Тип пристрою

Клавіатура

Торгова марка

Defender

Інтерфейс

PS/2

Сумісність

Windows

Незважаючи на те, що в різних предметних областях використовуються різні терміни і поняття, є те, що об'єднує всі такі тексти.

  1. Це неприродна мова, тому вони пишуться не як речення, а за зовсім іншими правилами; набагато простіше.

  2. Описи практично завжди схожі один з одним за структурою.

  3. Найчастіше використовуються один відносно невеликий набір слів, якщо порівнювати з природною мовою.

  4. Дуже часто зустрічаються абревіатури та скорочення.

Використовуючи цю інформацію, можна запропонувати рішення, що дозволяє автоматизувати роботу з очищення та розбору тексту.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]