Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
04.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
294.4 Кб
Скачать

Text Mining для аналізу неструктурованих даних

Зараз багато розробок скеровано на аналіз неструктурованих даних, тобто тексту, що написаний природною людською мовою. Під аналізом розуміємо пошук відповіді на конкретне питання користувача.

У випадку неструктурованих текстів, задача в загальному зводиться до «розуміння» довільних текстів природною мовою, яка може вирішуватися з використанням різних технологій, у першу чергу на базі методів обробки даних природною мовою - NLP (Natural Language Processing), на основі нейромережних підходів, а також інших методів та їх комбінацій.

Для прикладу, аналітика може цікавити відповіді на питання типу: "Які банки є найбільш ризикованими?". В спрощеному вигляді результат повинен являти собою відсортований за надійністю список банків, що містить оцінки ризиків. У випадку, коли інформація знаходиться в базі даних, все зрозуміло: налаштувати інструмент аналізу на запит до бази, ввести формулу і «попросили» вивести відсортований список банків за ступенем ризику. Складність полягає в тому, що, як правило, цієї інформації в базі даних немає. В тій чи іншій формі вона присутня в Інтернеті та інших джерелах. Але як добути потрібну інформацію з неструктурованих даних, наприклад зі звітів банків та інших документів, опублікованих в Інтернеті?

Практично всі користувачі роблять наступне: заходять в пошуковик, вводять запит, отримують тисячі і тисячі посилань, клацають по посиланнях, переглядають текст, виділяють потрібні фрагменти з назвою банку, відомостями про його послуги, статутний капітал, прибутковість, витрати і інші показники, необхідних для оцінки ризиків. Отримані дані завантажуються в MS Excel, застосовуються формули, малюються графіки і отримується результат.

Популярні міфи про пошукові системи

1. Пошуковик дає відповіді на питання.

Не дає - спробуйте запитати. Він лише допомагає зорієнтуватися в наборах документів.

2. З пошуковиком просто працювати.

Не так вже просто. Скласти правильний запит до пошуковика, щоб отримати релевантні посилання, - ціле мистецтво. Сюди входить і підбір ключових слів, і складання власне запиту.

3. Пошуковик видає потрібні документи.

Це не так. Пошуковик видає тільки посилання. А документи ми отримуємо або вручну через браузер, або за допомогою спеціальних інструментів - веб-краулерів і веб-спайдеров.

Подібних прикладів як в побуті, так і в бізнесі зустрічається дуже багато. Об'єднує їх одне - рутина, пов'язана з ручним пошуком та видобутком даних. Чи є сьогодні можливість автоматизувати таку праця?

Пошук, витяг, аналіз

Процес отримання кінцевого результату (відповіді на запитання) можна умовно розділити на три фази. Спочатку шукаємо релевантні документи, потім з того, що знайдено, витягаємо дані і на завершення аналізуємо їх.

Відповідно сучасні підходи можна розділити на три групи за ступенем автоматизації різних фаз зазначеного процесу: пошук документів, добування інформації, аналізу.

При цьому підхід, заснований тільки на автоматизації пошуку, практикується в 90% випадків, вилучення інформації автоматизовано приблизно в 10% рішень, і тільки в рідкісних випадках подібні системи беруть на себе аналітичну роботу. Хоча саме інструменти аналізу найбільш зрозумілі для кінцевого користувача.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]