- •1. Введение
- •2. Задача автоматического пополнения эб научных статей
- •3. Существующие методы автоматического поиска научных статей в сети Интернет
- •3.1 Метод, применяемый в системе CiteSeer
- •3.2 Метод, использующий hpSearch и Mops
- •3.3 Метод, использующий тематического поискового робота
- •3.4 Метод поиска по заданной библиографической ссылке
- •3.5 Метод, основанный на машинном обучении
- •3.6 Метод, использующий общую поисковую стратегию
- •3.7 Вероятностный метод
- •4. Метод поиска статьи по заданной метаинформации
- •4.1 Поиск с ограничением на формат файла
- •4.2 Проверка, не найдена ли искомая статья
- •4.3 Поиск с помощью тематического поискового робота
- •4.4 Сопоставление библиографических ссылок и ссылок на файлы
- •5. Метод поиска домашних страниц и извлечения публикаций
- •5.1 Поиск домашней страницы
- •5.2 Поиск страницы с публикациями
- •5.3 Извлечение ссылок на публикации
- •6. Экспериментальное исследование методов
- •6.1 Метод поиска статьи по заданной метаинформации
- •6.2 Метод поиска домашних страниц и извлечения публикаций
- •7. Заключение
4.1 Поиск с ограничением на формат файла
На этом этапе запрос, содержащий название статьи и список авторов, посылается поисковым системам (Яндекс и Google) с ограничением поиска только по файлам в формате PDF/PS (именно в этих форматах в основном хранятся научные публикации).
Далее для десяти первых результатов, до тех пор, пока не будет найдена искомая статья,
выполняются следующие действия:
■ Документ, соответствующий рассматриваемому URL, сохраняется в файл.
■ Происходит конвертация полученного PDF или PS файла в текстовый формат.
■ Из текстового файла извлекается метаинформация с помощью метода, основанного на SVM [1].
■ Производится проверка, не найдена ли искомая статья (см. раздел 4.2).
4.2 Проверка, не найдена ли искомая статья
Для проверки того, является ли найденный документ искомой статьей, проводится:
1. Сравнение извлеченной метаинформации с заданной. Заглавие сравнивается полностью, без учета знаков препинания. Заданные авторы (инициалы не учитываются), ищутся по отдельности среди извлеченных из документа. Чем больше совпадений найдено, тем больше очков выдается в качестве результата сравнения.
2. Оценивается, насколько найденный документ похож на научную статью. Для этого учитываются следующие факторы:
- научные статьи обычно содержат список литературы;
- научные статьи обычно имеют больше двух и меньше тридцати страниц.
В случае если суммарная оценка превышает заданный порог, процесс поиска считается успешно завершенным.
4.3 Поиск с помощью тематического поискового робота
Если на первом этапе искомая статья не была найдена, то осуществляется поиск с помощью тематического поискового робота.
Первым шагом является формирование начального множества страниц, с которых робот начинает поиск. Для этого поисковым системам посылается тот же запрос, однако теперь поиск производится только среди HTML-страниц. Предполагается, что одна из таких страниц либо сама может содержать ссылку на файл с искомой статьей, либо может привести к странице, содержащей такую ссылку.
Далее для каждого из первых десяти результатов поиска определяется приоритет. Для этого составляются два списка ключевых слов (английский и русский). В них входят слова, которые часто встречаются на страницах, содержащих ссылки на публикации (например, research, publication, статьи, конференция и т.п.).
В списки также добавляются фамилии авторов искомой статьи. Если URL или заголовок страницы содержит ключевое слово, то ей присваивается высокий приоритет, в противном случае - низкий.
Затем на основе полученного приоритета страницы распределяются в две очереди, которые подаются роботу. Робот рассматривает только HTML-страницы. Также задается ограничение на глубину поиска: робот не ходит дальше третьего уровня.
Алгоритм поиска статьи поисковым роботом: До тех пор, пока искомая статья не найдена, либо обе очереди не опустеют, выполняется следующее:
■ Загружается страница из очереди с высоким приоритетом (если эта очередь пуста, то рассматривается очередь с низким приоритетом);
■ На странице ищется библиографическая ссылка на искомую статью и отвечающая ей ссылка на PDF или PS файл (см. раздел 4.4 “Сопоставление библиографических ссылок и ссылок на файлы”);
■ Если искомая статья не найдена или страница вообще не содержит библиографической ссылки на нее, то:
о Из страницы извлекаются все
исходящие URL;
о Для каждого нового URL определяется
приоритет, в соответствии с которым, он добавляется в нужную очередь;
Если обе очереди опустошаются, либо время, отведенное на поиск, истекает, а статья до этого момента не найдена, то процесс поиска считается завершенным неуспешно.