Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сл_Автоматический поиск научных статей в сети И...docx
Скачиваний:
8
Добавлен:
14.11.2019
Размер:
92.58 Кб
Скачать

4.1 Поиск с ограничением на формат файла

На этом этапе запрос, содержащий название статьи и список авторов, посылается поисковым системам (Яндекс и Google) с ограничением поиска только по файлам в формате PDF/PS (именно в этих форматах в основном хранятся научные публикации).

Далее для десяти первых результатов, до тех пор, пока не будет найдена искомая статья,

выполняются следующие действия:

■ Документ, соответствующий рассматриваемому URL, сохраняется в файл.

■ Происходит конвертация полученного PDF или PS файла в текстовый формат.

■ Из текстового файла извлекается метаинформация с помощью метода, основанного на SVM [1].

■ Производится проверка, не найдена ли искомая статья (см. раздел 4.2).

4.2 Проверка, не найдена ли искомая статья

Для проверки того, является ли найденный документ искомой статьей, проводится:

1. Сравнение извлеченной метаинформации с заданной. Заглавие сравнивается полностью, без учета знаков препинания. Заданные авторы (инициалы не учитываются), ищутся по отдельности среди извлеченных из документа. Чем больше совпадений найдено, тем больше очков выдается в качестве результата сравнения.

2. Оценивается, насколько найденный документ похож на научную статью. Для этого учитываются следующие факторы:

- научные статьи обычно содержат список литературы;

- научные статьи обычно имеют больше двух и меньше тридцати страниц.

В случае если суммарная оценка превышает заданный порог, процесс поиска считается успешно завершенным.

4.3 Поиск с помощью тематического поискового робота

Если на первом этапе искомая статья не была найдена, то осуществляется поиск с помощью тематического поискового робота.

Первым шагом является формирование начального множества страниц, с которых робот начинает поиск. Для этого поисковым системам посылается тот же запрос, однако теперь поиск производится только среди HTML-страниц. Предполагается, что одна из таких страниц либо сама может содержать ссылку на файл с искомой статьей, либо может привести к странице, содержащей такую ссылку.

Далее для каждого из первых десяти результатов поиска определяется приоритет. Для этого составляются два списка ключевых слов (английский и русский). В них входят слова, которые часто встречаются на страницах, содержащих ссылки на публикации (например, research, publication, статьи, конференция и т.п.).

В списки также добавляются фамилии авторов искомой статьи. Если URL или заголовок страницы содержит ключевое слово, то ей присваивается высокий приоритет, в противном случае - низкий.

Затем на основе полученного приоритета страницы распределяются в две очереди, которые подаются роботу. Робот рассматривает только HTML-страницы. Также задается ограничение на глубину поиска: робот не ходит дальше третьего уровня.

Алгоритм поиска статьи поисковым роботом: До тех пор, пока искомая статья не найдена, либо обе очереди не опустеют, выполняется следующее:

■ Загружается страница из очереди с высоким приоритетом (если эта очередь пуста, то рассматривается очередь с низким приоритетом);

■ На странице ищется библиографическая ссылка на искомую статью и отвечающая ей ссылка на PDF или PS файл (см. раздел 4.4 “Сопоставление библиографических ссылок и ссылок на файлы”);

■ Если искомая статья не найдена или страница вообще не содержит библиографической ссылки на нее, то:

о Из страницы извлекаются все

исходящие URL;

о Для каждого нового URL определяется

приоритет, в соответствии с которым, он добавляется в нужную очередь;

Если обе очереди опустошаются, либо время, отведенное на поиск, истекает, а статья до этого момента не найдена, то процесс поиска считается завершенным неуспешно.