Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Электронная информация и электронные ресурсы

..pdf
Скачиваний:
3
Добавлен:
20.11.2023
Размер:
20.88 Mб
Скачать

Оценки эффективности работы электронной библиотеки

ства, частные компании и отдельные лица осознают первосте­ пенную важность информации. Основой контроля качества и научного управления является, прежде всего, формулирование приоритетов. В этом смысле американский подход отличается от европейского. На недавней конференции ИФЛА немецкий специалист Дейл Аски (Dale Askey) отметил: «Американские библиотеки ориентированы на обслуживание читателей, в то время как в центре внимания немецких библиотек находятся фонды. В целом американские библиотеки, не заботясь о по­ полнении своих фондов за счет государства или спонсоров, пре­ вратились в организации, чьей постоянной целью стал поиск новых путей в улучшении качества услуг, предоставляемых чи­ тателям». Российские требования в основном касаются выпол­ нения количественных показателей по комплектованию, книговыдаче и т. п.

Приведем главные международные стандарты оценки каче­ ства работы библиотек, а именно:

Стандарт ISO 2789 International Library Statistics (междуна­ родная библиотечная статистика);

Стандарт ISO 11620 Library Performance Indicators (показа­ тели качества работы библиотек);

Стандарт ANSI/NISO Z39.7—1995: Library Statistics (биб­ лиотечная статистика).

Для обеспечения единого подхода к оценкам качества рабо­ ты сайтов был разработан норматив «Учет использования сете­ вых электронных ресурсов» (Counting Online Usage of Networked Electronic Resources — COUNTER) с учетом записей и обмена данными относительно использования базы данных и полнотекстовых журналов. Компания Elsevier объявила, что фирмен­ ный продукт компании Science Direct будет совместим с требо­ ваниями COUNTER. Ранее о своей поддержке проекта заявило подписное агентство Blackwell/Swets. Регистрация других же­ лающих участвовать в международном проекте может прово­ диться по адресу некоммерческой организации COUNTER www.projectcounter.org.

В 2004 г. были разработаны и после широкого обсуждения введены новые национальные стандарты обслуживания в мас­ совых (публичных) библиотеках Великобритании (Public Library

361

Глава 8. Электронные библиотеки

Service Standards — PLSS). В стандартах зафиксированы норма­ тивы, описывающие:

близость библиотек к своим читателям;

часы обслуживания;

доступ к Интернету, к другим онлайновым каталогам;

количество новых книг и других материалов, приобретен­ ных за год;

оценки публикой качества работы библиотеки;

удовлетворенность пользователей и др.

Утвержденные десять основных стандартов заменят ныне действующие 26 стандартов, что были введены в 2001 г. Вновь введенные стандарты и нормативы для 3600 публичных библио­ тек Великобритании действовали до 2006 г. Мы приводим дан­ ные стандарты в приложении 3 к настоящей книге и советуем сотрудникам публичных библиотек с ними ознакомиться. Дело в том, что движение «от многих показателей к важным показа­ телям», продемонстрированное в Великобритании, будет по­ лезным и в наших условиях. Разработанный в России «Модель­ ный стандарт деятельности публичных библиотек», принятый на Конференции Российской библиотечной ассоциации в 2001 г. (г. Саратов) намного объемнее английских стандартов (7 разделов, занимающих 22 страницы текста). Часть показате­ лей, например максимальная удаленность публичной библио­ теки от пользователя, практически совпадает в обоих стан­ дартах. Однако в российском стандарте подробно расписаны требования к библиотечным помещениям; в английских стан­ дартах, во-первых, не один раз упоминаются средства совре­ менных информационно-коммуникационных технологий и, во-вторых, дважды формулируются требования по уровню удовлетворенности пользователя — как детей, так и взрослых. Разница достаточно выразительная!

Что измеряется и что может быть измерено? Библиотечный персонал должен располагать надежным и стандартизованным источником сведений об использовании электронных ресурсов, что нашло свое отражение в ряде проектов, в частности методе использования лог-файлов.

Предлагаемый метод основан на использовании файлов ре­ гистрации (лог-файлов), которые автоматически формируются

362

Оценки эффективности работы электронной библиотеки

веб-сервером, а значит, данные о них легко доступны библиоте­ ке, имеющей сервер. Заметим также, что этот метод можно на­ звать нереактивным в том смысле, что пользователь не ощущает того, что его поведение в Сети как-то подвергается автоматизи­ рованному мониторингу.

Анализ поведения пользователей с помощью лог-файлов — это количественный метод оценки использования сайта. Наи­ более простой способ анализа — статистика заходов на опреде­ ленные страницы сайта. Этим методом можно оценить, какие именно страницы сайта, когда, как часто и на какое время посе­ щаются пользователями. Важная характеристика — количество посещений, которые явились результатом работы поисковой машины. Ввиду того что поисковые машины и роботы нельзя считать аналогом визита настоящего пользователя, правильно будет исключать такого рода заходы на сайт из общего числа по­ сещений.

Дополнительной целью использования данной методики является получение технической информации о количестве правильно выполненных актов пересылки сетевых страниц и количестве допущенных ошибок (послание об ошибке «error 404» — гиперсвязь не работает), а также другой специфической информации о работе сервера. Лог-файлы позволяют опреде­ лить тип компьютерного оборудования (аппаратные и про­ граммные средства) посетителя сайта.

Информация, касающаяся содержания, также может быть извлечена из сообщения о предпоследнем сайте, то есть из дан­ ных «откуда пришли». Имеется возможность видеть переходы посетителя внутри вашего сайта от одной страницы к другой, первую страницу, на которую посетитель «пришел», и послед­ нюю, с которой он «ушел» от вас. Анализ послания «Query strings» позволяет судить об интересах пользователя (его ожида­ ниях относительно содержания искомых страниц), узнать, ка­ кие поисковые термины применяет пользователь при работе с вашей страницей и при необходимости корректировать содер­ жание сайта.

Генерирование лог-файла. Каждый веб-сервер формирует лог-файл, в котором записывается соответствующая информа­ ция о каждом посещении, то есть о соединении с Интернетом

363

Глава 8. Электронные библиотеки

по протоколу HTTP. Запись представляет собой текстовый файл обычно в так называемом общем формате (Common Log File Format — CLF Format). В табл. 54 показан пример общей (CLF) и расширенной (ECLF) записи лог-файла, а ниже дан об­ разец ее расшифровки.

Таблица 54

Пример общей (CLF) и расширенной (ECLF) записи лог-файла

Наименование

Значение или функция

Host

Ident

Authuser

Date

Tim e zone

Request

Status

Bytes

Referrer

Agent

О б щ а я зап и сь (C L F )

IP -адрес или доменное имя посетителя

Идентификация (если необходимо, а если не нужно, то в записи будет прочерк)

Проверка аутентичности (при необходимости)

Дата и время посещения

Отклонение от Гринвича, часов

Метод, документ или протокол; команда посетителя на по­ иск, затребованный файл

Рапорт о выполнении запроса или о неудаче

Полное количество переданных байтов

Расширенная запись (ECLF)

Интернет-адрес (U R L ) страницы, содержащей гиперсвязь (отсылку) на запрошенную страницу

Наименование и версия программного обеспечения П К по­ сетителя

Например, запись в лог-файле:

123.456.78.9 - [08/Мау/2003:13:45:56=D500] Get XY.html НТТР/1.0 200 2050 Z. html Mozilla /5[Win95]

означает, что:

посетитель пришел на сайт с IP-адреса 122.456.78.9 8 мая 2003 г. и запросил страницу XY.html;

документ был успешно передан (код 200) и полное коли­ чество байт составило 2050;

364

Оценки эффективности работы электронной библиотеки

пользователь проследовал по гиперсвязи (отсылке) на странице Z-html и использует систему Microsoft Internet Explorer с программой Windows 95.

Показатели активности веб-сайта. На рис. 39 приведены раз­ личные показатели активности веб-сайта: посетители, посеще­ ния, просмотренные страницы, просмотренные файлы. В прежних исследованиях при анализе лог-файлов подсчитыва­ ли количество хитов (hits) — количество просмотренных неза­ висимых, имеющих отдельный адрес компонентов страницы — и пытались на основании этих данных судить об активности сайта. Это неверно и приводит к колоссальным ошибкам, ибо лог-файл регистрирует любой (и каждый) файл в ходе реализа­ ции доступа. Если на сетевой странице, например, много гра-

 

Пасститсль (visitor)

Посещение, сеанс

Посещение, сеанс

(visit, session)

(visit, session)

Рис. 39. Различные категории замеров активности веб-сайта

365

Глава 8. Электронные библиотеки

фики и изображений, то каждое из них будет зарегистрировано. В результате окажется, что густо насыщенный вставками мате­ риал посещается чаще. Именно поэтому германское Общество контроля за интернет-рекламой, в которое входят несколько крупнейших национальных союзов по рекламе и мультимедиа­ материалам, на сугубо профессиональной основе изучает этот вопрос, имея в виду установление расценок на сетевые объявле­ ния. Общество рекомендует два других показателя: «Просмот­ ренные страницы» (Page impressions, Page Views) и «Посещения» (Visits). Эти рекомендации приняты и в настоящее время ис­ пользуются на практике.

Просмотренные страницы. Это показатель количества сете­ вых страниц на данном сервере, имеющих возможность разме­ щения рекламы, на которые пользователь заходил (или которые вызывал, запрашивал). Здесь нужно сделать небольшое уточне­ ние. Технология создания кадров (фрэймов) допускает вызов нескольких физических страниц сразу одним щелчком мыши, что может исказить картину и быть неправильно понято рекла­ модателями. Поэтому определение страницы в данном случае относится только к одному кадру, физически видимому на эк­ ране монитора. Второй рекомендованный показатель — посе­ щение, визит.

Визит (сессия, посещение). Под визитом понимается связан­ ная (единая) группа транзакций, осуществленная в Сети между каким-то IP-адресом и веб-сайтом. Это определение вовсе не столь тривиально, как кажется на первый взгляд. Дело в том, что связь между пользователем и сайтом прерывается после каждого единичного акта запрос/ответ. Это делается для того, чтобы не перегружать сеть (не занимать линию) при молчании партнеров. Таким образом, лог-файл, как правило, не может сам по себе определить, что же является «связанной группой транзакций». С этой точки зрения «визит» понимается как по­ вторяющаяся с короткими интервалами серия заходов на дан­ ный сайт с одного и того же IP-адреса. Предполагается, что, наиболее вероятно, эти заходы относятся к сеансу связи с од­ ним и тем же пользователем. Если в течение какого-то заранее установленного длительного периода времени с этого адреса не поступают запросы, то следующий сеанс уже засчитывается как новый. По умолчанию заранее установленный перерыв состав­

366

Оценки эффективности работы электронной библиотеки

ляет 30 минут, но можно этот отрезок времени установить и по вашему желанию. Важно отметить, что идентификация посеще­ ний не позволяет делать какие-либо выводы относительно са­ мого пользователя (то есть гарантируется анонимность) и что число посещений всегда будет меньше числа просмотренных страниц.

Пользователи/посетители. Цель изучения сетевого рынка — удостовериться в том, что вы работаете с реальным покупателем (пользователем), физическим лицом, пришедшим на ваш веб-сайт. Однако же идентификация посетителей, подсчет их точного количества являются сложной задачей в силу некото­ рых технических особенностей. Возможности идентификации определяются средствами контроля доступа и небольшими вспомогательными программами (cookies), которые автомати­ чески записываются на жесткий диск посетителя. В последую­ щем идентификация этого «помеченного» жесткого диска осу­ ществляется при повторном заходе без всяких проблем.

Использование вспомогательных программ дает возмож­ ность регистрировать некоторые детали поведения пользовате­ ля, то есть выделить такие категории:

первый заход пользователя;

повторный заход пользователя;

регулярный пользователь — тот, кто часто посещает сайт и работает с ним регулярно.

Можно также проводить персонализацию посетителя, по примеру действий известного интернет-продавца Amazon.com. Для того чтобы получить более детальные сведения о посетите­ лях сайта, придется вводить регистрацию, раздавать регистра­ ционные имена (логины) и пароли. Как показывает опыт, такие меры немедленно вызывают отток посетителей от сайта. Для университетских библиотек такие проблемы вообще не актуаль­ ны, поскольку студенческий коллектив так или иначе зарегист­ рирован.

Пределы аналитических возможностей лог-файлов. Несмотря на замечательную способность лог-файлов собирать данные и факты, все же статистику этого рода следует рассматривать как отражающие тенденции, а не как абсолютную данность. Име­

367

Глава 8. Электронные библиотеки

ются разнообразные источники систематических, структурных и иных ошибок, некоторые из них показаны в табл. 55.

 

 

Таблица 55

Источники ошибок и их направленность

Источник ошибок

Воздействие

Устранение или компенсация

Просмотр страниц с боль­

Завышает

Учитывать расширение файла

шим количеством графики

 

(например, gif...)

Прокси-сервер,

Занижает

Усилить контроль

кэш-память

 

за обновлением

Динамические

Может как

Настройка браузера, cookies,

IP -адреса

завышать, так

регистрация пользователей

 

и занижать

 

Межсетевой защитный

Занижает

Настройка браузера, cookies,

экран

 

регистрация пользователей

Коллективные запросы

Занижает

Регистрация

с одного и того же компь­

 

пользователей

ютера

 

 

Роботы, автоматические

Завышает

Учитывать только заход с про­

подборщики информации

 

смотровой системы (браузера)

Прокси-серверы. В целях организации оптимальной экс­ плуатации Сети широко используются технологии прокси-сер­ веров, которые снижают объем передаваемых данных за счет временного сохранения часто используемой информации. При этом отпадает необходимость многократной пересылки одних и тех же данных на полную дистанцию между сайтом и пользова­ телем.

Когда пользователь запрашивает такую страницу от проксисервера, основной сервер «не ощущает» запроса и, конечно, не производит записи в лог-файле. Запись в лог-файл начнется только тогда, когда соответствующего материала (документа) не окажется в распоряжении прокси-сервера. В результате оказа­ ния такой «технической помощи» данные о спросе на материа­ лы основного сервера будут неточными, причем чем интенсив­ нее идет работа, тем больше вероятность ошибки.

368

Оценки эффективности работы электронной библиотеки

Вспомогательная память персонального компьютера пользова­ теля (кэш браузера). Местная вспомогательная кэш-память сис­ темы просмотра сетевых материалов на компьютере индивиду­ ального пользователя работает в общем так же, как и проксисервер. Для того чтобы ускорить загрузку сетевой страницы, они предварительно поступают в промежуточную кэш-память и регистрируются в лог-файле только один раз, хотя пользова­ тель, быть может, обращается к ним многократно. Следователь­ но, происходит искажение точной картины поведения пользо­ вателя при неоднократном просмотре одних и тех же сетевых страниц.

Кнопки «Вперед» и «Назад». Когда пользователь щелкает по кнопкам «Вперед» или «Назад», страницы сохраняются в основ­ ной памяти компьютера (RAM) и не записываются в лог-файле, что также искажает общую картину.

Динамические IP -адреса. В целях экономии интернет-адре­ сов многие поставщики телекоммуникационных услуг и интер­ нет-службы (например, AOL или t-on-line и др.) присваива­ ют динамические (на данный момент) интернет-адреса. Эта процедура влечет за собой два различных последствия. Первое состоит в том, что один и тот же сервис-провайдер способен об­ служить многих клиентов, фактически используя один и тот же адрес, или второе — обслужить множество клиентов, располагая небольшим количеством IP-адресов. Как результат, в лог-файле могут оказаться записанными несколько динамических адре­ сов, которыми воспользовались многие посетители. Однако один и тот же пользователь в ходе сеанса может получить не­ сколько различных IP-адресов, и тогда в лог-файле появятся, допустим, два адреса, хотя пользовался ими один и тот же кли­ ент.

Межсетевой защитный экран. В целях безопасности многие компании применяют межсетевые защитные экраны. Экран из­ меняет внутренний IP-адрес сотрудника компании на единый для всей компании внешний адрес, который и будет записан впоследствии в лог-файле поставщика информации, даже если из компании заходили на данный веб-сайт многие сотрудники. Если, кроме того, используется прокси-сервер, входная инфор­ мация еще более исказится как по подсчету количества посеще­

369

Глава 8. Электронные библиотеки

ний, так и по запросам пользователей, и итоговая картина не будет правдивой.

Роботы-пауки (подборщики информации). Как мы уже отме­ чали выше, лог-файл записывает и заход на данный сайт авто­ матизированных систем сбора информации — роботов-пауков и др., не различая их с физическими лицами. Исправить данные можно за счет корректировки их отправных точек, ибо количе­ ство автоматизированных поисковых систем и их сетевые адре­ са хорошо известны, поэтому нужно вычесть заходы с этих ад­ ресов из обшей суммы.

Знание приведенных факторов полезно при оценке точно­ сти ваших статистических наблюдений. Поскольку источником ошибок, как правило, являются системные, общие для всего со­ общества причины, то какое-то сравнение результатов (а не только абсолютные замеры) может быть проведено и без допол­ нительной коррекции, лишь бы методики подсчета были еди­ ными.

Усовершенствованные методы анализа. Если вы интересуе­ тесь другими аспектами и более детальным анализом поведения пользователя, то необходимо записывать последовательность просмотра страниц вашего сайта (clickstreams). Эта методика называется «Анализ пути» (Path Analysis). Отдельно взятые по­ сещения можно записывать в базу данных для последующего изучения, это уже начало методики сбора сетевой информации. Термин «сбор сетевой информации» (web mining) происходит от более раннего термина «сбор информации» [вообще] (data mining), появившегося в 1997 г. Инструменты подобного рода создавались вначале для поиска когерентности, соответствия в файлах какого-то конкретного предприятия (компании). В от­ личие от классических схем поиска в данном случае пользова­ тель изначально еще не знает, что конкретно он ищет. Скорее всего, идет поиск любой интересной информации. С этой точки зрения сбор сетевой информации позволяет проследить осо­ бенности поведения пользователей, что важно для специали­ стов по компьютерным программам и для специалистов по об­ работке информации.

370

Соседние файлы в папке книги