![](/user_photo/_userpic.png)
книги / Электронная информация и электронные ресурсы
..pdfОценки эффективности работы электронной библиотеки
ства, частные компании и отдельные лица осознают первосте пенную важность информации. Основой контроля качества и научного управления является, прежде всего, формулирование приоритетов. В этом смысле американский подход отличается от европейского. На недавней конференции ИФЛА немецкий специалист Дейл Аски (Dale Askey) отметил: «Американские библиотеки ориентированы на обслуживание читателей, в то время как в центре внимания немецких библиотек находятся фонды. В целом американские библиотеки, не заботясь о по полнении своих фондов за счет государства или спонсоров, пре вратились в организации, чьей постоянной целью стал поиск новых путей в улучшении качества услуг, предоставляемых чи тателям». Российские требования в основном касаются выпол нения количественных показателей по комплектованию, книговыдаче и т. п.
Приведем главные международные стандарты оценки каче ства работы библиотек, а именно:
•Стандарт ISO 2789 International Library Statistics (междуна родная библиотечная статистика);
•Стандарт ISO 11620 Library Performance Indicators (показа тели качества работы библиотек);
•Стандарт ANSI/NISO Z39.7—1995: Library Statistics (биб лиотечная статистика).
Для обеспечения единого подхода к оценкам качества рабо ты сайтов был разработан норматив «Учет использования сете вых электронных ресурсов» (Counting Online Usage of Networked Electronic Resources — COUNTER) с учетом записей и обмена данными относительно использования базы данных и полнотекстовых журналов. Компания Elsevier объявила, что фирмен ный продукт компании Science Direct будет совместим с требо ваниями COUNTER. Ранее о своей поддержке проекта заявило подписное агентство Blackwell/Swets. Регистрация других же лающих участвовать в международном проекте может прово диться по адресу некоммерческой организации COUNTER www.projectcounter.org.
В 2004 г. были разработаны и после широкого обсуждения введены новые национальные стандарты обслуживания в мас совых (публичных) библиотеках Великобритании (Public Library
361
Глава 8. Электронные библиотеки
Service Standards — PLSS). В стандартах зафиксированы норма тивы, описывающие:
•близость библиотек к своим читателям;
•часы обслуживания;
•доступ к Интернету, к другим онлайновым каталогам;
•количество новых книг и других материалов, приобретен ных за год;
•оценки публикой качества работы библиотеки;
•удовлетворенность пользователей и др.
Утвержденные десять основных стандартов заменят ныне действующие 26 стандартов, что были введены в 2001 г. Вновь введенные стандарты и нормативы для 3600 публичных библио тек Великобритании действовали до 2006 г. Мы приводим дан ные стандарты в приложении 3 к настоящей книге и советуем сотрудникам публичных библиотек с ними ознакомиться. Дело в том, что движение «от многих показателей к важным показа телям», продемонстрированное в Великобритании, будет по лезным и в наших условиях. Разработанный в России «Модель ный стандарт деятельности публичных библиотек», принятый на Конференции Российской библиотечной ассоциации в 2001 г. (г. Саратов) намного объемнее английских стандартов (7 разделов, занимающих 22 страницы текста). Часть показате лей, например максимальная удаленность публичной библио теки от пользователя, практически совпадает в обоих стан дартах. Однако в российском стандарте подробно расписаны требования к библиотечным помещениям; в английских стан дартах, во-первых, не один раз упоминаются средства совре менных информационно-коммуникационных технологий и, во-вторых, дважды формулируются требования по уровню удовлетворенности пользователя — как детей, так и взрослых. Разница достаточно выразительная!
Что измеряется и что может быть измерено? Библиотечный персонал должен располагать надежным и стандартизованным источником сведений об использовании электронных ресурсов, что нашло свое отражение в ряде проектов, в частности методе использования лог-файлов.
Предлагаемый метод основан на использовании файлов ре гистрации (лог-файлов), которые автоматически формируются
362
Оценки эффективности работы электронной библиотеки
веб-сервером, а значит, данные о них легко доступны библиоте ке, имеющей сервер. Заметим также, что этот метод можно на звать нереактивным в том смысле, что пользователь не ощущает того, что его поведение в Сети как-то подвергается автоматизи рованному мониторингу.
Анализ поведения пользователей с помощью лог-файлов — это количественный метод оценки использования сайта. Наи более простой способ анализа — статистика заходов на опреде ленные страницы сайта. Этим методом можно оценить, какие именно страницы сайта, когда, как часто и на какое время посе щаются пользователями. Важная характеристика — количество посещений, которые явились результатом работы поисковой машины. Ввиду того что поисковые машины и роботы нельзя считать аналогом визита настоящего пользователя, правильно будет исключать такого рода заходы на сайт из общего числа по сещений.
Дополнительной целью использования данной методики является получение технической информации о количестве правильно выполненных актов пересылки сетевых страниц и количестве допущенных ошибок (послание об ошибке «error 404» — гиперсвязь не работает), а также другой специфической информации о работе сервера. Лог-файлы позволяют опреде лить тип компьютерного оборудования (аппаратные и про граммные средства) посетителя сайта.
Информация, касающаяся содержания, также может быть извлечена из сообщения о предпоследнем сайте, то есть из дан ных «откуда пришли». Имеется возможность видеть переходы посетителя внутри вашего сайта от одной страницы к другой, первую страницу, на которую посетитель «пришел», и послед нюю, с которой он «ушел» от вас. Анализ послания «Query strings» позволяет судить об интересах пользователя (его ожида ниях относительно содержания искомых страниц), узнать, ка кие поисковые термины применяет пользователь при работе с вашей страницей и при необходимости корректировать содер жание сайта.
Генерирование лог-файла. Каждый веб-сервер формирует лог-файл, в котором записывается соответствующая информа ция о каждом посещении, то есть о соединении с Интернетом
363
Глава 8. Электронные библиотеки
по протоколу HTTP. Запись представляет собой текстовый файл обычно в так называемом общем формате (Common Log File Format — CLF Format). В табл. 54 показан пример общей (CLF) и расширенной (ECLF) записи лог-файла, а ниже дан об разец ее расшифровки.
Таблица 54
Пример общей (CLF) и расширенной (ECLF) записи лог-файла
Наименование |
Значение или функция |
Host
Ident
Authuser
Date
Tim e zone
Request
Status
Bytes
Referrer
Agent
О б щ а я зап и сь (C L F )
IP -адрес или доменное имя посетителя
Идентификация (если необходимо, а если не нужно, то в записи будет прочерк)
Проверка аутентичности (при необходимости)
Дата и время посещения
Отклонение от Гринвича, часов
Метод, документ или протокол; команда посетителя на по иск, затребованный файл
Рапорт о выполнении запроса или о неудаче
Полное количество переданных байтов
Расширенная запись (ECLF)
Интернет-адрес (U R L ) страницы, содержащей гиперсвязь (отсылку) на запрошенную страницу
Наименование и версия программного обеспечения П К по сетителя
Например, запись в лог-файле:
123.456.78.9 - [08/Мау/2003:13:45:56=D500] Get XY.html НТТР/1.0 200 2050 Z. html Mozilla /5[Win95]
означает, что:
•посетитель пришел на сайт с IP-адреса 122.456.78.9 8 мая 2003 г. и запросил страницу XY.html;
•документ был успешно передан (код 200) и полное коли чество байт составило 2050;
364
Оценки эффективности работы электронной библиотеки
•пользователь проследовал по гиперсвязи (отсылке) на странице Z-html и использует систему Microsoft Internet Explorer с программой Windows 95.
Показатели активности веб-сайта. На рис. 39 приведены раз личные показатели активности веб-сайта: посетители, посеще ния, просмотренные страницы, просмотренные файлы. В прежних исследованиях при анализе лог-файлов подсчитыва ли количество хитов (hits) — количество просмотренных неза висимых, имеющих отдельный адрес компонентов страницы — и пытались на основании этих данных судить об активности сайта. Это неверно и приводит к колоссальным ошибкам, ибо лог-файл регистрирует любой (и каждый) файл в ходе реализа ции доступа. Если на сетевой странице, например, много гра-
|
Пасститсль (visitor) |
Посещение, сеанс |
Посещение, сеанс |
(visit, session) |
(visit, session) |
Рис. 39. Различные категории замеров активности веб-сайта
365
Глава 8. Электронные библиотеки
фики и изображений, то каждое из них будет зарегистрировано. В результате окажется, что густо насыщенный вставками мате риал посещается чаще. Именно поэтому германское Общество контроля за интернет-рекламой, в которое входят несколько крупнейших национальных союзов по рекламе и мультимедиа материалам, на сугубо профессиональной основе изучает этот вопрос, имея в виду установление расценок на сетевые объявле ния. Общество рекомендует два других показателя: «Просмот ренные страницы» (Page impressions, Page Views) и «Посещения» (Visits). Эти рекомендации приняты и в настоящее время ис пользуются на практике.
Просмотренные страницы. Это показатель количества сете вых страниц на данном сервере, имеющих возможность разме щения рекламы, на которые пользователь заходил (или которые вызывал, запрашивал). Здесь нужно сделать небольшое уточне ние. Технология создания кадров (фрэймов) допускает вызов нескольких физических страниц сразу одним щелчком мыши, что может исказить картину и быть неправильно понято рекла модателями. Поэтому определение страницы в данном случае относится только к одному кадру, физически видимому на эк ране монитора. Второй рекомендованный показатель — посе щение, визит.
Визит (сессия, посещение). Под визитом понимается связан ная (единая) группа транзакций, осуществленная в Сети между каким-то IP-адресом и веб-сайтом. Это определение вовсе не столь тривиально, как кажется на первый взгляд. Дело в том, что связь между пользователем и сайтом прерывается после каждого единичного акта запрос/ответ. Это делается для того, чтобы не перегружать сеть (не занимать линию) при молчании партнеров. Таким образом, лог-файл, как правило, не может сам по себе определить, что же является «связанной группой транзакций». С этой точки зрения «визит» понимается как по вторяющаяся с короткими интервалами серия заходов на дан ный сайт с одного и того же IP-адреса. Предполагается, что, наиболее вероятно, эти заходы относятся к сеансу связи с од ним и тем же пользователем. Если в течение какого-то заранее установленного длительного периода времени с этого адреса не поступают запросы, то следующий сеанс уже засчитывается как новый. По умолчанию заранее установленный перерыв состав
366
Оценки эффективности работы электронной библиотеки
ляет 30 минут, но можно этот отрезок времени установить и по вашему желанию. Важно отметить, что идентификация посеще ний не позволяет делать какие-либо выводы относительно са мого пользователя (то есть гарантируется анонимность) и что число посещений всегда будет меньше числа просмотренных страниц.
Пользователи/посетители. Цель изучения сетевого рынка — удостовериться в том, что вы работаете с реальным покупателем (пользователем), физическим лицом, пришедшим на ваш веб-сайт. Однако же идентификация посетителей, подсчет их точного количества являются сложной задачей в силу некото рых технических особенностей. Возможности идентификации определяются средствами контроля доступа и небольшими вспомогательными программами (cookies), которые автомати чески записываются на жесткий диск посетителя. В последую щем идентификация этого «помеченного» жесткого диска осу ществляется при повторном заходе без всяких проблем.
Использование вспомогательных программ дает возмож ность регистрировать некоторые детали поведения пользовате ля, то есть выделить такие категории:
•первый заход пользователя;
•повторный заход пользователя;
•регулярный пользователь — тот, кто часто посещает сайт и работает с ним регулярно.
Можно также проводить персонализацию посетителя, по примеру действий известного интернет-продавца Amazon.com. Для того чтобы получить более детальные сведения о посетите лях сайта, придется вводить регистрацию, раздавать регистра ционные имена (логины) и пароли. Как показывает опыт, такие меры немедленно вызывают отток посетителей от сайта. Для университетских библиотек такие проблемы вообще не актуаль ны, поскольку студенческий коллектив так или иначе зарегист рирован.
Пределы аналитических возможностей лог-файлов. Несмотря на замечательную способность лог-файлов собирать данные и факты, все же статистику этого рода следует рассматривать как отражающие тенденции, а не как абсолютную данность. Име
367
Глава 8. Электронные библиотеки
ются разнообразные источники систематических, структурных и иных ошибок, некоторые из них показаны в табл. 55.
|
|
Таблица 55 |
Источники ошибок и их направленность |
||
Источник ошибок |
Воздействие |
Устранение или компенсация |
Просмотр страниц с боль |
Завышает |
Учитывать расширение файла |
шим количеством графики |
|
(например, gif...) |
Прокси-сервер, |
Занижает |
Усилить контроль |
кэш-память |
|
за обновлением |
Динамические |
Может как |
Настройка браузера, cookies, |
IP -адреса |
завышать, так |
регистрация пользователей |
|
и занижать |
|
Межсетевой защитный |
Занижает |
Настройка браузера, cookies, |
экран |
|
регистрация пользователей |
Коллективные запросы |
Занижает |
Регистрация |
с одного и того же компь |
|
пользователей |
ютера |
|
|
Роботы, автоматические |
Завышает |
Учитывать только заход с про |
подборщики информации |
|
смотровой системы (браузера) |
Прокси-серверы. В целях организации оптимальной экс плуатации Сети широко используются технологии прокси-сер веров, которые снижают объем передаваемых данных за счет временного сохранения часто используемой информации. При этом отпадает необходимость многократной пересылки одних и тех же данных на полную дистанцию между сайтом и пользова телем.
Когда пользователь запрашивает такую страницу от проксисервера, основной сервер «не ощущает» запроса и, конечно, не производит записи в лог-файле. Запись в лог-файл начнется только тогда, когда соответствующего материала (документа) не окажется в распоряжении прокси-сервера. В результате оказа ния такой «технической помощи» данные о спросе на материа лы основного сервера будут неточными, причем чем интенсив нее идет работа, тем больше вероятность ошибки.
368
Оценки эффективности работы электронной библиотеки
Вспомогательная память персонального компьютера пользова теля (кэш браузера). Местная вспомогательная кэш-память сис темы просмотра сетевых материалов на компьютере индивиду ального пользователя работает в общем так же, как и проксисервер. Для того чтобы ускорить загрузку сетевой страницы, они предварительно поступают в промежуточную кэш-память и регистрируются в лог-файле только один раз, хотя пользова тель, быть может, обращается к ним многократно. Следователь но, происходит искажение точной картины поведения пользо вателя при неоднократном просмотре одних и тех же сетевых страниц.
Кнопки «Вперед» и «Назад». Когда пользователь щелкает по кнопкам «Вперед» или «Назад», страницы сохраняются в основ ной памяти компьютера (RAM) и не записываются в лог-файле, что также искажает общую картину.
Динамические IP -адреса. В целях экономии интернет-адре сов многие поставщики телекоммуникационных услуг и интер нет-службы (например, AOL или t-on-line и др.) присваива ют динамические (на данный момент) интернет-адреса. Эта процедура влечет за собой два различных последствия. Первое состоит в том, что один и тот же сервис-провайдер способен об служить многих клиентов, фактически используя один и тот же адрес, или второе — обслужить множество клиентов, располагая небольшим количеством IP-адресов. Как результат, в лог-файле могут оказаться записанными несколько динамических адре сов, которыми воспользовались многие посетители. Однако один и тот же пользователь в ходе сеанса может получить не сколько различных IP-адресов, и тогда в лог-файле появятся, допустим, два адреса, хотя пользовался ими один и тот же кли ент.
Межсетевой защитный экран. В целях безопасности многие компании применяют межсетевые защитные экраны. Экран из меняет внутренний IP-адрес сотрудника компании на единый для всей компании внешний адрес, который и будет записан впоследствии в лог-файле поставщика информации, даже если из компании заходили на данный веб-сайт многие сотрудники. Если, кроме того, используется прокси-сервер, входная инфор мация еще более исказится как по подсчету количества посеще
369
Глава 8. Электронные библиотеки
ний, так и по запросам пользователей, и итоговая картина не будет правдивой.
Роботы-пауки (подборщики информации). Как мы уже отме чали выше, лог-файл записывает и заход на данный сайт авто матизированных систем сбора информации — роботов-пауков и др., не различая их с физическими лицами. Исправить данные можно за счет корректировки их отправных точек, ибо количе ство автоматизированных поисковых систем и их сетевые адре са хорошо известны, поэтому нужно вычесть заходы с этих ад ресов из обшей суммы.
Знание приведенных факторов полезно при оценке точно сти ваших статистических наблюдений. Поскольку источником ошибок, как правило, являются системные, общие для всего со общества причины, то какое-то сравнение результатов (а не только абсолютные замеры) может быть проведено и без допол нительной коррекции, лишь бы методики подсчета были еди ными.
Усовершенствованные методы анализа. Если вы интересуе тесь другими аспектами и более детальным анализом поведения пользователя, то необходимо записывать последовательность просмотра страниц вашего сайта (clickstreams). Эта методика называется «Анализ пути» (Path Analysis). Отдельно взятые по сещения можно записывать в базу данных для последующего изучения, это уже начало методики сбора сетевой информации. Термин «сбор сетевой информации» (web mining) происходит от более раннего термина «сбор информации» [вообще] (data mining), появившегося в 1997 г. Инструменты подобного рода создавались вначале для поиска когерентности, соответствия в файлах какого-то конкретного предприятия (компании). В от личие от классических схем поиска в данном случае пользова тель изначально еще не знает, что конкретно он ищет. Скорее всего, идет поиск любой интересной информации. С этой точки зрения сбор сетевой информации позволяет проследить осо бенности поведения пользователей, что важно для специали стов по компьютерным программам и для специалистов по об работке информации.
370