Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практикум по ИТУ.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
1.75 Mб
Скачать
  1. быть платформенно независимой.

  2. работать вне зависимости от настроек браузера.

  3. собирать максимум информации о посетителе.

  4. предоставлять статистику в виде исходных данных (дальше мы можем обработать и на своем компьютере).

  5. а

    Навигатор уэ5.3.1.1. Анализ Log-файлов

    втоматически предоставлять часть данных в обобщенном виде для посетителей нашего сайта.

В log-файлах (или журнале событий) содержатся два типа информации:

  • об ошибках при обращении к Web-узлу;

  • статистика посещений узла.

Обычно log-файл - это текстовый файл с простой структурой типа: "дата, событие". Такие файлы легко просматривать, но далеко не просто анализировать.

Кроме того, каждый сервер имеет свой формат log-файла. К счастью, существует множество программ (или скриптов), анализирующих log-файлы и выдающих отчеты (обычно в формате HTML) с графиками.

Все анализаторы статистики можно условно разделить на две группы

  • специальные программы (так называемые Stand Alone programs);

  • скрипты (то есть программы, требующие специального интерпретатора, например, Perl).

Большое количество скриптов на языке Perl, анализирующих log-файлы, можно найти на сервере Cgi-Resources (http://www.cgi-resources.com/) в разделе Logging Accesses and Statistics.

Насколько полной окажется информация, собранная Web-сервером, зависит от формата файла регистрации. Список форматов довольно большой: расширенный Apache; Lotus Domino; Microsoft IIS, IIS Extended и IIS Virtual; NCSA Combined и Extended; Netscape Combined и Proxy; O'Reilly Website Combined -- причем это далеко не полный перечень. Кроме того, все серверы генерируют файлы регистрации в оригинальном базовом формате CERN/NCSA Common Log File, служащем для хранения разнообразных данных.

Многие пакеты анализа Web-узлов совместимы со всеми перечисленными форматами, благодаря чему с их помощью можно собрать обширные сведения о посетителях, выяснив их IP-адрес, имя домена, код страны, тип и версию браузера, время и дату направления запроса, число транзакций и число байтов, передаваемых при обслуживании одного запроса. С помощью лучших продуктов можно определить URL узла, содержащий ссылки на ваш сервер (referrer URL), узнать точный маршрут перемещения посетителя по узлу (clickstream) и выяснить, ознакомился ли посетитель с каким-либо рекламным объявлением (clickthrough).

Следовательно, файлы регистрации преобразуются в анализаторах в файлы базы данных, а регистрационные данные пересылаются в поля базы данных. Во многих пакетах имеются встроенные базы данных, где можно сохранить информацию из файлов регистрации для использования в будущих отчетах.

Два продукта учрежденческого уровня, Microsoft Site Server и net.Analysis Pro NT, подключаются непосредственно к SQL-серверу Microsoft, и если вы уже работаете с SQL, то сможете интегрировать данные вашей организации с данными узла Web. (Site Server стыкуется и с СУБД Microsoft Access). Этот подход используется также в пакете Hit List Enterprise фирмы MarketWave, онако рекомендуемая изготовителем цена - 6995 долл – делает его практически недоступным.

Широко различающиеся по цене, платформам и возможностям, инструменты Web-анализа интерпретируют данные о взаимодействии между Web-клиентом (браузером) и Web-сервером. Все эти пакеты в определенной степени опираются на файлы журналов, генерируемые ПО Web-сервера, в которых находятся данные, способные создать подробную картину деятельности и личности ваших посетителей. Но файлы журналов рассказывают не обо всем, и разработчики этих инструментов для поиска полезных данных все чаще обращаются к анализу деятельности самой сети.

Файлы журналов (Log Files)

В зависимости от применяемого Web-сервера файлы журналов содержат некоторые, а может быть и все, из следующих типов информации о каждом обращении посетителя:

* IP-адрес браузера, сделавшего запрос;

* его код страны и имя домена;

* часы, минуты и секунды запроса, а также дату и день недели;

* тип запроса HTTP;

* путь к запрашиваемым файлам;

* состояние ответа от сервера (успешный/неуспешный результат запроса);

* число переданных байт;

* запрашивающий URL (где находился посетитель перед тем как обратиться к вам);

* имя пользователя, если требуется проверка подлинности;

* тип используемого браузера.

Журнал сервера Microsoft Internet Information Server регистрирует IP-адрес и имя пользователя (часто - "анонимный"); дату и время запроса; имя компьютера и IP-адрес сервера; число байт, принятых и переданных в соответствии с запросом; время обработки в миллисекундах, наименование операции (метод HTTP); цель операции (обычно имя файла). Кроме того, регистрируется код состояния транзакции и код состояния сервера Windows NT. Типичная запись в журнале IIS выглядит следующим образом:

137.48.110.74, anonymous, 07/17/97,

23:52:19, W3SVC, SERVER7,

128.75.122.8, 348, 412, 2797,

200, 0, GET,

/custserv/compinfo/contacts.asp

В приведенном выше примере запрос поступил от пользователя "anonymous" с IP-адресом 137.48.110.74 в 11:52:19 вечера 17 июля 1997 г. Его цель - файл contacts.asp в каталоге /custserv/compinfo. Этот запрос обработала служба Windows NT WWW (W3SRV, в отличие от FTP или Gopher) на сервере SERVER7 с IP-адресом 128.75.122.8. Время обработки 348 мс, запрос состоял из 412 байт, а переданных данных было 2797 байт. Код HTTP 200 указывает на то, что операция прошла успешно, код сервера Windows NT отсутствовал.

Каждая транзакция между Web-клиентом и Web-сервером приводит к созданию подобной записи. Нагруженный сервер будет генерировать огромное число таких записей, и файл регистрации очень быстро вырастет до гигантских размеров, особенно когда в транзакциях участвуют встроенные файлы типа внутритекстовой графики, которая генерирует свои собственные записи. (Если Web-страница содержит шесть файлов .GIF, запрос к ней сгенерирует семь разных записей в журнале).

С крупными файлами связана еще одна проблема. В пакетах, устанавливаемых на жесткий диск пользователя, для выполнения анализа файлы должны загружаться в машину клиента. Обычно этот процесс осуществляется через FTP и может быть запланирован на время минимальной активности. Основные пакеты поддерживают передачу файлов в форматах .ZIP или GZIP, а некоторые даже компрессируют и декомпрессируют их динамически. Недостатком этого метода служит необходимость передачи большого объема информации при каждом запросе.

Большинство серверов Web позволяет администраторам указывать дополнительную информацию, подлежащую регистрации, что приводит к еще большей длине каждой записи. Поэтому неудивительно, что файлы журналов становятся огромными, и их ручная интерпретация невозможна. Существует несколько типов журналов - чем подробнее, тем больше. Формат общего файла регистрации (CLOG или CLF) стал стандартом для всех Web-серверов, но расширенные форматы очень многообразны и могут модифицироваться. Ваш аналитический инструмент должен знать разные форматы.

Навигатор