Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Аутентификация пользователя из поведения веб.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
897.18 Кб
Скачать

3 Моделирование веб-просмотров

Регистрация данных спонтанного клика в нашем пользовательском исследовании состояла из записи через пользовательские расширения браузера (Firefox и Chrome) метки времени и URL-адреса, которые были видны в то время пользователем (т. Е. Просмотр страницы). Данные были проанализированы в автономном режиме, чтобы минимизировать помехи пользователю. В этом исследовании участвовали 10 субъектов (2 женщины и 8 мужчин) в течение одного месяца. Для ясности мы показываем только результаты тех же 3 пользователей. Население было довольно однородным и высоко оценило «разумность в Интернете». Следующие данные, которые подробно описаны позже, были извлечены из данных: день недели, время суток, паузы (менее 5 минут), взрывчатость ( менее 10 минут), время между повторами и жанрами (например, типы страниц). Количество просмотров страниц на одного пользователя варьировалось от 1200 до 12000. Поведенческие данные веб-браузера являются шумными и требуют предварительной обработки для анализа. Шум возникает из-за искажения сетевого поведения, ошибок при доступе к URL-адресам и автоматической вставки страниц в браузере. Будущая работа позволит смягчить эти проблемы. Данные кликов обрабатываются в «сеансах», где сеанс определяется как непрерывный поток просмотров страниц, разделенных паузами более 30 минут, как в (Kumar and Tomkins 2010). Количество сеансов для наших пользователей варьировалось от 42 до 205. Продолжительность сеанса составляла от 14 до 131 просмотров страниц. Пользовательские сессии являются точками данных в нашем исследовании поведения в Интернете. Мы различаем функции глобальной сессии и внутренние функции сеанса, как описано ниже.

3.1 Особенности глобальной сессии

Стандартная глобальная сессия показывает характеристики захвата сеанса в просмотрах страниц. Они включают в себя распределение по дням недели (DOW) и времени (TOD). С появлением телеуправления и гибкого времени эти функции неравномерны для всех работников. На рисунке 1 показаны три пользователя и их шаблоны еженедельной онлайн-активности, агрегированные для всех сеансов. Пользователь 3 является единственным, кто не работает в выходные дни. На рисунке 2 показаны для тех же трех пользователей свои шаблоны ежечасной онлайн-активности, объединенные во всех сеансах. Пользователь 2 в основном активен утром, в то время как Пользователь 1 активен после обеда.

Рисунок 1: Ежедневные характер активности для трех пользователей, агрегированных во всех сеансах

Другие глобальные функции сессии в нашем эмпирическом исследовании включают общее количество просмотров страниц, среднюю продолжительность просмотра страниц и количество уникальных просмотров страниц.

3.2 Особенности внутренней сессии

Функция внутреннего сеанса фиксирует характеристики просмотров страниц в сеансе.

Рисунок 2: Часовые характеристики активности для трех пользователей, агрегированных во всех сеансах

Паузы Паузы - это время, потраченное пользователем на веб-странице. Он вычисляется как разница между меткой времени двух последовательных просмотров страниц. Как и другие виды деятельности человека, профили пауз следуют за распределением степенного закона (Barabasi 2005). Следовательно, мы можем сопоставить эти данные с экспоненциальной функцией. На рисунке 3 показано экспоненциальное соответствие профилям пауз ниже 5 минут для трех пользователей. Эта функция соответствия данных может использоваться для получения вероятности следующего просмотра страницы и действовать как подпись, с помощью которой можно сравнивать распределения пауз. Различия между пользователями более выражены для более коротких пауз.

Рисунок 3: Пауза профилей ниже 5 минут для трех пользователей, агрегированных во всех сеансах, усеченных до первых 5 секунд

Burstiness (является прерывистым увеличение и уменьшение активности или частоты события) Burstiness, как характеристика поведения человека, следует за распределением степенного закона. В (Барабаси, 2005) раздувание объясняется как следствие нашего процесса принятия решений в приоритетных задачах. Он вычисляется как изменение времени паузы между просмотрами страниц или временем паузы второго порядка (Kwok 2012). В то время как характеристики Burstiness довольно однородны для пользователей при более длительных изменениях паузы, они могут быть совершенно разными для более коротких изменений паузы, как показано на рисунке 4.

Время между повторами Как часто просматривается веб-страница? Было показано, что некоторые веб-страницы играют роль, аналогичную остановке слов в предложении (Montgomery and Faloutsos 2001). Скорость, с которой пересматриваются веб-страницы, также может служить индикатором идентификации пользователя. Показатель пересмотра составлял в среднем от 28 до 46% среди наших пользователей. На рисунке 5 показано время между просмотром профиля (менее 6 минут) для трех пользователей. Существуют большие различия главным образом в более короткие промежутки времени.

Рисунок 4: Burstiness профиля ниже 1 мин, объединенный во всех сеансах для трех пользователей

Рисунок 5: Время между просмотром (менее 6 мин.) Профиля для трех пользователей во всех сеансах, усеченных до первых 72с

Жанры Кодирование необходимо для получения повторных шаблонов поведения. Мы кодируем семантическое и стилистическое содержание веб-страниц в жанрах. Жанры - это функциональные категории представления информации. Другими словами, жанры представляют собой смесь стиля, формы и содержания. Например, книги имеют много жанров, таких как тайна, научная фантастика, вымысел и биография. Аналогичным образом, веб-страницы развивали свои собственные жанры (например, блог, домашняя страница, статья). В принципе, жанр документа привязан к своей цели и отражает социальные соглашения для распространения и поиска информации. Мы утверждаем, что жанры являются более показательными, чем темы для различения поведения веб-браузера. Например, некоторые люди чаще посещают дискуссионные форумы (например, reddit), чем блоги (например, wordpress) независимо от содержимого. Однако жанры и темы объединяются важными способами (например, спам представляет собой комбинацию контента и стиля).

Мы использовали классификатор страниц Diffbot 1 для классификации страниц в жанрах. Diffbot - это веб-сервис, который в настоящее время классифицирует веб-страницы на 21 страницу. Существует несколько проблем при использовании стороннего веб-сервиса, особенно в бета-режиме. Хотя мы ожидаем, что качество категоризации улучшится по мере созревания Diffbot, основными проблемами являются ошибки сертификатов (некоторые из которых могут быть разрешены внутренне путем загрузки сертификатов или с помощью автоматической конфигурации доверия), внешние ошибки (которые включают ошибки, которые пользователь мог (10% всех обращений), ограничение количества запросов в месяц и контроль над типами страниц. На рисунке 6 показаны профили жанра для трех пользователей. Существуют большие различия между пользователями в жанре посещенных страниц. Никакой сильной линейной корреляции не было обнаружено между жанрами и паузами, поэтому мы не можем вывести время, потраченное на веб-страницу из его жанра.

Рисунок 6: Жанр профили для трех пользователей (за исключение ошибок), агрегированных на все сессии