
- •Елизарова н.Н. Мониторинг информационных продуктов и услуг курс лекций
- •Тема 1. Основные понятия информационного мониторинга
- •1. Актуальность информационного мониторинга
- •2. Мониторинг как источник информационного обеспечения
- •3. Состав и содержание информационной сферы
- •Тема 2. Формирование рынка информационных услуг
- •1. Основные составляющие рынка информационных продуктов
- •Тема 2. Формирование рынка информационных услуг
- •1. Два вида собственности на информационный ресурс
- •2. Организация информационной деятельности
- •3. Инфраструктура информационного рынка
- •Тема 3. Характеристика участников рынка информационных продуктов и услуг
- •2. Поставщики рынка информационных продуктов и услуг
- •3. Концентрация подготовки информационных услуг
- •Тема 4. Методы получения информации
- •1. Этапы мониторинговых исследований
- •3. Классификация маркетинговых исследований
- •4. Характеристика методовполучения и обработки
- •Тема 5. Подготовка мониторинговых исследований Лекция 6
- •1. Формирование выборки
- •2. Определение объема выборки
- •Тема 6. Применение математических методов при анализе результатов исследований
- •Анализ взаимодействия поставщиков и потребителей информационных продуктов и услуг
- •2. Применение математических методов при анализе качественных факторов
- •Пример 6.1. Вычисление коэффициента ассоциации и контингенции
- •3. Применение математических методов при анализе количественных факторов
- •3.1. Регрессионный анализ
- •3.2. Корреляционный анализ
- •Тема 7. Прогнозирование тенденций по результатам исследований
- •1. Основы прогнозирования
- •2. Характеристика методов прогнозирования в маркетинговой
- •Тема 8. Становление информационного рынка
- •1. Базы данных как основной информационный продукт
- •2. Проблемы управления государственными информационными ресурсами
- •3. Деятельность библиотек по информационному обеспечению пользователей
- •Тема 9. Роль государственного и негосударственного секторов предоставления информационных продуктов и услуг
- •1. Государственные и негосударственные сектора
- •2. Задача государственного управления инфраструктурой
- •3. Правовая среда информационной деятельности
- •Тема 10. Internet и информационное обеспечение пользователей
- •1. Internet и анкетирование
- •2. Поиск информации в Internet
- •Тема 11. Информатизация социального пространства
- •1. Понятие информационного общества
- •1.2. Семья
- •1.3. Образование
- •1.4. Проблемы информатизации
- •2. Некоторые пути разрешения проблем информатизации
- •3. Развитие информатизации в России
- •Курс лекций
Пример 6.1. Вычисление коэффициента ассоциации и контингенции
Изучается проблема представления услуг патентного поиска различным категориям пользователей. Результаты опроса за последний месяц сведены в табл.6.3.
Таблица 6.3. Исходные данные для вычисления коэффициентов ассоциации и
контингенции
Факторы |
Категории пользователей х1 | ||
Предприятия |
Физические лица | ||
Патентный поиск х2 |
удовлетворили потребность |
а=14 |
b=21 |
не удовлетворили потребность |
с=25 |
d=10 |
Тогда, проведя расчет, получим следующее (табл.6.4):
Таблица 6.4. Данные для расчета
х1 х2 |
1-й уровень |
2-й уровень |
Сумма |
1-й уровень |
а=14 |
b=21 |
a+b=35 |
2-й уровень |
с=25 |
d=10 |
c+d=35 |
Сумма |
a+c=39 |
b+d=31 |
a+b+c+d=70 |
Коэффициент ассоциации
=
– 0,57895.
Коэффициент контингенции
=
– 0,31636.
Значение коэффициента ассоциации показывает наличие зависимости удовлетворенности при патентном поиске от категории пользователей.
Пример 6.2. Расчет биссериального коэффициента корреляции.
Изучается проблема удовлетворенности представленными консультативными услугами пользователями с различным опытом работы. Результаты опроса за последний год сведены в табл.6.5, расчетные данные сведем в табл.6.6.
Таблица 6.5. Данные для вычисления биссериального коэффициента корреляции
Факторы |
Опыт работы | ||||
2 – 5 лет |
5–10 лет |
10–15 лет |
15–25 лет | ||
Консультативные услуги |
удовлетворены услугами (1 гр) |
y11=5 |
y12=7 |
y13=6 |
y14=4 |
неудовлетворены услугами (2 гр) |
y21=9 |
y22=4 |
y23=2 |
y24=1 |
Таблица 6.6. Расчетные данные
|
Средние значения по группам числового признака (опыт работы) | ||||
3,50 |
7,50 |
12,50 |
20 |
Всего | |
1 группа |
5 |
7 |
6 |
4 |
22 |
2 группа |
9 |
4 |
2 |
1 |
16 |
итого |
14 |
11 |
8 |
5 |
38 |
вероятность |
0,37 |
0,29 |
0,21 |
0,13 |
|
Cредние значения по 1 группе:
=3,5·5/22+7,5·7/22+12,5·6/22+20,0·4/22=
10,23.
Cредние значения по 2 группе:
=3,5·9/16+7,5·4/16+12,5·2/16+20,0·1/16=6,66.
Общее средние:
Y ср общ=3,5·0,37+7,5·0,29+12,5·0,21+20,0·0,13= 8,72.
Дисперсия фактических значений признака от среднего уровня:
=(3,5–8,72)2·0,37+(7,5–8,72)2·0,29+(12,5–8,72)2·0,21+
+(20,0 – 8,72)2·0,13,
СКО
=5,48,
р =22/38=0,58, q =16/38=0,42.
Zтаблич.(р)=0,3975,
Биссериальный коэффициент корреляции:
.
Вывод: биссериальный коэффициент корреляции показывает, что связь между удовлетворенностью консультативными услугами и опытом работы есть, но она не является сильной.
3. Применение математических методов при анализе количественных факторов
3.1. Регрессионный анализ
Регрессионный анализ предполагает установление линейной и нелинейной зависимости между измеряемым и требующим управления откликом y и влияющими на него факторами x = (x1, . . ., xp):
|
(6.4) |
где – некоторая случайная величина. Случайное слагаемое выражает либо внутренне присущую отклику y изменчивость, либо влияние на него факторов, не учтенных в соотношении (6.4), либо и то и другое вместе.
Для того чтобы задача о подборе функции отклика y была осмысленной, нужно определить набор допустимых функций f (x). При изучении связи показателей применяются различного вида уравнения прямолинейной и криволинейной связи.
Так при анализе прямолинейной зависимости применяется уравнение:
|
(6.5) |
При криволинейной зависимости применяется ряд математических функций:
– полулогарифмическая
|
(6.6) |
– показательная
|
(6.7) |
– степенная
|
(6.8) |
– параболическая
|
(6.9) |
– гиперболическая
|
(6.10) |
и другие. |
|
Задача
регрессионного анализа заключается в
выборе функциональной зависимости и
определении оценок параметров этой
функции. Вычисление параметров функции
осуществляется способом выравнивания
эмпирических данных методом наименьших.
В основу этого метода положено требование
минимальности сумм квадратов отклонений
экспериментальных данных yi
от данных, полученных по модели
:
|
(6.11) |
После определения оценок параметров уравнения регрессии возникает необходимость испытания этих параметров на значимость. Применительно к совокупностям, у которых n < 30, для проверки значимости параметров уравнения регрессии используется t-критерий Стьюдента. При этом вычисляются фактические значения t-критерия.
Для
параметра а0:
.
(6.12)
Для
параметра а1:
.
(6.13)
В формулах (6.12) и (6.13):
среднеквадратическое
отклонение результативного признака
y
от модельных
значений
.
среднеквадратическое
отклонение факторного признака xi
от общей средней
.
После построения модели необходимо проверить ее адекватность. Для этого прежде всего определяется дисперсия адекватности:
|
(6.14) |
здесь
расчетное значение отклика у,
полученное
по модели (8);
yj наблюдаемое в ходе эксперимента значение отклика;
k количество коэффициентов, включенных в уравнение регрессии.
Следующим этапом проверки адекватности является сопоставление дисперсии адекватности с дисперсией эксперимента:
|
(6.15) |
Здесь
оценка математического ожидания
наблюдений у.
Расчетный критерий Фишера вычисляется по следующей формуле:
|
(6.16) |
Расчетное
значение
сопоставляется с критическим
для
выбранного уровня значимости q
и соответствующих степеней свободы,
которые для числителя равны
1
= n
– k,
а для знаменателя –
2
= n
– 1. Если
наблюдаемое значение меньше критического,
то модель можно признать адекватной.
Такая модель может быть использована
для прогноза в будущем. Если модель
неадекватна, то следует рассмотреть
более сложные нелинейные модели.
Следует отметить, что математический аппарат регрессионного анализа подробно рассматривается в литературе по математической статистике1.
Пример 6.3. Пример построения регрессионного уравнения.
Проводится исследования о влиянии затрат х на рекламу, на объем продаж некоторого товара у (табл.6.7). Построим линейную модель у=f(x)=a0+а1 x.
Таблица 6.7. Исходные данные для расчета
y (тыс.шт) |
433 |
616 |
900 |
1113 |
1305 |
1488 |
1645 |
1914 |
2411 |
x (тыс.руб.) |
15 |
21 |
27 |
32 |
34 |
36 |
37 |
40 |
37 |
Для определения параметров прямой, наилучшим образом аппроксимирующей зависимость у=f(x), можно использовать метод наименьших квадратов. Таким образом, уравнения для расчета параметров a0 и а1 будут иметь вид:
|
(6.17) |
Отсуда получаем:
|
(6.18) |
Проведем дополнительные вычисления, которые сведем в табл.6.8:
Таблица 6.8. Расчетные данные построения линейной модели регрессии
|
|
|
|
|
|
|
|
|
|
Сумма |
y |
433 |
616 |
900 |
1113 |
1305 |
1488 |
1645 |
1914 |
2411 |
11825 |
x |
15 |
21 |
27 |
32 |
34 |
36 |
37 |
40 |
37 |
279 |
xy |
6495 |
12936 |
24300 |
35616 |
44370 |
53568 |
60865 |
76560 |
89207 |
403917 |
x^2 |
225 |
441 |
729 |
1024 |
1156 |
1296 |
1369 |
1600 |
1369 |
9209 |
Тогда
Таким образом, получаем уравнение:
y= – 753,26+66,68x.
Оно показывает, что с увеличением х величина у будет увеличиваться.
Проверим адекватность модели. Для этого определим следующее:
дисперсию адекватности при n=9, k=3
|
|
дисперсию эксперимента
|
|
расчетный критерий Фишера
|
|
Наблюдаемое
значение сравниваем с критическим,
взятым из статистических таблиц для
уровня значимости q=0,05
и степеней свободы для числителя 1
= n
– k=6
и для знаменателя 2
= n
– 1=8,
=3,58.
Так как наблюдаемое значение меньше
критического, то модель можно признать
адекватной.