- •Глава 5. Встроенные функции 141
- •Глава 5. Встроенные функции
- •5.1. Правила использования функций
- •5.2. Математические функции
- •5.3. Логические функции
- •5.4. Статистические функции
- •5.5. Функции для работы с базой данных
- •5.6. Функции дат и времени
- •5.7. Инженерные функции
- •5.8. Функции ссылок и массивов
- •5.9. Финансовые функции
- •5.10. Другие функции
5.4. Статистические функции
Обзор статистических функций. В процессе инженерных и экономических исследований накапливаются большие массивы экспериментальных данных. Обычно они нуждаются в статистической обработке, которая выполняется с использованием статистических функций. С помощью этих функций можно получить числовые характеристики выборок4; вычислить параметры зависимостей, аппроксимирующих5 имеемые данные; определить прогнозируемые значения по существующим данным; оценить неточность измерений или погрешность математического моделирования процессов и т.д.
Группа статистических функций Excel является одной из наиболее многочисленных. В нее входит 80 функций. Часто используемые статистические функций можно условно разделить на четыре подгруппы: функции для вычисления характеристик выборки; аппроксимирующие функции; прогнозирующие функции; функции для расчета распределений и квантилей. Рассмотрим наиболее распространенные функции этих категорий.
Функции для вычисления характеристик выборки. Каждая выборка характеризуется числовыми показателями, важнейшими из которых являются:
Размер выборки – количество результатов эксперимента или значений случайной величины, сохраненных в виде массива данных.
Минимальное и максимальное значения выборки. Для вычисления этих характеристик используются функции МИН и МАКС.
Размах выборки – разность максимального и минимального значений выборки.
Среднее значение выборки – частное от деления суммы элементов выборки на количество этих элементов. Эта характеристика вычисляется с помощью функции СРЗНАЧ.
Медиана выборки – величина, меньше и больше которой в выборке содержится одинаковое число элементов. Для вычисления медианы предусмотрена функция МЕДИАНА.
Дисперсия выборки – мера разброса элементов выборки относительно ее среднего значения. Для вычисления дисперсии используется функция ДИСП.
Среднеквадратичное отклонение – другая мера разброса элементов выборки относительно ее среднего значения. Для вычисления среднеквадратичного отклонения используется функция СТАНДОТКЛОН. С ее помощью среднеквадратичное отклонение определяется как корень квадратный из ДИСП.
Доверительный интервал – это интервал с обеих сторон от среднего значения генеральной совокупности, в который с определенной вероятностью попадают все значения переменной. Для вычисления этой характеристики используется функция ДОВЕРИТ.
Следующие две функции предназначены для определения числовых характеристик двухмерной случайной величины, представляющей собой совокупность двух массивов данных (например, множества результатов одновременного измерения температуры воздуха и воды). Обе эти функции используются для вычисления взаимного влияния друг на друга компонентов случайной величины.
Ковариация – мера стохастической связи между компонентами двухмерной случайной величины. Для вычисления ковариации используется функция КОВАР. Если ковариация не равна нулю, то между компонентами случайной величины существует стохастическая связь, мерой которой является значение ковариации.
Коэффициент корреляции – другая мера связи между компонентами двухмерной случайной величины. Его значение лежит в интервале от -1 до +1. Если коэффициент равен +1, значит, изменение одного ряда данных ведет к линейному изменению второго ряда в ту же сторону. Равенство коэффициента -1 говорит о том, что изменение одного ряда данных ведет к линейному изменению второго ряда в противоположную сторону. А чем ближе этот коэффициент к нулю, тем меньше влияние одного ряда данных на другой. Для вычисления коэффициента корреляции предусмотрена функция КОРЕЛЛ.
Ниже приведен синтаксис функций для вычисления характеристик выборки и даны необходимые пояснения особенностей их использования:
=МИН(число1; число2; …) – возвращает наименьшее значение из списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны ячеек. Ячейки с нечисловыми данными игнорируются.
=МАКС(число1; число2; …) – возвращает наибольшее значение из списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны ячеек. Ячейки с нечисловыми данными игнорируются.
=СРЗНАЧ(число1; число2; …) – возвращает среднее арифметическое списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны ячеек. Ячейки с нечисловыми данными игнорируются.
=НАИБОЛЬШИЙ(массив; k) – возвращает k-е по величине значение множества данных, отсчитанное от максимального значения. Если все значения массива упорядочить по убыванию, то возвращаемое НАИБОЛЬШЕЕ значение будет находиться на k-м месте. Например, если в диапазоне ячеек D1:D4 находится массив 5, 2, 9, 7, то НАИБОЛЬШЕЕ(D1:D4; 2)=7. Эту функцию можно использовать, например, для определения результатов, следующих за наилучшим. При k=2 это будет второй результат, а при k=3 - третий.
=НАИМЕНЬШИЙ(массив; k) – возвращает k-е по величине значение множества данных, отсчитанное от минимального значения. Если все значения массива упорядочить по возрастанию, то возвращаемое НАИМЕНЬШЕЕ значение будет находиться на k-м месте. Например, если в диапазоне ячеек D1:D4 находится массив 5, 2, 9, 7, то НАИМЕНЬШЕЕ (D1:D4; 2)=5. Эту функцию можно использовать, например, для определения результатов, предшествующих наихудшему. При k=2 это будет второй сзади результат, а при k=3 - третий.
=МЕДИАНА(число1; число2; …) – возвращает медиану списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны. Ячейки с нечисловыми данными игнорируются.
Если множество, заданное списком аргументов, содержит нечетное количество числовых значений, функция возвращает число, находящееся в середине этого множества (например, для множества 7, 15, 90 медиана равна 15).
Если множество имеет четное количество числовых значений, функция вычисляет среднее двух чисел, находящихся в середине этого множества (например, для множества 5, 15, 17, 18, 50, 90 медиана равна 17.5).
=ДИСП(число1; число2; …) – возвращает дисперсию выборки, заданной в виде списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны ячеек. Ячейки с нечисловыми данными игнорируются.
=СТАНДОТКЛОН(число1; число2; …) – возвращает среднеквадратичное отклонение для выборки, заданной в виде списка аргументов. Количество аргументов не должно превышать 30. Аргументами могут быть числа, ссылки на ячейки и диапазоны ячеек. Ячейки с нечисловыми данными игнорируются.
=ДОВЕРИТ(альфа; станд_откл; размер) – возвращает доверительный интервал для среднего значения генеральной совокупности. Аргументами функции являются:
Альфа – вероятность ошибки или уровень значимости. По вероятности ошибки легко определить доверительную вероятность или уровень надежности. Пересчет выполняется по формуле: (1-Альфа)*100%. Если, например, вероятность ошибки равна 0.05, то доверительная вероятность составляет 95%.
Станд_откл – среднеквадратичное отклонение генеральной совокупности, оценку которого можно получить с использованием функции СТАНДОТКЛОН.
Размер – размер выборки.
Поскольку функция ДОВЕРИТ позволяет определять интервал (с обеих сторон от среднего значения), в который с заданной вероятностью попадают все значения переменой, эта функция находит широкое практическое применение. Например, если известна цена бензина в различных городах страны, то, вычислив его среднюю цену (СР_ЦЕНА) и доверительный интервал (ДОВ_ИНТ), можно с заданной доверительной вероятностью утверждать, что во взятом наугад городе цена на бензин не ниже чем СР_ЦЕНА – ДОВ_ИНТ и не выше чем СР_ЦЕНА + ДОВ_ИНТ. Пример такого расчета приведен на рис. 5.11.
Рис. 5.11. Расчет доверительного интервала
На рисунке приведена часть таблицы с ценами бензина в девяти городах и расчет доверительного интервала при вероятности ошибки 0.05 (5%). В конце определена верхняя и нижняя границы цен для заданных условий. Чем больше заданная вероятность ошибки, тем меньше доверительный интервал. Так для Альфа = 20% доверительный интервал был бы 0.048.
=КОВАР(массив1; массив2) – возвращает ковариацию двухмерной случайной величины. Заданные в качестве аргументов массивы должны быть числовыми и содержать одинаковое количество элементов.
В качестве примера на рис. 5.12 приведена таблица результатов измерения температур. В данном случае массив температур воздуха (B3:K3) является первым компонентом двухмерной случайной величины, а массив температур морской воды (B4:K4) – вторым компонентом.
Рис. 5.12. Расчет ковариации и коэффициента корреляции
С использованием приведенных табличных данных выполнен расчет ковариации. Полученный результат (4.96) свидетельствует о существенном влиянии температуры воздуха на температуру морской воды. Эта зависимость очевидна и без расчета. Пример приведен лишь для иллюстрации возможностей функции КОВАР.
=КОРЕЛЛ(массив1; массив2) – возвращает коэффициент корреляции между компонентами двухмерной случайной величины. Заданные в качестве аргументов массивы должны быть числовыми и содержать одинаковое количество элементов. На рис. 5.12 приведен пример расчета коэффициента корреляции для двух массивов данных.
Аппроксимирующие функции. Задачей аппроксимации является подбор аналитического выражения, воспроизводящего с минимальной погрешностью зависимость, заданную массивом данных. В Excel для этой цели предусмотрены функции ЛИНЕЙН и ЛГРФПРИБЛ.
Функция ЛИНЕЙН. Эта функция вычисляет по методу наименьших квадратов коэффициенты линейной регрессии, аппроксимирующей зависимость, заданную массивом данных.
Линейная регрессия имеет вид: y(x) = m*x + b. Коэффициент m определяет наклон линии относительно оси x, а коэффициент b – смещение линии по вертикали (при b = 0 линия проходит через начало координат). Синтаксис функции:
=
ЛИНЕЙН(известные_значения_y;
известные_значения_x;
конст; статистика)
Известные_значения_y – числовой массив известных значений y. Например, при аппроксимации массива температур воздуха (см. рис. 5.12) значения y находятся в ячейках B3:K3.
Известные_значения_x – числовой массив известных значений x. Данный аргумент не является обязательным. Если он опущен, то предполагается, что это массив {1, 2, 3, …} того же размера, что и массив известные_значения_y. В примере аппроксимации массива температур воздуха (см. рис. 5.12) второй аргумент можно не задавать.
Конст – это логическое значение (ИСТИНА или ЛОЖЬ), которое указывает, нужно ли, чтобы аппроксимирующая прямая проходила через начало координат (то есть, чтобы коэффициент b был равен нулю). Если этот аргумент имеет значение ИСТИНА или опущен, то коэффициент b вычисляется обычным образом; а если – ЛОЖЬ, то b полагается равным нулю.
Статистика – это логическое значение (ИСТИНА или ЛОЖЬ), которое указывает, нужно ли выводить дополнительную регрессионную статистику. Если этот аргумент имеет значение ИСТИНА, то вместе с коэффициентами m и b выводится дополнительная информация: значения ошибок, коэффициент детерминированности и т.д. Если же аргумент Статистика имеет значение ЛОЖЬ или опущен, то дополнительная статистика не выводится.
Поскольку функция ЛИНЕЙН вычисляет массив данных (значения m и b), она должна вводиться, как формула массива (см. Главу 4, п. 4.2). Последовательность действий такова:
Выделить ячейки, в которые будет помещена формула массива. Если массив значений y расположен в строке, нужно выделить часть строки; а если в столбце, то часть столбца. В нашем примере значения температуры воздуха занимают часть строки, поэтому для искомых значений m и b нужно выделить две ячейки (например, M1:N1).
Щелчком в строке формул на кнопке Вставка функции открыть окно мастера функций и выбрать в нем функцию ЛИНЕЙН. Откроется окно аргументов функции.
В поле Известные_значения_y ввести ссылку на массив обрабатываемых данных. Если аппроксимируются результаты измерений температуры воздуха (см. рис. 5.12), то это должен быть диапазон B3:K3. Другие аргументы можно не задавать.
Чтобы получить формулу массива, нужно завершить ввод функции нажатием комбинации клавиш Shift+Ctrl+Enter6. В результате формула будет заключена в фигурные скобки {=ЛИНЕЙН(B3:K3)} и скопирована в выделенные ячейки. При этом в ячейках отобразятся результаты вычислений. В нашем примере это будут числа 0.860606 и 19.66667. То есть результаты измерений температуры воздуха можно аппроксимировать прямой y(x) = 0.861*x + 19.667. Все сказанное иллюстрируется рис. 5.13.
Рис. 5.13. Линейная аппроксимация результатов измерений температуры воздуха
Функция ЛГРФПРИБЛ. Эта функция вычисляет коэффициенты экспоненциальной кривой, аппроксимирующей зависимость, заданную массивом данных. Уравнение кривой имеет вид: y(x) = b*m^x. Синтаксис функции:
=
ЛГРФПРИБЛ(известные_значения_y;
известные_значения_x;
конст; статистика)
Аргументы функции ЛГРФПРИБЛ аналогичны рассмотренным выше аргументам функции ЛИНЕЙН. Только аргумент конст имеет некоторые отличия. В данном случае он определяет, – нужно ли, чтобы аппроксимирующая кривая пересекала ось ординат в точке 1 (то есть, чтобы в уравнении y(x) = b*m^x коэффициент b был равен единице) . Если это необходимо, аргумент конст должен имеет значение ЛОЖЬ. Если же он имеет значение ИСТИНА или опущен, коэффициент b вычисляется обычным образом.
Так как функция ЛГРФПРИБЛ вычисляет массив данных (b и m), ее нужно вводить, как формулу массива. Способ ввода таких формул описан при рассмотрении функции ЛИНЕЙН.
В качестве примера рассмотрим экспоненциальную аппроксимацию массива данных: 2, 2, 3, 1, 2, 5, 8, 6, 5, 12, 8, 15, 15, 13, 20, 18, 22, 24, 33, 37. Если вычислить коэффициенты аппроксимирующей кривой с помощью функции ЛГРФПРИБЛ, то в результате получим: b=1.42089; m=1.181644. То есть приведенный выше массив можно аппроксимировать кривой y(x) = 1.421*1.182^x. Рисунок 5.14 иллюстрирует результаты выполненного расчета.
Рис. 5.14. Экспоненциальная аппроксимация данных
Прогнозирующие функции. Одной из актуальных практических задач является экстраполяция рядов данных с целью получения краткосрочного прогноза на будущее. Чаще всего при решении таких задач используется линейная экстраполяция данных. Выполняя ее, следует иметь в виду, что подобное прогнозирование допустимо только в том случае, если факторы, влияющие на изменение данных в прошлом и настоящем, останутся неизменными и в будущем. Это тем менее вероятно, чем продолжительнее прогноз.
Линейную экстраполяцию ряда данных можно выполнить без всяких функций. Для этого достаточно выделить ту часть строки (столбца), где находятся данные, затем совместить указатель мыши с маркером заполнения и, буксируя его, продолжить ряд данных.
Столь же просто выполняется экспоненциальная экстраполяция. Отличие в данном случае состоит лишь в том, что маркер заполнения нужно буксировать при нажатой правой кнопке мыши. После отпускания кнопки появится контекстное меню, в котором нужно выбрать команду Экспоненциальное приближение.
Оба рассмотренные способа прогнозирования просты и удобны, но обладают одним существенным недостатком, – при изменении исходных данных результаты экстраполяции не изменяются. Для получения новых прогнозов нужно снова выделять исходные данные и продлять ряд данных, буксируя маркер заполнения. Чтобы избежать этого, следует использовать прогнозирующие функции ПРЕДСКАЗ, ТЕНДЕНЦИЯ или РОСТ.
Функция ПРЕДСКАЗ. Эта функция вычисляет будущее значение по существующим значениям. Синтаксис функции:
=
ПРЕДСКАЗ(x;
известные_значения_y;
известные_значения_x)
Известные_значения_y – массив известных значений зависимой переменной y. Например, это могут быть значения прибыли, соответствующие определенным затратам на рекламу.
Известные_значения_x – массив известных значений независимой переменной x. В нашем примере – это массив затрат на рекламу.
X – значение независимой переменной (выходящее за границы известных_значений_x), для которого предсказывается значение переменной y. Если, например, за рассматриваемый период вложения в рекламу лежали в диапазоне от 100 до 500 грн, то, задав x=550 грн, можно предсказать соответствующую прибыль.
Функция ТЕНДЕНЦИЯ. Эта функция выполняет линейную экстраполяцию данных. Для этого вначале вычисляются коэффициенты b и m линейной регрессии y(x) = m*x + b, аппроксимирующей имеемые данные, а потом – значения y(x) для новых x. Синтаксис функции:
=
ТЕНДЕНЦИЯ(известные_значения_y;
известные_значения_x;
новые_значения_x;
конст)
Известные_значения_y – массив известных значений y. Например, на рис. 5.15 такой массив известных температур воздуха в период с 1 по 10 мая находятся в ячейках B2:K2.
Известные_значения_x – массив известных значений x. На рис. 5.15 таким является массив дат с 1 по 10 мая (диапазон B1:K1). Данный аргумент не является обязательным. Если он опущен, то предполагается, что это массив {1, 2, 3, …} того же размера, что и массив известные_значения_y.
Новые_значения_x – массив значений x, для которых вычисляются прогнозируемые значения y. Например, это может быть ссылка на диапазон L1:N1 с массивом дат: 11, 12 и 13 мая, для которых прогнозируется температура воздуха. Этот аргумент необязателен. Если он отсутствует, функция ТЕНДЕНЦИЯ вычисляет (методом наименьших квадратов) массив чисел, представляющих собой линейную аппроксимацию известных значений y.
Конст – это логическое значение (ИСТИНА или ЛОЖЬ), которое указывает, нужно ли, чтобы прямая, аппроксимирующая известные значения y, проходила через начало координат (то есть, чтобы в уравнении аппроксимирующей прямой y(x) = m*x + b коэффициент b был равен нулю). Такая аппроксимация выполняется только в том случае, если аргумент конст имеет значение ЛОЖЬ. Если же аргумент конст имеет значение ИСТИНА или опущен, расчет коэффициентов линейной регрессии выполняется обычным образом.
Чтобы с помощью функции ТЕНДЕНЦИЯ вычислить массив значений, эта функция должна быть введена, как формула массива. Для этого необходимо:
перед вводом функции выделить диапазон ячеек, в которые будет помещена формула массива (в нашем примере это диапазон L2:N2);
закончить ввод функции нажатием комбинации клавиш Shift+Ctrl+Enter.
На рис. 5.15 приведены результаты линейной экстраполяции результатов измерений температуры, выполненных в период с 1 по 10 мая (ячейки B1:N1 имеют формат Дата). Эти данные являются исходными для прогнозирования. Прогноз выполнен на 11, 12 и 13 мая. Для этого в ячейки L2:N2 введена формула массива {ТЕНДЕНЦИЯ(B2:K2; B1:K1; L1:N1)}.
Чтобы показать, что линия экстраполяции является продолжением прямой, аппроксимирующей результаты измерений, в таблицу добавлена строка Аппроксимация, а в ячейки B3:K3 введена формула массива {ТЕНДЕНЦИЯ(B2:K2)}.
Для иллюстрации полученных результатов на рис. 5.15 приведен график, на котором представлены результаты измерений (), аппроксимирующая прямая (---) и экстраполирующая прямая (––).
Рис. 5.15. Аппроксимация и экстраполяция данных с помощью функции ТЕНДЕНЦИЯ
Функция РОСТ. Эта функция выполняет экспоненциальную экстраполяцию данных. Для этого вначале вычисляются коэффициенты b и m уравнения y(x) = b*m^x, аппроксимирующего имеемые данные, а потом – значения y(x) для новых x. Синтаксис функции:
=
РОСТ(известные_значения_y;
известные_значения_x;
новые_значения_x;
конст)
Аргументы функции РОСТ аналогичны рассмотренным выше аргументам функции ТЕНДЕНЦИЯ. Только аргумент конст имеет некоторые отличия. В данном случае он определяет, – нужно ли, чтобы аппроксимирующая кривая пересекала ось ординат в точке 1 (то есть, чтобы в уравнении y(x) = b*m^x коэффициент b был равен единице) . Если это необходимо, аргумент конст должен имеет значение ЛОЖЬ. Если же он имеет значение ИСТИНА или опущен, коэффициент b вычисляется обычным образом.
Так как функция РОСТ вычисляет массив значений, она должна вводиться, как формула массива. Это значит, что перед вводом функции необходимо выделить диапазон ячеек, в которые будет помещена формула массива, и что завершить ввод функции нужно нажатием комбинации клавиш Shift+Ctrl+Enter.
Функции для расчета распределений и квантилей. Функция распределения позволяет рассчитать вероятность того, что случайная величина будет иметь значения, не больше заданного. Квантиль – это функция обратная функции распределения. С ее помощью можно рассчитать значение случайной величины, вероятность получения которого меньше или равна заданной.
Если функция распределения F(x) случайной величины непрерывна и непрерывно дифференцируема, то наряду с F(x) можно использовать еще одну вероятностную характеристику – плотность распределения случайной величины f(x) = dF(x)/dx.
В отличие от интегральной функции распределения, f(x) – дифференциальная характеристика случайной величины. Если с помощью функции распределения вычисляют вероятность того, что значения случайной величины меньше или равны заданному числу x, то с использованием плотности распределения определяют вероятность того, что случайная величина будет иметь значение в точности равное заданному числу x.
Рассмотрение функций распределения начнем с наиболее распространенного нормального распределения. Оно является удобной моделью для учета независимых друг от друга факторов, воздействующих на некий параметр или показатель. Именно по нормальному закону распределяются отклонения размеров деталей от их проектного значения; ошибки различного рода дозирующих устройств; погрешности приборов, систем управления и т.д.
Функция НОРМРАСП. Эта функция вычисляет нормальное распределение случайной величины. Синтаксис функции:
=
НОРМРАСП(x;
среднее; стандартное_откл; интегральная)
Среднее – среднее арифметическое выборки. Для его вычисления можно использовать функцию СРЗНАЧ.
Стандартное_откл – среднеквадратичное отклонение выборки. Его можно вычислить с помощью функции СТАНДОТКЛОН.
Интегральная – логическое значение, определяющее вид функции. Если этот аргумент имеет значение ИСТИНА, вычисляется интегральная характеристика (функция распределения), а если ЛОЖЬ – дифференциальная характеристика (плотность распределения).
X – значение, для которого вычисляется вероятность.
Проиллюстрируем использование функции НОРМРАСП на конкретном примере. Допустим, что мы имеем выборку, полученную в результате измерения диаметров 20 одинаковых деталей, изготовленных на разных станках и поэтому отличающихся друг от друга. Используя эти данные, построим функцию нормального распределения и плотность распределения случайной величины (рис. 5.16). Вполне понятно, что для получения достоверных оценок генеральной совокупности нужно иметь гораздо больший объем выборки. Но мы ограничимся 20 замерами, потому что это лишь иллюстрация возможностей функции НОРМРАСП.
Среднее арифметическое и среднеквадратичное отклонение для выборки вычислены с использованием функций: СРЗНАЧ(B1:K2) и СТАНДОТКЛОН(B1:K2), а значения x заданы с учетом полученных результатов.
Значения функции нормального распределения в ячейке B5 и плотности нормального распределения в ячейке B6 вычислены по формулам: НОРМРАСП(B4; $D$3; $J$3; ИСТИНА) и НОРМРАСП(B4; $D$3; $J$3; ЛОЖЬ). Затем эти формулы скопированы в ячейки C5:K5 и C6:K6 посредством буксировки маркера заполнения. Полученные результаты проиллюстрированы графиками.
Рис. 5.16. Функция нормальная распределения (––) и плотность распределения (––)
Пунктирными линиями на рисунке выделен 90-процентный двухсторонний доверительный интервал (по 5% с каждой стороны), позволяющий с заданной вероятностью оценить минимальный и максимальный диаметры изготавливаемых деталей. В точках пересечения пунктирных линий с функцией распределения можно приблизительно определить эти диаметры: минимальный диаметр ~ 9.2 и максимальный диаметр ~ 11.1. То есть с вероятностью 5% изготавливаемые детали могут иметь диаметр, 9.2 и меньше или 11.1 и больше. Для 95-процентного доверительного интервала разброс диаметров будет больше.
Функция НОРМОБР. Эта функция вычисляет квантиль распределенной по нормальному закону случайной величины, то есть значение этой величины, вероятность получения которого меньше или равна заданной. Синтаксис функции:
=
НОРМОБР(вероятность; среднее;
стандартное_откл)
Вероятность – заданная вероятность, для которой вычисляется значение распределенной по нормальному закону случайной величины.
Среднее – среднее арифметическое выборки.
Стандартное_откл – среднеквадратичное отклонение выборки.
Для примера используем приведенный на рис. 5.16 массив диаметров деталей и вычислим для него квантиль при 5-процентной вероятности ошибки. То есть найдем минимальный и максимальный диаметры деталей, вероятность изготовления которых составляет 5%. Эти значения мы снимали с графика (см. рис. 5.16) в точках пересечения функции распределения с пунктирными линиями вероятности отклонения диаметра деталей от среднего значения.
Минимальный диаметр вычислим с помощью функции =НОРМОБР(0.05;10.15;0.57), а максимальный – с использованием =НОРМОБР(0.95;10.15;0.57). Здесь 0.05 и 0.95 – вероятности, для которых вычисляются квантили; 10.15 – среднее значение диаметра деталей; 0.57 – среднеквадратичное отклонение выборки. В результате расчета получим минимальный диаметр 9.22 и максимальный 11.08. Эти результаты точнее, чем снятые с графика на рис. 5.16.
Функция НОРМОБР имеет еще одно важное применение. С ее помощью можно генерировать распределенные по нормальному закону случайные числа (это требуется, например, для статистического моделирования физических, химических и других процессов). Аргумент вероятность в этом случае должен содержать функцию СЛЧИС, генерирующую случайные числа, равномерно распределенные в интервале от 0 до 1. Если необходимо, чтобы числа генерировались, например, из 90-процентного двухстороннего доверительного интервала, первый аргумент функции НОРМОБР должен иметь вид: 0.05+СЛЧИС()*0.9.
Если использовать данные, приведенные на рис. 5.16, то функцию, генерирующую нормально распределенные случайные числа из 90-процентного двухстороннего доверительного интервала, можно записать в виде: =НОРМОБР(0.05+СЛЧИС()*0.9;10.15;0.57). Скопировав ее в какой-либо диапазон ячеек, можно получить искомый массив чисел. На рис. 5.17 представлена графическая иллюстрация использования приведенной формулы.
Рис. 5.17. Разброс нормально распределенных случайных чисел относительно среднего (---)
Вычисленные значения случайной величины можно изменять произвольное количество раз. Для этого нужно нажатиями клавиши F9 задавать пересчет таблицы. При этом функция СЛЧИС будет вычислять в каждой ячейке новое случайное число и, соответственно, функция НОРМОБР будет генерировать новое значение.
Функция БИНОМРАСП. Эта функция вычисляет биномиальное распределение, которое является хорошей моделью для описания серии независимых испытаний, каждое из которых может дать положительный или отрицательный результат. Если известна вероятность получения в каждом испытании положительного результата и предполагается провести определенное количество испытаний, то, рассчитав биномиальное распределение, можно оценить вероятность получения заданного числа положительных результатов. Синтаксис функции:
= БИНОМРАСП(число_успехов; число_испытаний; вероятность_успеха; интегральная)
Число_успехов – заданное количество успешных испытаний.
Число_испытаний – количество выполненных независимых испытаний.
Вероятность_успеха – вероятность успеха в каждом испытании.
Интегральная – логическое значение, определяющее вид функции. Если этот аргумент имеет значение ИСТИНА, вычисляется интегральная характеристика случайной величины, то есть вероятность того, что число успешных испытаний будет не больше значения аргумента число_успехов. Если этот аргумент имеет значение ЛОЖЬ, вычисляется дифференциальная характеристика, – вероятность того, что число успешных испытаний будет в точности равно значению аргумента число_успехов.
В качестве примера рассмотрим испытание артиллерийской установки. Успешными испытаниями будем считать попадания в цель, а неуспешными – промахи. Если указанная проектантом вероятность попадания остается постоянной в течение всех испытаний, то для заданного количества выстрелов с помощью функции БИНОМРАСП можно построить интегральную и дифференциальную функции биномиального распределения попаданий.
На рис. 5.18 приведены результаты расчета, выполненного при следующих условиях: число_испытаний (выстрелов) равно 100, вероятность_успеха (попадания) равна 95%. Соответственно, функции в ячейках B2 и C2 имеют вид: =БИНОМРАСП(A2;100;95%;ИСТИНА) и =БИНОМРАСП(A2;100;95%;ЛОЖЬ). В результате копирования этих функций в ячейки B3:B12 и C3:C12 для каждого заданного числа_успехов вычислены интегральная и дифференциальная характеристики случайной величины.
Рис. 5.18. Интегральная (––) и дифференциальная (––) функции биномиального распределения
Графики обеих функций представлены на рис. 5.18. Для заданного числа попаданий с помощью интегральной характеристики можно определить вероятность того, что число попаданий будет не больше заданного. Например, из 100 выстрелов с вероятностью 13% будет 92 попадания или меньше (то есть 8 или больше промахов), и с вероятностью 88% будет 97 попаданий или меньше (то есть 3 или больше промахов). А с помощью дифференциальной характеристики можно определить вероятность того, что число попаданий будет в точности равно заданному. Вероятность 92-х попаданий – 6%, а вероятность 97-ми попаданий – 14%.
Функция ПУАССОН. Эта функция вычисляет распределение Пуассона, используемое в тех случаях, когда исследуются случайные и не зависящие друг от друга события, принадлежащие одному и тому же интервалу (времени, пространства и т.д.). Зная среднее количество событий, происходящих в этом интервале, можно определить вероятность того, что в этом же интервале произойдет какое-то другое количество событий. Синтаксис функции:
=
ПУАССОН(x;
среднее; интегральная)
X – заданное количество событий в пространственном, временном или другом интервале.
Среднее – известное среднее количество событий в выбранном интервале.
Интегральная – логическое значение, определяющее вид функции. Если этот аргумент имеет значение ИСТИНА, вычисляется интегральная характеристика случайной величины, то есть вероятность того, что произойдет от 0 до x случайных событий. Если этот аргумент имеет значение ЛОЖЬ, вычисляется дифференциальная характеристика, – вероятность того, что число случайных событий будет в точности равно заданному числу x.
Например, если в результате многодневных наблюдений установлено, что в течение часа магазин посещают в среднем 25 человек, то с помощью интегральной функции ПУАССОН можно вычислить вероятность того, что за час в магазин придет не более 20 человек. А с помощью дифференциальной функции можно определить вероятность прихода в течение часа именно 20 человек. В первом случае используется функция =ПУАССОН(20; 25; ИСТИНА), а во втором =ПУАССОН(20; 25; ЛОЖЬ). Соответственно, результаты будут: 18.5% и 5%.
Функция ЭКСПРАСП. Эта функция вычисляет экспоненциальное распределение, которое используется для моделирования временных задержек между двумя независимыми событиями, если известна средняя частота появления этих событий. Синтаксис функции:
= ЭКСПРАСП(x; λ; интегральная)
X – заданная частота событий (величина запаздывания);
λ – известная средняя частота событий (среднее запаздывание).
Интегральная – логическое значение, определяющее вид функции. Если этот аргумент имеет значение ИСТИНА, вычисляется интегральная характеристика случайной величины, то есть вероятность того, что запаздывание будет не больше заданного. Если этот аргумент имеет значение ЛОЖЬ, вычисляется дифференциальная характеристика, – вероятность того, что запаздывание будет в точности равно заданному.
Функция ЧАСТОТА. Эта функция определяет количества элементов массива данных, попавших в заданные интервалы значений. Синтаксис функции:
=
ЧАСТОТА(массив_данных; массив_интервалов)
Массив_данных – ссылка на массив данных (часть столбца), для которых вычисляются частоты попадания в заданные интервалы.
Массив_интервалов – ссылка на массив значений (часть столбца), определяющих верхние границы интервалов.
Сама функция как бы добавляет еще один интервал сверх заданных, – определяет количества элементов массива, значения которых превышают последнюю верхнюю границу.
Например, если массив данных получен в результате измерения роста 5 человек и заданы три интервала: 170 (то есть <=170); 180 (то есть >170 и <=180), 190 (то есть >180 и <=190), то функция ЧАСТОТА определит, сколько результатов измерений попадает в 1-й интервал, сколько во 2-й, и сколько в 3-й; а также, – сколько результатов измерений превышает 190.
Поскольку аргументами функции ЧАСТОТА являются массивы данных, и сама она возвращает массив значений, эта функция должна вводится как формула массива. Для этого нужно:
До ввода функции выделить диапазон смежных ячеек для результатов вычислений (количество выделенных ячеек должно быть на одну ячейку больше, чем задано аргументом массив_интервалов). В примере на рис. 5.19 это диапазон C2:C5.
Ввести функцию ЧАСТОТА, задав в качестве аргументов два массива данных.
Завершить ввод функции нажатием комбинации клавиш Shift+Ctrl+Enter.
Рис. 5.19. Пример вычисления частот
На рис 5.19 показан пример вычисления частот попадания элементов массива, находящегося в ячейках A2:A6, в интервалы, верхние границы которых заданы значениями ячеек B2:B4. Результаты получены в ячейках C2:C5, которые были выделены перед вводом функции ЧАСТОТА.
В заключение отметим, что при вычислении частот попадания данных в заданные интервалы пустые ячейки массива данных и массива интервалов, а также содержащиеся в этих массивах ячейки с текстом (если они есть), игнорируются.
Другие статистические функции. В эту категорию включены те статистические функции, которые не принадлежат ни к одному из рассмотренных выше типов функций, но имеют широкое практическое применение.
Функция ПЕРСЕНТИЛЬ. Эта функция используется для определения порога приемлемости цен или других показателей. Синтаксис функции:
=
ПЕРСЕНТИЛЬ(массив; k)
Массив – массив числовых данных;
k – значение персентили (оно задается в интервале от 0 до 1 включительно).
Пусть, например, имеется прайс-лист с ценами одного и того же товара от разных поставщиков: 50, 45, 51, 53, 48, 56, 49, 47, 55, 44 грн; и мы хотим на основании этих данных вычислить пороговую цену, ниже которой предлагают товар 80% фирм.
Если массив данных находится, например, в ячейках A1:A10, то функция для расчета персентили при k = 80% будет иметь вид: ПЕРСЕНТИЛЬ(A1:A10;0.8). Результат: 53.4 грн.
Функция ПРОЦЕНТРАНГ. Эта функция обратная функции ПЕРСЕНТИЛЬ. Если имеется массив цен или других показателей, то, задав какую-то цену, с помощью этой функции можно вычислить процентное содержание в списке фирм, которые продают товар по цене ниже заданной. Синтаксис функции:
=
ПРОЦЕНТРАНГ(массив; x;
разрядность)
Массив – массив числовых данных;
x – значение, для которого определяется процентное содержание;
Разрядность – необязательный аргумент, определяющий количество цифр после десятичной точки (по умолчанию дробная часть содержит три цифры).
Если, например, в качестве аргумента задать полученный выше результат (54.3 грн), и использовать тот же массив данных, находящихся в ячейках A1:A10, то функция будет иметь вид: ПРОЦЕНТРАНГ(A1:A10;53.4). Результат вычисления: 0.8. То есть 80% фирм продают товар по цене 53.4 грн и ниже.
Функция РАНГ. Эта функция определяет ранг числа в массиве данных. Рангом называется порядковый номер числа, который оно имело бы, если представить массив в виде отсортированного списка. Нечисловые данные функцией РАНГ игнорируются. Синтаксис функции:
=
РАНГ(число; ссылка; порядок)
Число – заданное число, для которого определяется ранг.
Ссылка – ссылка на диапазон ячеек с массивом данных.
Порядок – параметр, определяющий способ упорядочения данных. Если этот аргумент отсутствует или имеет значение ЛОЖЬ, порядковый номер числа определяется так, словно список упорядочен по убыванию. Если же этот аргумент имеет значение ИСТИНА, порядковый номер числа определяется так, словно список упорядочен по возрастанию.
Повторяющиеся числа имеют одинаковый ранг. При этом ранг последующих чисел зависит от количества повторений. Например, если аргументом ссылка задан диапазон ячеек D1:D5, содержащий числа 6, 1, 6, 5, 9, то функция =РАНГ(6; D1:D5) вернет значение 2, а функция =РАНГ(5; D1:D5) – значение 4. Ни одно из чисел в этом массиве не будет иметь ранг 3.
Функции СЧЕТ и СЧЕТЗ. Первая из этих функций определяет количество числовых данных в заданном диапазоне ячеек, а вторая – количество непустых ячеек. Синтаксис функций:
=
СЧЕТ(значение1; значение2; …) =
СЧЕТЗ(значение1; значение2; …)
Значение1, значение2 и т.д. – это до 30 ссылок на ячейки и диапазоны ячеек. Функция СЧЕТ игнорирует все нечисловые данные, а функция СЧЕТЗ игнорирует только пустые ячейки.
