Darbe.ru

Быт техника Дарби
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Надстройка к Excel для статистической оценки и анализа результатов полевых и лабораторных опытов

Надстройка к Excel для статистической оценки и анализа результатов полевых и лабораторных опытов

Нами разработан пакет программ AgCStat в виде надстройки Excel.

В настоящее время пакет включает 12 программ плюс лист с примерами подготовки данных для анализа:

  • получение табличных значений критериев Фишера и Стьюдента;
  • восстановление выпавших данных
  • вычисление статистик выборки;
  • однофакторный дисперсионный анализ полевых опытов по Б.А. Доспехову;
  • двухфакторный дисперсионный анализ полевых опытов по Б.А. Доспехову;
  • двухфакторный дисперсионный анализ неравномерного комплекса по Н.А. Плохинскому;
  • трехфакторный дисперсионный анализ равномерного комплекса (оригинальный алгоритм авторов);
  • одно, двух и трех факторный анализ качественных признаков по Н.А. Плохинскому;
  • парная корреляция и регрессия с полным статистическим анализом результатов;
  • оценка разности средних по критерию Стьюдента.

3. Если первые две ссылки не работают, Вы можете скачать Эксель файл AgCStat

Анализируя список программ пакета, специалист может заметить, что некоторые программы дублируют программы стандартного Пакета анализа и даже встроенные функций. Это вызвано рядом причин.

Во-первых, неискушенному пользователю все же удобнее иметь все в одном пакете, освоить который значительно проще, чем работу со встроенными функциями.

Во-вторых, в версиях Excel младше Excel 2002 ряд функций либо отсутствуют, либо они не доступны, как, например, функции GetFisher и GetStudent – выдающих табличные значения критериев.

В-третьих, и, может быть самое главное, — это типизация. При просмотре «Примеров подготовки данных» видно, что все таблицы данных для анализов выполняются по одному типу, тогда как в стандартном Пакете анализа таблица данных для однофакторного комплекса строится по одному типу, а для двухфакторного — совсем по другому, понять который совсем не просто. По одному же типу построены и все диалоговые окна надстройки AgCSTAT (строка в меню Сервис – CXSTAT). Вся терминология, используемая в пакете, полностью соответствует терминологии принятой в отечественной литературе.

При разработке программ входящих в пакет нами использовались исключительно отечественные разработки, причем предпочтение оказывалось алгоритмам, которые в аграрных научных учреждениях приняты как стандартные.

Дадим некоторые пояснения по пакету программ.

Восстановление выпавших данных. Выбраковка делянки полевого опыта – обычное дело. Причины самые разные от градобоя до воровства и потравы. Узнать количество пропавшего в принципе нельзя, но вычислить величину, которая не нарушая статистических характеристик комплекса, восстановит его ортогональность для проведения некоторого формального анализа можно [3, 6]. Прием восстановления выпавшего данного применяется и тогда, когда некоторое данное резко отличается от соседних, однако пользоваться этим приемом следует с большой осторожностью и в купе с другими видами анализов о принадлежности данного к выборке.

Напомним, что алгоритмы Б.А. Доспехова привязаны к схеме закладки полевого опыта и повторения рассматриваются как фактор. В связи с этим, обратим внимание на то, что если в диалоговом окне «Однофакторный дисперсионный анализ по Доспехову» установить опцию «Опыт в вегетационных сосудах …», т.е. перейти к общей схеме дисперсионного анализа, то мы получим результаты, совпадающие как с результатами «по Плохинскому», так и однофакторного дисперсионного анализа пакета «Анализ данных».

В доступной нам литературе, мы не нашли четкого алгоритма трехфакторного дис-персионного анализа для количественных признаков (равномерного комплекса), но, поскольку необходимость в нем высока, разработали его сами, опираясь на алгоритмы Н.А. Плохинского [5].

Анализ опытов, связанных с изучением устойчивости растений к вредителям и болезням, а также для оценки эффективности различных химических препаратов, влияющих на устойчивость, очень часто проводится с использованием качественных признаков (больной – здоровый, заражен – не заражен и т. д.). В нашем пакете одно диалоговое окно позволяет выполнить дисперсионный анализ качественных признаков по одно, двух и трехфакторной схеме.

Программа для расчета корреляции и регрессии при парных взаимодействиях построена так, что выдает результаты регрессионного и корреляционного анализов в один прием вместе с оценкой их статистической достоверности.

Иногда исследователя интересует всего лишь величина разности средних двух выборок и ее достоверность. Эту задачу решает последняя в списке программа. Достаточно указать диапазоны, в которых находятся выборки, диапазоны могут быть как смежными, так и несмежными и даже располагаться на разных листах книги Excel.

Для установки книги надстройки на ПК достаточно иметь дискету с двумя файлами:AgCStat.xla и SetUp.exe. Вы запускаете файл SetUp.exe, а все остальное делается в автоматическом режиме. По завершению установки в списке надстроек Excel (меню Сервис — Надстройки, окно Надстройки) появится новая строка: “Agcstat”. Для начала работы с надстройкой ее нужно активизировать, установкой флажка.

Теперь в меню Сервис видим команду СХSТАТ, щелкаем по ней мышкой и на экране монитора появится диалоговое окно с перечнем программ пакета. До начала работы, советуем просмотреть примеры подготовки данных (первая строка списка). Дополнительной информации для работы с пакетом не потребуется.

Важные примечания от администратора vniioh.ru:

  1. Надстройка также работает в последних версиях Excel (2007 и 2010) 32-битных. Для единовременного использования надстройки необходимо распаковать архив agstat.zip в любую папку, запустить файл , подтвердить разрешение на включение макросов, и согласиться на установку надстройки. После этого на ленте справа появится вкладка «Надстройки», а в ней CXSTAT.
  2. Для постоянного включения надстройки нужно скопировать файл AgCStat.xla в папку :для Excel 2007 — C:Program FilesMicrosoft OfficeOffice12Library;
    для Excel 2010 — C:Program FilesMicrosoft OfficeOffice14Library Открыть окно свойств папки Library и снять флажок «Только чтение». Проверить атрибуты файла AgcStat.xla флажек «Только чтение» — должен быть снят.Запустите Excel от имени администратора. Нажмите вкладку Файл (для 2007 нажать на кружок) -> пункт Параметры -> Надстройки — внизу Управление (выбрать надстройки Excel) и нажмите Перейти -> отметить галочкой Agcstat и нажмите OK
  3. Если у вас возникают ошибки в работе с программой (например ошибка 6 или 9), попробуйте для расчета создать новый файл рабочей книги, и скопируйте туда чистые числовые данные (через Специальную вставку — Вставка только значения). Ошибка должна исчезнуть.Замечено, что надстройка выдаёт ошибку когда данные отформатированы или к ним применено цветовое или условное форматирование. Программа 100% РАБОЧАЯ.
  4. UPD/ На 64-битных версиях Office 2010 и Office 365 (2013) запустить не удалось.
  • Эрмантраут Э.Р., Гудзъ В.П. Статистический анализ результатов агрономических ис-следований в прикладной программе «EXCEL-2000». //Материалы международной научно-практической конференции «современные проблемы опытного дела», том 2, СПб, 2000, стр.13-134.
  • Лапач С.Н., Чубенко А.В., Бабич П.Н. Статистические методы в медико-биологических исследованиях с использованием Excel. Киев «МОРИОН», 2000, 320 с.
  • Доспехов Б.А. Методика полевого опыта. 1-5 изд. М., 1965 — 1985
  • Лакин Г.Ф. Биометрия. М., Изд. «Высшая школа», 1990, 352с.
  • Плохинский Н.А. Биометрия. М., Изд. МГУ, 1970, 368с.
  • Снедекор Д.У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. М., 1961
  • Фишер Р.Э. Статистические методы для исследователей. М., 1958
  • Митропольский А.К. Техника статистических вычислений. М., 1971.
  • Уэллс Э., Хешбаргер С. Microsoft Excel 97: разработка приложений / Пер. с анг. –СПб., БХВ-Санкт-Петербург, 1998, 624с.
Читайте так же:
Где хранятся фото контактов в android

При использовании вышеизложенных материалов необходимо ссылаться на авторов.

Данный материал опубликован в:
Сборнике «Рациональное природопользование и сельскохозяйственное производство в южных регионах Российской Федерации» М. «Современные тетради», 2003, с.559-564 П.П. Гончар-Зайкин, В.Г. Чертов.

Знакомство с возможностями Excel 2010 по визуализации данных

С выходом новой версии Microsoft Office появились и новые возможности. Разработчики доработали некоторые компоненты, сделали еще более удобным работу с программами. Нельзя обойти вниманием и Excel 2010 и новые возможности инфографики в нем. Поэтому в данной статье мы на примере расскажем, как работать с новыми компонентами Excel 2010.

Делаем сводную таблицу в Excel

В нашем распоряжении есть достаточно большая таблица. В ней огромное количество столбцов и строк. По этим данным нужно построить что-то вроде отчета, чтобы просмотреть результаты по какой-либо деятельности за определенный период. На вкладке «Вставка» нажимаем кнопку «Сводная таблица». Перед нами открывается диалоговое окно, в котором Excel в качестве диапазона данных выбрал всю таблицу. Нажимаем кнопку «ОК».

Теперь на новом листе появился макет сводной таблицы. В правой части окна перечислены все параметры, которые фигурировали в начальной таблице. Нам необходимо с помощью мыши перетащить их в поле «Название строк». В нашем случае это будут «Даты», «Менеджеры». Такие показатели как: «Объем продаж», «Выручка» и «Прибыль» мы перенесем в поле «Значения». Когда осуществляется перенос параметров в поле, таблица автоматически формируется и изменяется «на лету». Расположение элементов в «Название строк» играет большую роль. Если «Даты» будут расположены выше «Менеджеры», то данные будут разбиты на отдельные блоки по датам. Если же «Менеджеры» будут расположены в списке первыми, то сортировка будет проходить по именам сотрудников.

Когда таблица построена, перейдем к ее оформлению. Для начала изменим цветовую схему, применив к ней шаблон. Переходим на вкладку «Главная» и нажимаем на кнопку «Форматировать как таблицу». На экране появится список различных шаблонов форматирования, выбираем понравившийся нам и нажимаем на него. Excel автоматически определит границы таблицы, а если они окажутся заданы неверно, выделяем таблицу вручную и нажимаем кнопку «ОК». Таблица поменяла цветовую гамму и появилась возможность сортировки параметров.

Условное форматирование таблицы в Excel 2010

Не всегда удобно просматривать большое число значений и сравнивать их с плановыми. Предположим, что объем выручки на каждого менеджера в месяц должен составлять не менее 100 000 рублей. Но не обязательно оценивать показатели вручную, просматривая каждое значение: проще довериться встроенному компоненту Excel. Выделим область данных. Переходим на вкладку «Вставка — Условное форматирование — Набор значков» и из выпадающего меню выбираем понравившийся шаблон (допу́стим, светофор, так как с ним очень удобно работать). После выбора шаблона перед нами появится окно «Создание правил форматирования». Здесь необходимо напротив этих самых значков ввести показатели, при превышении которых работа сотрудника оценивается как: отличная, удовлетворительная и неудовлетворительная. Показатели вводятся в поле «Значение» напротив каждого из кружков, а параметр «Тип» в данном случае необходимо изменить с «Процент» на «Числа». В данном случае были заданы следующие показатели: 100 и 90 тысяч. (Третий параметр выставляется автоматически таким образом, чтобы включить все оставшиеся значения — в данном случае, меньше «удовлетворительного».) Нажимаем кнопку «ОК».

В ячейках всех значений появились кружки́ трех различных цветов. На основе представленной в таком виде информации намного проще оценить работу менеджеров за определенный период времени. Мы можем сравнить качество работы сотрудников, определить, кто из работников добивается наиболее выдающихся результатов, а кто, наоборот, требует к себе пристального внимания.

Но это еще не последний способ условного форматирования данных. В Excel 2010 появились такие инфографические элементы как «Гистограммы» и «Цветовые шкалы». Рассмотрим их более подробно. Выделим значения в ячейках и переедем «Вставка — Условное форматирование — Гистограммы». В выпадающем меню появится список шаблонов, при наведении на любой из них происходит предпросмотр результата. Выбираем понравившуюся цветовую схему и видим, что ячейки залиты горизонтальными столбцами разной величины. Они отображают в графическом виде те значения, которые присутствуют в ячейках. Если число будет введено со знаком минус, то график сместится в противоположную сторону от ячейки, указывая на отрицательные величины.

Читайте так же:
Можно ли в таблице ворд посчитать сумму

Компонент «Цветовые шкалы» заливает ячейку тем цветом, который соответствует введенному в нее значению. К примеру, ячейки с наименьшими значениями будет залиты красным цветом, со средними — желтым, а с наибольшими — зеленым. Цветовая схема может быть подобрана вами индивидуально, но суть примерно остается той же, что при использовании «Набора значков».

Срезы и не только

Но и это еще не все возможности визуализации данных, включенные в пакет Excel 2010. Рассмотрим еще такую удобную функцию, как «Срезы». Выбранные работники отработали в компании весьма внушительный срок и сложно при формировании сводной таблицы выделить ту или иную дату. Есть два способа добраться до определённой даты. Когда мы строим сводную таблицу, в правой части у нас расположены элементы, которые мы можем разместить в различные поля. Обращаемся к элементу «Даты» и вызываем выпадающее меню, путем нажатия на маркер со стрелочкой. Находим пункт «Фильтр по дате». Открывается огромный список с различными вариантами форматирования, нам нужна помесячная сортировка. Открываем «Все даты за период» и выбираем «Октябрь». Сводная таблица значительно сократилась, в ней остались значения только за октябрь. Это первый способ выборки данных.

Второй способ организуется с помощью новой функции «Срез» — интересного инструмента анализа цифровых данных. Перейдем к «Вставка — Срез». Открывается окно «Вставка среза», в нем нужно отметить тот показатель, по которому будет производиться выборка значений, то есть колонку таблицы, по которой вы сможете посмотреть срезы своего отчета. Отмечаем «Даты» и нажимаем кнопку «ОК». На листе отобразится рамка с записанными в нее значениями.

Перетащим ее в любое удобное для нас место и отрегулируем ее размер таким образом, чтобы можно было видеть все представленные в ней значения. Также можно изменить цвет среза, все шаблоны отображаются на верхней панели. Теперь мы можем одним щелчком выбрать определенную дату и увидеть, каких результатов за эти дни добились сотрудники. Данная функция на порядок удобнее, чем «Фильтр по дате», так как она более гибкая. С помощью нее вы можете выбрать сразу несколько значений, по которым будет идти выборка.

Инфокривые

Следующий способ визуального анализа данных — инфокривые. Делаем активной свободную ячейку напротив строк с данными. Во вкладке «Вставка» находим раздел «Инфокривые» (в использованной версии Excel 2010 они назывались почему-то «Сперклайны»). Выделяем диапазон данных (это будет наша строка), и нажимаем кнопку «ОК». Вы можете увидеть, как в выбранной нами ячейке построился мини-график, это и есть инфокривая.

Растянем эту ячейку на все остальные строки, потянув за край с точкой или сделав двойной клик на нем. При желании вы можете изменить стиль инфокривой, его выбор осуществляется на верхней панели в режиме конструктора инфокривой. Полученный график позволяет увидеть тенденцию, тренд. При огромном количестве данных инфокривая дает общий визуальный анализ всего множества. По ней с легкостью можно определить пики и падения, начало роста или его замедление.

Инфокривые бывают трех типов: «График» — как раз его мы и рассматривали; «Столбец» — отображает данные в виде маленьких столбцов, наглядно показывая максимальные и минимальные значения; «Выигрыш/проигрыш» — ячейка как бы разделяется на две части, и в нижней размещаются квадраты с отрицательными значениями, а в верхней — с положительными (ноль не отображается вовсе).

Вывод

Отталкиваясь от материала данной статьи, можно научиться не только быстро оформлять таблицу, но и проводить визуальный анализ данных. Мы познакомились с таким режимом, как сводная таблица, научились производить фильтрацию значений и условное форматирование цифровых значений, составлять срезы. Кроме этого, мы наглядно разобрались с новой функцией под названием «Инфокривые». Нельзя не отметить, что в Excel 2010 добавлены усовершенствования, и практически все новые функции направлены на облегчение труда специалиста и наглядное представление данных. Если вас заинтересовала новая функциональность табличного редактора MS Excel 2010, то вы можете приобрести Microsoft Office 2010 у партнеров компании 1CSoft.

Статистические функции в Excel

1. Определить выборочные оценки числовых характеристик случайной величины.
Для нахождения выборочных оценок скопируем данные задачи в один столбец таблицы MS Excel . Выделите полученный столбец и на панели инструментов щелкните на кнопку Сортировка и фильтр . В появившемся окошке нажмите сортировку от А до Я. В выделенном столбце значения упорядочатся от наименьшего к наибольшему.
Проанализируем данные с помощью описательной статистики. Для этого на вкладке Данные в группе Анализ щелкните на кнопку Анализ данных . Откроется диалоговое окно Анализ данных.
Выберите инструмент Описательная статистика и щелкните на кнопке Ок . Откроется диалоговое окно Описательная статистика.

Щелкните на поле Входной интервал и выделите ячейки А1:А100.
В поле Входной интервал отобразится диапазон $A1:$A100.
Выберите флажок Итоговая статистика. Щелкните на кнопке Ок.
Будет создан новый лист с итоговой статистикой по выбранным данным.

В рассматриваемом случае As=-0,06, Ex=-0,19, что свидетельствует о распределении, близком к нормальному.

Читайте так же:
Как в фотошопе поставить знак рубля

2. Построить вариационный ряд, или ряд распределений и гистограмму для него.
Как видно в итоговой статистике, все возможные значения данного распределения укладываются в интервал 3σ.
Действительно, x =69,43; 3σ=27,3; ( x -3σ; x +3σ) = (41,13; 96,73)
Размах выборки 43,6. Разбиваем данный ряд на 7 интервалов длины 43,6: 7≈6,2.
Составим таблицу ряда распределений:

3. Определить теоретическую функцию распределения, её параметры. Выполнить сравнительный графический анализ формы эмпирического и теоретического распределений.
Для построения графика теоретической функции распределения построим вспомогательную таблицу:

В таблице 2 выделяем последний столбец и строим график теоретической вероятности. Для этого на вкладке Вставка в группе График щелкните на типе графика. Появится список доступных подтипов графиков. При щелчке на подтипе графика будет создан график с макетом и цветовой схемой по умолчанию, определенными в теме оформления книги.
Изначально на горизонтальной оси обозначены номера интервалов. Правой кнопкой мыши щелкаем на эту ось и нажимаем на Выбрать данные . Меняем подпись горизонтальной оси, указывая первый столбец таблицы 2. Нажимая на график правой кнопкой мыши можно поменять цвет графика.

А теперь выполним сравнительный графический анализ формы эмпирического и теоретического распределений построением графика теоретической вероятности на гистограмме частот.
Для этого построим гистограмму частостей на интервалах. Щелкнем правой кнопкой мыши в поле гистограммы и нажмем на кнопку Выбрать данные . В открывшемся окне в левом столбце Элементы легенды нажмем кнопку Добавить . Откроется окно Изменение ряда . Имя ряда: укажем на ячейку Теоретическая вероятность, значения: выделим соответствующую строку. После нажатия Ок появится гистограмма теоретических вероятностей. Укажем на неё правой кнопкой мыши и выберем Изменить тип диаграммы для ряда, выбрав график. Также поменяем цвет нового графика.

4.Проверка согласованности теоретического и эмпирического распределений.
Схема применения критерия Χ 2 для проверки гипотезы H о соответствии эмпирического ряда нормальному закону распределения, сводится к следующему.
1) Определяется мера расхождения эмпирических и теоретических частот Χ 2 по формуле .
Для этого в свободной ячейке нажмем на вкладке Формулы выберем Статистические и, среди них ХИ2.ТЕСТ. Откроется следующее окно:

Archie Goodwin

«Странный этот мир, где двое смотрят на одно и то же, а видят полностью противоположное.» © Агата Кристи

Реклама

MS Office и VBA Рубрика содержит интересные решения, малоизвестные функции и возможности, надстройки и макросы, в общем, все то, что может сделать вашу работу в пакете программ MS Office (в первую очередь — Excel, Word, Access) более эффективной.

Линейная регрессия в Excel через Анализ данных

4.9 (49) | количество просмотров119877 | количество коментариев2

Что такое линейная регрессионная модель и зачем это нужно

Это наиболее распространенный способ показать зависимость какой-то переменной от других, например, как зависит уровень ВВП от величины иностранных инвестиций или от кредитной ставки Нацбанка или от цен на ключевые энергоресурсы.

Моделирование позволяет показать величину этой зависимости (коефициенты), благодаря которым можно делать непосредственно прогноз и осуществлять какое-то планирование, опираясь на эти прогнозы. Также, опираясь на регрессионный анализ, можно принимать управленческие решения направленные на стимулирование приоритетных причин влияющих на конечный результат, собственно модель и поможет выделить эти приоритетные факторы.

Общий вид модели линейной регрессии:

где a — параметры (коэффициенты) регрессии, x — влияющие факторы, k — количество факторов модели.

Исходные данные

Среди исходных данных нам необходим некий набор данных, который бы представлял из себя несколько последовательных или связанных между собой величин итогового параметра Y (например, ВВП) и такое же количество величин показателей, влияние которых мы изучаем (например, иностранные инвестиции).

На рисунке выше показана таблица с этими самыми исходными данными, в качестве Y выступает показатель экономически активного населения, а количество предприятий, размер инвестиций в капитал и доходов населения — это влияющие факторы, то бишь иксы.

По рисунку также можно сделать ошибочный вывод, что речь в моделировании может идти только о динамических рядах, то есть моментным рядам зафиксированных последовательно во времени, но это не так, с тем же успехом можно моделировать и в разрезе структуры, например, величины указанные в таблице могут быть разбиты не годам, а по областям.

Для построения адекватных линейных моделей желательно чтобы исходные данные не имели сильных перепадов или обвалов, в таких случаях желательно проводить сглаживание, но о сглаживании поговорим в следующий раз.

Пакет анализа

Параметры модели линейной регрессии можно рассчитать и вручную с помощью Метода наименьших квадратов (МНК), но это довольно затратно по времени. Немного быстрее это можно посчитать по этому же методу с помощью применения формул в Excel, где сами вычисления будет делать программа, но проставлять формулы все равно придется вручную.

В Excel есть надстройка Пакет анализа, который является довольно мощным инструментом в помощь аналитику. Этот инструментарий, помимо всего прочего, умеет рассчитывать параметры регрессии, по тому же МНК, всего в несколько кликов, собственно, о том как этим инструментом пользоваться дальше и пойдет речь.

Активируем Пакет анализа

По умолчанию эта надстройка отключена и в меню вкладок вы ее не найдете, поэтому пошагово рассмотрим как ее активировать.

В эксель, слева вверху, активируем вкладку Файл, в открывшемся меню ищем пункт Параметры и кликаем на него.

В открывшемся окне, слева, ищем пункт Надстройки и активируем его, в этой вкладке внизу будет выпадающий список управления, где по умолчанию будет написано Надстройки Excel, справа от выпадающего списка будет кнопка Перейти, на нее и нужно нажать.

Читайте так же:
Можно ли заработать на твиттере

Всплывающее окошко предложит выбрать доступные надстройки, в нем необходимо поставить галочку напротив Пакет анализа и заодно, на всякий случай, Поиск решения (тоже полезная штука), а затем подтвердить выбор кликнув по кнопочке ОК.

Инструкция по поиску параметров линейной регрессии с помощью Пакета анализа

После активации надстройки Пакета анализа она будет всегда доступна во вкладке главного меню Данные под ссылкой Анализ данных

В активном окошке инструмента Анализа данных из списка возможностей ищем и выбираем Регрессия

Далее откроется окошко для настройки и выбора исходных данных для вычисления параметров регрессионной модели. Здесь нужно указать интервалы исходных данных, а именно описываемого параметра (Y) и влияющих на него факторов (Х), как это на рисунке ниже, остальные параметры, в принципе, необязательны к настройке.

После того как выбрали исходные данные и нажали кнопочку ОК, Excel выдает расчеты на новом листе активной книги (если в настройках не было выставлено иначе), эти расчеты имеют следующий вид:

Ключевые ячейки залил желтым цветом именно на них нужно обращать внимание в первую очередь, остальные параметры значимость также немаловажны, но их детальный разбор требует пожалуй отдельного поста.

Итак, 0,865 — это R 2 — коэффициент детерминации, показывающий что на 86,5% расчетные параметры модели, то есть сама модель, объясняют зависимость и изменения изучаемого параметра — Y от исследуемых факторов — иксов. Если утрировано, то это показатель качества модели и чем он выше тем лучше. Понятное дело, что он не может быть больше 1 и считается неплохо, когда R 2 выше 0,8, а если меньше 0,5, то резонность такой модели можно смело ставить под большой вопрос.

Теперь перейдем к коэффициентам модели:
2079,85 — это a — коэффициент который показывает какой будет Y в случае, если все используемые в модели факторы будут равны 0, подразумевается что это зависимость от других неописанных в модели факторов;
-0,0056a1 — коэффициент, который показывает весомость влияния фактора x1 на Y, то есть количество предприятий в пределах данной модели влияет на показатель экономически активного населения с весом всего -0,0056 (довольно маленькая степень влияния). Знак минус показывает что это влияние отрицательно, то есть чем больше предприятий, тем меньше экономически активного населения, как бы это ни было парадоксальным по смыслу;
-0,0026a2 — коэффициент влияния объема инвестиций в капитал на величину экономически активного населения, согласно модели, это влияние также отрицательно;
0,0028a3— коэффициент влияния доходов населения на величину экономически активного населения, здесь влияние позитивное, то есть согласно модели увеличение доходов будет способствовать увеличению величины экономически активного населения.

Соберем рассчитанные коэффициенты в модель:

Собственно, это и есть линейная регрессионная модель, которая для исходных данных, используемых в примере, выглядит именно так.

Расчетные значения модели и прогноз

Как мы уже обсуждали выше, модель строится не только чтобы показать величину зависимостей изучаемого параметра от влияющих факторов, но и чтобы зная эти влияющие факторы можно было делать прогноз. Сделать этот прогноз довольно просто, нужно просто подставить значения влияющих факторов в место соответствующих иксов в полученное уравнение модели. На рисунке ниже эти расчеты сделаны в экселе в отдельном столбце.

Фактические значения (те что имели место в реальности) и расчетные значения по модели на этом же рисунке отображены в виде графиков, чтобы показать разность, а значит погрешность модели.

Повторюсь еще раз, для того чтобы сделать прогноз по модели нужно чтобы были известные влияющие факторы, а если речь идет о временном ряде и соответственно прогнозе на будущее, например, на следующий год или месяц, то далеко не всегда можно узнать какие будут влияющие факторы в этом самом будущем. В таких случаях, нужно еще делать прогноз и для влияющих факторов, чаще всего это делают с помощью авторегрессионной модели — модели, в которой влияющими факторами являются сам исследуемый объект и время, то есть моделируется зависимость показателя от того каким он был в прошлом.

Как строить авторегрессионную модель рассмотрим в следующей статье, а сейчас предположим, что, то какие будут величины влияющих факторов в будущем периоде (в примере 2008 год) нам известно, подставляя эти значения в расчеты мы получим наш прогноз на 2008 год.

Обзор встроенных средств Excel для статистического анализа данных

Основными средствами анализа статистических данных в Excel являются статистические процедуры надстройки Пакет анализа (Analysis ToolРак) и статистические функции библиотеки встроенных функций. Основные сведения обо всех этих средствах имеются в электронной справочной системе Excel.

Однако качество описаний статистических процедур и функций, приведенных в этой системе, заставляет желать лучшего. Некоторые из этих описаний не очень понятны, в них имеются неточности, а подчас и просто ошибки (это относится как к англоязычному оригиналу, так и к русскому переводу). Эти недостатки с завидным постоянством повторяются и во многих пособиях по Excel. Найти необходимые пособия в интернете можно быстро если скачать бесплатно Амиго браузер с усовершенствованным поисковым алгоритмом.

Статистические процедуры Пакета анализа

Наиболее развитыми средствами анализа данных являются статистические процедуры Пакета анализа. Они обладают большими возможностями, чем статистические функции. С их помощью можно решать более сложные задачи обработки статистических данных и выполнять более тонкий анализ этих данных.

Читайте так же:
Как вернуть закрытый документ word

В Пакет анализа входят следующие статистические процедуры:

  1. генерация случайных чисел (Random number generation);
  2. выборка (Sampling);
  3. гистограмма (Histogram);
  4. описательная статистика (Descriptive statistics);
  5. ранги персентиль (Rank and percentile);
  6. двухвыборочный z-тест для средних (z-Test: Two Sample for Means);
  7. двухвыборочный t-тест для средних с одинаковыми дисперсиями (t-Test: Two-Sample Assuming Equal Variances);
  8. двухвыборочный t-тест для средних с различными дисперсиями (t-Test: Two-Sample Assuming Unequal Variances);
  9. парный двухвыборочный t-тест для средних (t-Test: Paired Two Sample for Means);
  10. двухвыборочный F-тест да я дисперсий (F-Test: Two Sample for Variances);
  11. коварнация (Covariance);
  12. корреляция (Correlation);
  13. рецессия (Regression);
  14. однофакторный дисперсионный анализ (ANOVA: Single Factor);
  15. двухфакторный дисперсионный анализ без повторений (ANOVA: Two Factor Without Replication);
  16. двухфакторный дисперсионный анализ с повторениями (ANOVA: Two Factor With Replication);
  17. скользящее среднее (Moving Average);
  18. экспоненциальное сглаживание (Exponential Smoothing);
  19. анализ Фурье (Fourier Analysis).

Для доступа к процедурам Пакета анализа необходимо в меню Сервис (Tools) щелкнуть указателем мыши на строке Анализ данных (Data Analysis). Откроется диалоговое окно с соответствующим названием, в котором перечислены процедуры статистического анализа данных (рис. 1).

Рис.1. Диалоговое окно Анализ данных

Рис.1. Диалоговое окно Анализ данных

Для того чтобы запустить в работу нужную статистическую процедуру, нужно выделить ее указателем мыши и щелкнуть на кнопке ОК. На экране появится диалоговое окно вызванной процедуры. На рис. 2 для примера показано диалоговое окно процедуры Описательная статистика (Descriptive statistics).

Рис.2. Диалоговое окно процедуры Описательная статистика

Рис.2. Диалоговое окно процедуры Описательная статистика

Диалоговое окно каждой процедуры содержит элементы управления: поля ввода, раскрывающиеся списки, переключатели, флажки и т. п. Эти элементы позволяют задать нужные параметры используемой процедуры. Некоторые элементы управления имеют специфический характер, присущий одной процедуре или небольшой группе процедур. Назначение таких элементов управления будет рассмотрено при описании соответствующих процедур. Другие элементы управления присутствуют в диалоговых окнах почти всех статистических процедур.

К числу общих для большинства процедур элементов управления относятся:

  • поле ввода Входной интервал (Input Range). В это поле вводится ссылка на диапазон, содержащий статистические данные, подлежащие обработке. Входной диапазон может быть столбцом пли группой столбцов (строкой или группой строк);
  • переключатель Группирование (Grouped By). В том случае, когда входной диапазон представляет собой столбец или группу столбцов, переключатель устанавливается в положение по столбцам (Columns). Если же входной диапазон представляет собой строку или группу строк, то переключатель устанавливается в положение по строкам (Rows). Более точным названием этого переключателя было бы название Расположение;
  • флажок Метки (Labels in First Row). Флажок устанавливается в тех случаях, когда первая строка (первый столбец) входного диапазона содержит заголовки. Если такие заголовки отсутствуют, флажок Метки не устанавливают. При этом Excel автоматически создает и выводит на экран стандартные названия для данных выходного диапазона (Столбец1, Столбец2,… или Строка 1. Строка2,…);
  • переключатели Выходной интервал/Новый рабочий лист/Новая книга (Output Range/New Worksheet/New Workbook). Эти переключатели определяют место вывода таблицы, содержащей результаты реализации статистической процедуры. В группе может быть выбран только одни переключатель.

При выборе переключателя Выходной интервал таблица результатов решения выводится на тот же рабочий лист, на котором находятся исходные данные. Справа от переключателя открывается поле ввода, в которое надо ввести ссылку на левую верхнюю ячейку таблицы результатов. Если возникает опасность наложения таблицы результатов на уже заполненные ячейки, на экране появляется сообщение о такой опасности. В ответ на это сообщение пользователь должен разрешить удаление старых данных и вывод на их место новых.

В положении Новый рабочий лист открывается новый лист рабочей книги. На этот лист, начиная с ячейки А1, и выводится таблица результатов решения. Справа от переключателя имеется поле ввода, в которое в случае необходимости можно ввести имя нового рабочего листа. При выборе переключателя Новая рабочая книга открывается новая рабочая книга. На первый лист этой новой книги, начиная с ячейки А1, выводится таблица результатов решения.

Следует заметить, что результаты;, получаемые с помощью статистических процедур Пакета анализа, не имеют постоянной связи с исходными данными — в случае изменения исходных данных результаты решения автоматически не изменяются. В том случае, когда необходимо получить результаты, автоматически изменяющиеся вместе с исходными данными, нужно использовать подходящие статистические функции библиотеки встроенных функций.

Эффективным и очень удобным в использовании средством парного регрессионного анализа и анализа временных рядов является процедура Добавить линию тренда (Add Trendline), входящая в комплекс графических средств Excel.

Статистические функции библиотеки встроенных функций Excel

Табличный процессор Excel имеет библиотеку встроенных функции рабочего листа (Worksheet function). Одним из разделов этой библиотеки является раздел Статистические функции. В этот раздел входят 83 функции, предназначенные для решения некоторых наиболее востребованных задач теории вероятностей и математической статистики.

Аргументы статистических функций должны быть числами или ссылками на диапазоны, которые содержат числа Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются, однако ячейки с нулевыми значениями учитываются.

Когда в качестве какого-либо аргумента встроенной статистической функции введен текст, функция выдает сообщение об ошибке #ЗНАЧ! (#VALUE!). Если в качестве аргумента, который по определению должен быть целым числом, введено число не целое, Excel использует в качестве аргумента целую часть этот числа. Никакие сообщения об этом «несанкционированном округлении» на экран не выводятся.

голоса
Рейтинг статьи
Ссылка на основную публикацию
Adblock
detector