Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Комппьютерный подход
Покупка
Основная коллекция
Издательство:
Новосибирский государственный технический университет
Авторы:
Лемешко Борис Юрьевич, Лемешко Станислав Борисович, Постовалов Сергей Николаевич, Чимитова Екатерина Владимировна
Год издания: 2011
Кол-во страниц: 888
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-7782-1590-0
Артикул: 631974.01.99
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Б.Ю. ЛЕМЕШКО, С.Б. ЛЕМЕШКО, С.Н. ПОСТОВАЛОВ, Е.В. ЧИМИТОВА СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ, МОДЕЛИРОВАНИЕ И ИССЛЕДОВАНИЕ ВЕРОЯТНОСТНЫХ ЗАКОНОМЕРНОСТЕЙ КОМПЬЮТЕРНЫЙ ПОДХОД НОВОСИБИРСК 2011
УДК 519.23 Л 442 Рецензенты: д-р техн. наук, профессору/?, Лисицин', д-р техн. наук, профессор ЛЛ. Попов Лемешко Б.Ю. Л 442 Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. -Новосибирск : Изд-во НГТУ, 2011. - 888 с. (серия «Монографии НГТУ»). ISBN 978-5-7782-1590-0 В монографии рассматриваются вопросы, связанные с применением методов статистического анализа. Обсуждаются проблемы оценивания параметров при точечных, цензурированных, группированных и интервальных выборках. Исследуются отличия свойств оценок при ограниченных объемах выборок от асимптотических свойств этих же оценок. Рассматриваются вопросы применения критериев согласия типа %², исследуется влияние факторов, влияющих на мощность критериев (числа интервалов и способов группирования). Рассматриваются вопросы применения непараметрических критериев согласия (Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга) при проверке сложных гипотез, приводится множество моделей распределений статистик этих критериев при проверке различных сложных гипотез. Приводятся результаты сравнительного анализа мощности параметрических и непараметрических критериев согласия. Приводятся результаты исследований свойств многочисленных критериев проверки гипотез об отклонении эмпирического распределения от нормального, подчеркиваются достоинства и недостатки отдельных критериев, результаты сравнительного анализа мощности критериев. Исследуются свойства и мощность непараметрических критериев однородности. Показывается устойчивость к отклонениям от нормального закона классических критериев однородности средних, проводится сравнительный анализ мощности параметрических и непараметрических критериев. Проводится сравнительный анализ мощности классических критериев проверки гипотез об однородности дисперсий, анализ мощности непараметрических критериев проверки гипотез о равенстве характеристик рассеяния. Показывается возможность применения классических критериев однородности дисперсий при законах, отличающихся от нормального. Рассматриваются и исследуются критерии исключения аномальных измерений, наличия тренда и др. В приложении приводится множество таблиц, являющихся результатом исследований и способствующих корректному применению соответствующих методов статистического анализа. Книга будет полезна студентам, аспирантам, преподавателям вузов, научным сотрудникам, специалистам различного профиля (инженерам, экономистам, медикам и др.), сталкивающимся в своей деятельности с необходимостью статистического анализа результатов экспериментальных исследований. УДК 519.23 ISBN 978-5-7782-1590-0 © Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В., 2011 © Новосибирский государственный технический университет, 2011
Ministry of Education and Science of the Russian Federation NOVOSIBIRSK STATE TECHNICAL UNIVERSITY B.YU. LEMESHKO, S.B. LEMESHKO, S.N. POSTAVALOV, E.V. CHIMITOVA STATISTICAL DATA ANALYSIS, SIMULATION AND STUDY OF PROBABILITY REGULARITIES COMPUTER APPROACH Monograph NOVOSIBIRSK 2011
UDC 519.23 L442 Reviewers: Prof. D.V.Lisitsyn, D. Sc. (Eng.) Prof. A.A. Popov, D.Sc. (Eng.) Lemeshko B.Yu. L 442 Statistical Data Analysis, Simulation and Study of Probability Regularities. Computer Approach : monograph / B.Yu. Lemeshko, S.B. Lemeshko, S.N. Postovalov, E.V. Chimitova. - Novosibirsk : NSTU Publisher, 2011.- 888 pp. (“NSTU Monographs” series). ISBN 978-5-7782-1590-0 Issues relating to applying statistical analysis methods are addressed in the monograph. Problems of estimating parameters for point, censored, grouped and interval samples are discussed. Differences between estimate properties under limited amounts of samples and asymptotic properties of the same estimates are studied. The use of the %² goodness-of-fit tests and the effect of factors on the test power (i.e. the number of intervals and ways of grouping) are considered. The use of nonparametric goodness-of-fit tests (Kolmogorov’s, Kramer-Mises-Smirnov’s and Anderson-Darling’s) when testing complex hypotheses is discussed. A lot of models of distributed statistics of these tests when checking various complex hypotheses are provided. The results of a comparative analysis of the power of parametric and nonparametric goodness-of-fit tests are given. The results of study of properties of various tests ofhypotheses of empirical distribution abnormality are given, Advantages and disadvantages of some tests are emphasized and the results of a comparative analysis of tests power are provided. Properties and power of nonparametric tests for homogeneity are studied. The stability of classical tests for homogeneity of means against the departure from the normal law is demonstrated and a comparative analysis of parametric and nonparametric test power is made. A comparative analysis of classical test power in checking hypotheses of variances homogeneity is made as well as an analysis of nonparametric criteria of testing hypotheses of variance characteristics equality. A possibility of using classical tests for homogeneity of variances with distribution abnormality laws is shown. Tests for the rejection of abnormal measurements and tests of the presence of a trend are studied and analyzed. A lot of tables that present the results of the study and help to use correctly the proposed methods of statistical analysis are given in the appendices. The book is intended for undergraduate, graduate and postgraduate students, university teachers, researchers and specialists in various fields (e.g. engineers, economists, physicians, etc.) who need to analyze the results of their experimental research. UDC 519.23 ISBN 978-5-7782-1590-0 © Lemeshko B.Yu., Lemeshko S.B., Postovalov S.N, Chimitova E.V., 2011 © Novosibirsk State Technical University, 2011
Предисловие Статистические методы анализа данных, методы прикладной математической статистики в силу объективных условий все шире используются в различных приложениях. В то же время уровень применения этих методов в России, использование современных информационных технологий в ходе решения задач статистического анализа при исследовании процессов и сложных систем в настоящее время не выдерживают никакой критики. В последние десятилетия с рынка научно-технической продукции практически полностью исчезли отечественные разработки в области программного обеспечения задач статистического анализа, пакеты и программные системы, ориентированные на задачи анализа данных. Это самым негативным образом отражается на качестве статистического анализа при обработке результатов экспериментальных исследований в различных сферах научно-технической деятельности, сужает спектр применяемых методов из широкого арсенала прикладной математической статистики, приводит к некорректным выводам и, как следствие, к принятию неверных решений. В настоящее время известно множество систем статистического анализа, используемых в мировой практике. Одни программные системы - универсальные, ориентированные на максимально широкий спектр методов статистического анализа, другие предназначены для решения относительно узкого класса задач. Предлагаемые системы дают инструментарий для решения различных задач статистического анализа, правильность использования которого не в последнюю очередь зависит от квалификации пользователя в области соответствующих методов.
Использование популярных систем не снимает проблем корректного решения задач анализа данных в различных приложениях и не только в силу того, что новые результаты в области прикладной математической статистики далеко не сразу воплощаются в программном обеспечении. До внедрения в универсальные системы нового метода проходит 10.. .15 лет, если это вообще происходит. Объективно применяемые системы включают в себя богатый арсенал классических методов прикладной математической статистики. Однако область корректного применения этого арсенала в различных приложениях сильно ограничена. Дело в том, что предпосылки применения многих методов в задачах, возникающих на практике, как правило, не выполняются. Например, не выполняются предположения о принадлежности ошибок измерений нормальному закону. Или вследствие ограниченности объемов выборок оказывается некорректным использование асимптотических результатов. Или форма регистрации наблюдений (группированные, цензурированные, многократно цензурированные, интервальные данные) не позволяет использовать классические методы оценивания и проверки статистических гипотез. Или, например, из-за сложности построения конкретных зависимостей аналитическими методами математики не смогли предложить аппарат для проверки сложных гипотез с применением непараметрических критериев согласия. Практика, таким образом, подкидывает множество постановок задач, на которые математический аппарат прикладной статистики пока не дает ответа (новых методов, критериев и т. п.). Надеяться на то, что поставляемые практикой все в больших масштабах задачи (в нестандартных условиях) будут своевременно разрешаться за счет человеческого интеллекта и аналитическими методами, не приходится. Выход видится в интенсивном и эффективном использовании компьютерных технологий. В последнее десятилетие увеличилось количество примеров использования методов статистического моделирования (методов Монте-Карло) для исследования статистических и вероятностных закономерностей, например, для нахождения процентных точек (квантилей) распределений статистик некоторых критериев. Хотя наиболее часто методы статистиче
Предисловие 9 ского моделирования в области прикладной математической статистики исследователи используют для проверки аналитических выводов (или только мечтают применить). Становится правилом хорошего тона, когда в международном журнале высокого уровня доказательство теоремы в области математической статистики подтверждается результатами имитационного моделирования. Однако эти разрозненные примеры еще не являются подтверждением системного подхода к развитию компьютерных технологий, направленных на исследование вероятностных закономерностей, на совершенствование аппарата прикладной математической статистики. Парадоксально, но развитие (прикладной) математической статистики сдерживает предубеждение к численным результатам, полученным в этой области: теорема, дающая асимптотический результат, - это хорошо, а приближенная модель, полученная с использованием компьютерных технологий и адекватно описывающая ситуацию в реальных условиях приложения, показывающая, что асимптотический результат здесь не имеет места, - это не совсем хорошо. Однако ситуация начинает меняться. Постепенно приходит осознание того, что численные методы, методы статистического моделирования способствуют развитию математической статистики, что «статистические пакеты - это инструмент исследователя». Но здесь надо однозначно понимать, что используемые системы статистического анализа универсального назначения, как правило, не могут служить инструментарием для исследования закономерностей в самой математической статистике, инструментом для развития ее математического аппарата (разве что в очень ограниченном смысле). Отличительной особенностью исследований коллектива авторов является развиваемый численный подход к исследованию закономерностей. В тех случаях, когда это оказывается сложным сделать с использованием аналитического аппарата, математические модели закономерностей строятся на основе компьютерного моделирования. Это позволяет добиваться хороших результатов там, где их не удается достичь одними аналитическими методами. Такая методика нахо
дится в процессе постоянной эволюции: найденные фундаментальные закономерности (модели, их описывающие), расширяющие аппарат математической статистики, встраиваются в программное обеспечение, расширяя, в свою очередь, его возможности для исследования вероятностных закономерностей. За последние 10.. .15 лет на базе этого подхода удалось добиться достаточно заметных результатов, способствующих расширению аппарата прикладной математической статистики. Например, по результатам исследований совокупности критериев согласия разработаны рекомендации по стандартизации Госстандарта России Р 50.1.033-2001 и Р 50.1.037-2002. В монографии эти результаты существенно уточнены и расширены. В условиях нарушения классических предположений были исследованы распределения и свойства статистик нескольких десятков широко используемых критериев, что способствовало пониманию возможностей статистических методов, совершенствованию аппарата прикладной статистики. Полученные результаты представлены более чем в пятидесяти журнальных публикациях, однако возникла естественная необходимость систематизировать и обобщить их в едином издании, чтобы сделать доступным широкому кругу специалистов, использующих статистические методы. Ряд проектов авторов в данном направлении исследований был поддержан Российским фондом фундаментальных исследований, Министерством образования и Министерством образования и науки Российской Федерации, за что авторы искренне признательны неизвестным экспертам, положительно оценившим перспективность компьютерного подхода к исследованию вероятностных и статистических закономерностей. Это особенно важно для молодых участников проектов. За последние сто с небольшим лет предложена масса статистических методов и критериев, в обилии которых невозможно ориентироваться даже специалисту. Многие из них реализованы в программных системах статистического анализа. Во многих случаях для проверки гипотезы одного и того же вида предложен целый набор критериев. По существу, имеется набор инструментов, предназначенных для
Предисловие 11 косвенного измерения одной и той же величины. И тут возникает проблема выбора: какой критерий предпочтительней? Какой критерий при заданной вероятности ошибки первого рода гарантирует меньшую вероятность ошибки второго рода? Можно ли вообще при таком объеме выборки различить эти две интересующие нас конкурирующие гипотезы? Можно ли при таких объемах выборок использовать асимптотические результаты для данного критерия? Как правило, получить ответ на эти вопросы можно только при использовании компьютерных технологий исследования. Только при использовании методов компьютерного моделирования «неожиданно» проявляются недостатки статистических критериев, ограничивающие область их корректного применения. В предлагаемой монографии, в которой основные результаты получены с использованием вычислительных методов и статистического моделирования, компьютерные технологии рассматриваются как инструментарий, направленный на изучение закономерностей математической статистики, на уточнение условий, в которых корректно применение конкретных теоретических результатов математической статистики, на исследование постановок, появившихся в последнее время в связи с потребностями практики. Развиваемые технологии существенно дополняют аналитические методы, помогают находить приближенные решения в тех случаях, когда этого не удается сделать аналитическими методами. На основании имитационного моделирования можно делать не только асимптотические выводы, но и прослеживать изменения закономерностей с ростом объемов выборок, моделировать и строить модели распределений любой исследуемой статистики в конкретной ситуации. В течение ряда последних лет на факультете прикладной математики и информатики Новосибирского государственного технического университета читается курс «Компьютерные технологии анализа данных и исследования статистических закономерностей» [253, 264]. Программа курса перекликается с содержанием монографии, а развиваемое математическое и программное обеспечение позволяет слушателям курса проводить самостоятельные исследования по всем направлениям, охваченным ее оглавлением.
В монографию включены только те разделы прикладной математической статистики, в которых авторы получили новые и интересные для практического использования результаты. Авторы надеются, что книга и приводимые в приложениях таблицы будут полезны читателям в их практической деятельности, а ее содержание пополнит знания, полученные при прослушивании вузовского курса по математической статистике, в котором «почти наверное» были опущены острые моменты, связанные с реальными свойствами методов и критериев. Б.Ю. Лемешко Август 2010