Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход
Покупка
Основная коллекция
Тематика:
Математическая статистика
Издательство:
НИЦ ИНФРА-М
Авторы:
Лемешко Борис Юрьевич, Лемешко Станислав Борисович, Постовалов Сергей Николаевич, Чимитова Екатерина Владимировна
Год издания: 2015
Кол-во страниц: 890
Дополнительно
Вид издания:
Монография
Уровень образования:
Дополнительное профессиональное образование
ISBN-онлайн: 978-5-16-103267-1
Артикул: 385500.01.99
Тематика:
УДК:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход Москва znanium com электронно-библиотечная система Инфра-М 2015
Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход Москва Инфра-М; Znanium.com 2015
Лемешко, Б.Ю. Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход: монография / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. - М.: Инфра-М; Znanium.com, 2015. - II, 888 с. ISBN 978-5-16-103267-1 (online) ISBN 978-5-16-103267-1 (online) © Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова, 2015
Предисловие Статистические методы анализа данных, методы прикладной математической статистики в силу объективных условий все шире используются в различных приложениях. В то же время уровень применения этих методов в России, использование современных информационных технологий в ходе решения задач статистического анализа при исследовании процессов и сложных систем в настоящее время не выдерживают никакой критики. В последние десятилетия с рынка научно-технической продукции практически полностью исчезли отечественные разработки в области программного обеспечения задач статистического анализа, пакеты и программные системы, ориентированные на задачи анализа данных. Это самым негативным образом отражается на качестве статистического анализа при обработке результатов экспериментальных исследований в различных сферах научно-технической деятельности, сужает спектр применяемых методов из широкого арсенала прикладной математической статистики, приводит к некорректным выводам и, как следствие, к принятию неверных решений. В настоящее время известно множество систем статистического анализа, используемых в мировой практике. Одни программные системы - универсальные, ориентированные на максимально широкий спектр методов статистического анализа, другие предназначены для решения относительно узкого класса задач. Предлагаемые системы дают инструментарий для решения различных задач статистического анализа, правильность использования которого не в последнюю очередь зависит от квалификации пользователя в области соответствующих методов.
Использование популярных систем не снимает проблем корректного решения задач анализа данных в различных приложениях и не только в силу того, что новые результаты в области прикладной математической статистики далеко не сразу воплощаются в программном обеспечении. До внедрения в универсальные системы нового метода проходит 10.. .15 лет, если это вообще происходит. Объективно применяемые системы включают в себя богатый арсенал классических методов прикладной математической статистики. Однако область корректного применения этого арсенала в различных приложениях сильно ограничена. Дело в том, что предпосылки применения многих методов в задачах, возникающих на практике, как правило, не выполняются. Например, не выполняются предположения о принадлежности ошибок измерений нормальному закону. Или вследствие ограниченности объемов выборок оказывается некорректным использование асимптотических результатов. Или форма регистрации наблюдений (группированные, цензурированные, многократно цензурированные, интервальные данные) не позволяет использовать классические методы оценивания и проверки статистических гипотез. Или, например, из-за сложности построения конкретных зависимостей аналитическими методами математики не смогли предложить аппарат для проверки сложных гипотез с применением непараметрических критериев согласия. Практика, таким образом, подкидывает множество постановок задач, на которые математический аппарат прикладной статистики пока не дает ответа (новых методов, критериев и т. п.). Надеяться на то, что поставляемые практикой все в больших масштабах задачи (в нестандартных условиях) будут своевременно разрешаться за счет человеческого интеллекта и аналитическими методами, не приходится. Выход видится в интенсивном и эффективном использовании компьютерных технологий. В последнее десятилетие увеличилось количество примеров использования методов статистического моделирования (методов Монте-Карло) для исследования статистических и вероятностных закономерностей, например, для нахождения процентных точек (квантилей) распределений статистик некоторых критериев. Хотя наиболее часто методы статистиче
Предисловие 9 ского моделирования в области прикладной математической статистики исследователи используют для проверки аналитических выводов (или только мечтают применить). Становится правилом хорошего тона, когда в международном журнале высокого уровня доказательство теоремы в области математической статистики подтверждается результатами имитационного моделирования. Однако эти разрозненные примеры еще не являются подтверждением системного подхода к развитию компьютерных технологий, направленных на исследование вероятностных закономерностей, на совершенствование аппарата прикладной математической статистики. Парадоксально, но развитие (прикладной) математической статистики сдерживает предубеждение к численным результатам, полученным в этой области: теорема, дающая асимптотический результат, - это хорошо, а приближенная модель, полученная с использованием компьютерных технологий и адекватно описывающая ситуацию в реальных условиях приложения, показывающая, что асимптотический результат здесь не имеет места, - это не совсем хорошо. Однако ситуация начинает меняться. Постепенно приходит осознание того, что численные методы, методы статистического моделирования способствуют развитию математической статистики, что «статистические пакеты - это инструмент исследователя». Но здесь надо однозначно понимать, что используемые системы статистического анализа универсального назначения, как правило, не могут служить инструментарием для исследования закономерностей в самой математической статистике, инструментом для развития ее математического аппарата (разве что в очень ограниченном смысле). Отличительной особенностью исследований коллектива авторов является развиваемый численный подход к исследованию закономерностей. В тех случаях, когда это оказывается сложным сделать с использованием аналитического аппарата, математические модели закономерностей строятся на основе компьютерного моделирования. Это позволяет добиваться хороших результатов там, где их не удается достичь одними аналитическими методами. Такая методика нахо
дится в процессе постоянной эволюции: найденные фундаментальные закономерности (модели, их описывающие), расширяющие аппарат математической статистики, встраиваются в программное обеспечение, расширяя, в свою очередь, его возможности для исследования вероятностных закономерностей. За последние 10.. .15 лет на базе этого подхода удалось добиться достаточно заметных результатов, способствующих расширению аппарата прикладной математической статистики. Например, по результатам исследований совокупности критериев согласия разработаны рекомендации по стандартизации Госстандарта России Р 50.1.033-2001 и Р 50.1.037-2002. В монографии эти результаты существенно уточнены и расширены. В условиях нарушения классических предположений были исследованы распределения и свойства статистик нескольких десятков широко используемых критериев, что способствовало пониманию возможностей статистических методов, совершенствованию аппарата прикладной статистики. Полученные результаты представлены более чем в пятидесяти журнальных публикациях, однако возникла естественная необходимость систематизировать и обобщить их в едином издании, чтобы сделать доступным широкому кругу специалистов, использующих статистические методы. Ряд проектов авторов в данном направлении исследований был поддержан Российским фондом фундаментальных исследований, Министерством образования и Министерством образования и науки Российской Федерации, за что авторы искренне признательны неизвестным экспертам, положительно оценившим перспективность компьютерного подхода к исследованию вероятностных и статистических закономерностей. Это особенно важно для молодых участников проектов. За последние сто с небольшим лет предложена масса статистических методов и критериев, в обилии которых невозможно ориентироваться даже специалисту. Многие из них реализованы в программных системах статистического анализа. Во многих случаях для проверки гипотезы одного и того же вида предложен целый набор критериев. По существу, имеется набор инструментов, предназначенных для
Предисловие 11 косвенного измерения одной и той же величины. И тут возникает проблема выбора: какой критерий предпочтительней? Какой критерий при заданной вероятности ошибки первого рода гарантирует меньшую вероятность ошибки второго рода? Можно ли вообще при таком объеме выборки различить эти две интересующие нас конкурирующие гипотезы? Можно ли при таких объемах выборок использовать асимптотические результаты для данного критерия? Как правило, получить ответ на эти вопросы можно только при использовании компьютерных технологий исследования. Только при использовании методов компьютерного моделирования «неожиданно» проявляются недостатки статистических критериев, ограничивающие область их корректного применения. В предлагаемой монографии, в которой основные результаты получены с использованием вычислительных методов и статистического моделирования, компьютерные технологии рассматриваются как инструментарий, направленный на изучение закономерностей математической статистики, на уточнение условий, в которых корректно применение конкретных теоретических результатов математической статистики, на исследование постановок, появившихся в последнее время в связи с потребностями практики. Развиваемые технологии существенно дополняют аналитические методы, помогают находить приближенные решения в тех случаях, когда этого не удается сделать аналитическими методами. На основании имитационного моделирования можно делать не только асимптотические выводы, но и прослеживать изменения закономерностей с ростом объемов выборок, моделировать и строить модели распределений любой исследуемой статистики в конкретной ситуации. В течение ряда последних лет на факультете прикладной математики и информатики Новосибирского государственного технического университета читается курс «Компьютерные технологии анализа данных и исследования статистических закономерностей» [253, 264]. Программа курса перекликается с содержанием монографии, а развиваемое математическое и программное обеспечение позволяет слушателям курса проводить самостоятельные исследования по всем направлениям, охваченным ее оглавлением.
В монографию включены только те разделы прикладной математической статистики, в которых авторы получили новые и интересные для практического использования результаты. Авторы надеются, что книга и приводимые в приложениях таблицы будут полезны читателям в их практической деятельности, а ее содержание пополнит знания, полученные при прослушивании вузовского курса по математической статистике, в котором «почти наверное» были опущены острые моменты, связанные с реальными свойствами методов и критериев. Б.Ю. Лемешко Август 2010
1. ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ 1.1. Введение /гу*усть в эксперименте наблюдается непрерывная случайная U L величина £, с функцией распределения вероятностей F(х, 0) и плотностью распределения f (х, 0), где 0 - вектор неизвестных параметров. По выборке Хп ={хь х₂,..., хп} требуется оценить неизвестные параметры распределения. Качество оценок, построенных по выборкам конечного объема (п < да), характеризуется следующими свойствами. Несмещенность. Оценка 0 называется несмещенной, если е [0( Хп )] = е. Эффективность. Несмещенная оценка 0 называется эффективной, если D |^0 (Хп)] = J,7l(0), где Jₙ (0) - информационная матрица Фишера. Эффективность имеет смысл только для регулярных моделей. Семейство {F(х, 0), 0еО} является регулярным, если выполняют ся следующие условия: • для любого 0, 0еО, плотность f (х, 0) дифференцируема по 0, Э т. е. существует —f (х, 0); Э Э Э0 • множество {х: f (х, 0) = 0} не зависит от 0. При п ^ да качество оценок определяется их асимптотическими свойствами.