Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2014, №101

Покупка
Основная коллекция
Артикул: 641317.0001.99
Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2014, вып. №101 - Краснод.:КубГАУ, 2014. - 2510 с.:. - Текст : электронный. - URL: https://znanium.com/catalog/product/639085 (дата обращения: 04.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

1

УДК 519.2
UDC 519.2

РАССТОЯНИЯ В ПРОСТРАНСТВАХ 
СТАТИСТИЧЕСКИХ ДАННЫХ

DISTANCES IN THE SPACES OF 
STATISTICAL DATA

Орлов Александр Иванович
д.э.н., д.т.н., к.ф.-м.н., профессор

Orlov Alex ander Ivanovich
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., 
professor

Московский государственный технический 
университет им. Н.Э. Баумана, Россия, 105005, 
Москва, 2-я Бауманская ул., 5, prof-orlov@mail.ru

Bauman Moscow State Technical University, 
Moscow, Russia 

Ядром прикладной статистики является статистика 
в пространствах произвольной природы, 
основанная на использовании расстояний и задач 
оптимизации. В настоящей статье обсуждаются
расстояния в различных пространствах 
статистических данных, в частности, их вывод на 
основе соответствующих систем аксиом. 
Формулировки и доказательства теорем впервые 
публикуются в научной периодике

The core of applied statistics is statistics in spaces 
of arbitrary nature, based on the use of distances
and optimization problems. This article discusses 
the various distances in spaces of statistical data, in 
particular, their conclusions on the basis of 
appropriate systems of ax ioms. The conditions and 
proofs of theorems first published in scientific 
periodicals

Ключевые слова: СТАТИСТИЧЕСКИЕ МЕТОДЫ, 
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, 
ПРИКЛАДНАЯ СТАТИСТИКА, НЕЧИСЛОВАЯ 
СТАТИСТИКА, ПРОСТРАНСТВА 
ПРОИЗВОЛЬНОЙ ПРИРОДЫ, РАССТОЯНИЯ, 
АКСИОМАТИЧЕСКИЙ ПОДХОД, 
ТОЛЕРАНТНОСТИ, МНОЖЕСТВА, 
ПРОСТРАНСТВО СУММИРУЕМЫХ ФУНКЦИЙ

Keywords: STATISTICAL METHODS, 
MATHEMATICAL STATISTICS, APPLIED
STATISTICS, NON-NUMERIC STATISTICS, 
SPACE OF AN ARBITRARY NATURE, 
DISTANCES, AXIOMATIC APPROACH, 
TOLERANCES, SETS, SPACE OF 
INTEGRABLE FUNCTIONS

1. Введение

Согласно новой парадигме математической статистики [1], 

системной нечеткой интервальной математике [2, 3] и статистике

объектов нечисловой природы
(статистике нечисловых данных, 

нечисловой статистике) [4, 5], исходные статистические данные могут 

иметь разнообразную математическую природу, являться элементами 

различных пространств – конечномерных, функциональных, бинарных 

отношений, множеств, нечетких множеств и т.д. Следовательно, 

центральной частью нечисловой статистики (и прикладной статистики в 

целом) является статистика в пространствах произвольной природы. Эта 

область прикладной статистики сама по себе не используется при 

анализе конкретных данных. Это очевидно, поскольку конкретные 

данные всегда имеют вполне определенную природу. Однако общие 

подходы, методы, результаты (теоремы) статистики в пространствах 

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

2

произвольной природы представляют собой научный инструментарий, 

готовый для применения в каждой конкретной области. 

Статистика в пространствах произвольной природы основана на 

использовании 
расстояний 
и 
задач 
оптимизации,
как 
это 

продемонстрировано, например, при введении средних величин и 

доказательстве законов больших чисел [6]. В настоящей статье обсудим 

расстояния (метрики, показатели различия) в различных пространствах 

статистических данных, в частности, их получение на основе 

соответствующих систем аксиом.
Формулировки и доказательства 

теорем впервые публикуются в научной периодике.

2. Статистика в пространствах произвольной природы

Много ли общего у статистических методов анализа данных 

различной природы? На этот естественный вопрос можно сразу же 

однозначно ответить – да, очень много. Такой ответ постоянно 

подтверждается и конкретизируется на всем протяжении учебников по 

прикладной [7] и нечисловой [5] статистике. Несколько примеров 

приведем здесь.

Прежде всего,
отметим, что понятия случайного события,

вероятности, независимости событий и случайных величин являются 

общими для любых конечных вероятностных пространств и любых 

конечных областей значений случайных величин (см., например, [8]). 

Поскольку все реальные явления и процессы можно описывать с 

помощью математических объектов, являющихся элементами конечных 

множеств, сказанное выше означает, что конечных вероятностных 

пространств и дискретных случайных величин (точнее, величин, 

принимающих значения в конечном множестве) вполне достаточно для 

всех практических применений. Переход к непрерывным моделям 

реальных явлений и процессов оправдан только тогда, когда этот 

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

3

переход облегчает проведение рассуждений и выкладок. Например, 

находить определенные интегралы зачастую проще, чем вычислять 

значения сумм. Не могу не отметить, что приведенные соображения о 

взаимном соотнесении дискретных и непрерывных математических 

моделей автор услышал более 40 лет назад от академика А.Н. 

Колмогорова 
(ясно, 
что 
за 
конкретную 
формулировку 
несет 

ответственность автор настоящей статьи).

Основные проблемы прикладной статистики – описание данных, 

оценивание, проверка гипотез – также в своей существенной части 

могут быть рассмотрены в рамках статистики в пространствах 

произвольной природы. Например, для описания данных могут быть

использованы эмпирические и теоретические средние [6], плотности 

вероятностей и их непараметрические оценки
[9], регрессионные 

зависимости. Правда, для этого пространства произвольной природы 

должны 
быть 
снабжены 
соответствующим 
математическим 

инструментарием – расстояниями (метриками, показателями близости, 

мерами различия) между элементами рассматриваемых пространств. 

Популярный в настоящее время метод оценивания параметров 

распределений – метод максимального правдоподобия – не накладывает 

каких-либо ограничений на конкретный вид элементов выборки. Они 

могут лежать в пространстве произвольной природы. Математические 

условия касаются только свойств плотностей вероятности и их 

производных по параметрам. Аналогично положение с методом 

одношаговых оценок, идущим на смену методу максимального 

правдоподобия 
[7]. 
Асимптотику 
решений 
экстремальных 

статистических задач достаточно изучить для пространств произвольной 

природы, а затем применять в каждом конкретном случае [10], когда 

задачу прикладной статистики удается представить в оптимизационном 

виде. Общая теория проверки статистических гипотез также не требует 

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

4

конкретизации математической природы рассматриваемых элементов 

выборок. Это относится, например, к лемме Неймана-Пирсона или 

теории статистических решений. Более того, естественная область 

построения теории статистик интегрального типа – это пространства 

произвольной природы [11]. 

Совершенно ясно, что в конкретных областях прикладной 

статистики накоплено большое число результатов, относящихся именно 

к этим конкретным областям. Особенно это касается областей, 

исследования в которых ведутся сотни лет, в частности, статистики 

случайных величин (одномерной статистики). Однако принципиально 

важно указать на «ядро» прикладной статистики – статистику в 

пространствах произвольной природы. Если постоянно «держать в уме» 

это ядро, то становится ясно, что, например, многие методы 

непараметрической оценки плотности распределения вероятностей или 

кластер-анализа, использующие только расстояния между объектами и 

элементами выборки, относятся именно к статистике объектов 

произвольной природы, а не к статистике случайных величин или 

многомерному статистическому анализу. Следовательно, и применяться 

они могут во всех областях прикладной статистики, а не только в тех, в 

которых «родились».

3. Расстояния (метрики)

В пространствах произвольной природы нет операции сложения, 

следовательно, статистические процедуры не могут быть основаны на 

использовании сумм. Поэтому используется другой математический 

инструментарий, использующий понятия типа расстояния. 

Как известно, расстоянием в пространстве Х называется числовая 

функция двух переменных d(x,y), x є X, y є X, определенная на этом 

пространстве, т.е. в стандартных обозначениях d: X2 → R1, где R1 –

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

5

прямая, т.е. множество всех действительных чисел. Эта функция должна 

удовлетворять трем условиям (иногда их называют аксиомами):

1) неотрицательности: d(x,y) 
0, причем d(x,x) = 0, для любых 

значений x є X, y є X;

2) симметричности: d(x,y) = d(y,x) для любых x є X, y є X;

3) неравенства треугольника: d(x,y) +
d(y,z) 
d(x,z) для любых 

значений x є X, y є X, z є X.

К условию 1 во многих литературных источниках добавляют 

условие 

4) d(x,y) = 0 тогда и только тогда, когда x = y.

Для термина «расстояние» часто используется синоним –

«метрика». Иногда вводят термины «псевдометрика» (для обозначения 

функций, удовлетворяющих условиям 1), 2), 3)), «симметрика» и т.п. 

Здесь обсуждение этих терминов излишне.

Пример 1. Если d(x,x) = 0 и d(x,y) = 1 при x≠y для любых значений 

x є X, y є X, то, как легко проверить, функция d(x,y) – расстояние 

(метрика). Такое расстояние естественно использовать в пространстве Х

значений номинального признака: если два значения (например, 

названные двумя экспертами) совпадают, то расстояние равно 0, а если 

различны – то 1.

Пример 2. Расстояние, используемое в геометрии, очевидно, 

удовлетворяет трем приведенным выше аксиомам. Если Х – это 

плоскость, а х(1) и х(2) – координаты точки x є X в некоторой 

прямоугольной 
системе 
координат, 
то 
эту 
точку 
естественно 

отождествить с двумерным вектором (х(1), х(2)). Тогда расстояние 

между точками х = (х(1), х(2)) и у = (у(1), у(2)) согласно известной 

формуле аналитической геометрии равно

.
))
2
(
)
2
(
(
))
1(
)1(
(
)
,
(
2
2
y
x
y
x
y
x
d





Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

6

Пример 3. Евклидовым расстоянием в пространстве Rk векторов 

вида x = (x(1), x(2), …, x(k)) и y = (y(1), y(2), …, y(k)) размерности k

называется

.
))
(
)
(
(
)
,
(

2
/
1

1

2










 



k

j

j
y
j
x
y
x
d

В примере 2 рассмотрен частный случай примера 3 с k = 2.

Пример 4. В пространстве Rk векторов размерности k используют 

также так называемое «блочное расстояние», имеющее вид

.)
(
)
(
)
,
(

1





k

j

j
y
j
x
y
x
d

Блочное расстояние соответствует передвижению по городу, разбитому 

на кварталы горизонтальными и вертикальными улицами. В результате 

можно передвигаться только параллельно одной из осей координат.

Пример 5.
В пространстве функций, элементами которого 

являются функции х = x(t), у = y(t), 0
t
1, часто используют расстояние 

Колмогорова 

.)
(
)
(
sup
)
,
(

1
0
t
y
t
x
y
x
d

t






Пример 6. Пространство функций, элементами которого являются 

функции х = x(t), у = y(t), 0
t
1, превращают в метрическое 

пространство (т.е. в пространство с метрикой), вводя расстояние

.
))
(
)
(
(
)
,
(

/
1
1

0

p

p

p
dt
t
y
t
x
y
x
d










 

Это пространство обычно обозначают 
p
L , где параметр p 1 (при p< 1 не 

выполняются аксиомы метрического пространства, в частности, аксиома 

треугольника). 

Пример 7. Рассмотрим пространство квадратных матриц порядка 

k. Как ввести расстояние между матрицами А = | | a(i,j)|| и B = | | b(i,j)| | ? 

Можно сложить расстояния между соответствующими элементами 

матриц:

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

7









k

i

k

j

j
i
b
j
i
a
B
A
d

1
1

.)
,
(
)
,
(
)
,
(

Пример 8. Предыдущий пример наводит на мысль о следующем 

полезном свойстве расстояний. Если на некотором пространстве 

определены два или больше расстояний, то их сумма –
также 

расстояние.   

Пример 9. Пусть А
и В
–
множества. Расстояние между 

множествами можно определить формулой

).
(
)
,
(
B
A
B
A
d

 

Здесь μ – мера на рассматриваемом пространстве множеств, Δ – символ 

симметрической разности множеств,

).
(
)
(
A
B
B
A
B
A




Если мера – так называемая считающая, т.е. приписывающая единичный 

вес каждому элементу множества, то введенное расстояние есть число 

несовпадающих элементов в множествах А и В. 

Пример 10.
Между множествами можно ввести и другое 

расстояние: 

.)
(

)
(
)
,
(
1
B
A

B
A
B
A
d






В ряде задач прикладной статистики используются функции двух 

переменных, для которых выполнены не все три аксиомы расстояния, а 

только некоторые. Их обычно называют показателями различия, 

поскольку, чем больше различаются объекты, тем больше значение 

функции. Иногда в том же смысле используют термин «мера близости». 

Он менее удачен, поскольку большее значение функции соответствует 

меньшей близости. 

Чаще всего отказываются от аксиомы, требующей выполнения 

неравенства треугольника, поскольку это требование не всегда находит 

обоснование в конкретной прикладной ситуации.

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

8

Пример 
11.
В 
конечномерном 
векторном 
пространстве 

показателем различия является  








k

j

j
y
j
x
y
x
d

1

2
))
(
)
(
(
)
,
(

(сравните с примером 3). 

Показателями различия, но не расстояниями являются такие 

популярные в прикладной статистике показатели, как дисперсия или 

средний квадрат ошибки при оценивании.

Иногда отказываются также и от аксиомы симметричности. 

Пример 12. Показателем различия чисел х и у является 

.1
)
,
(

 y

x
y
x
d

Такой показатель различия используют в ряде процедур экспертного 

оценивания. 

Что же касается первой аксиомы расстояния, то в различных 

постановках прикладной статистики ее обычно принимают. Вполне 

естественно, что наименьший показатель различия должен достигаться, 

причем именно на совпадающих объектах. Имеет ли смысл это 

наименьшее значение делать отличным от 0? Вряд ли, поскольку всегда 

можно добавить одну и ту же константу ко всем значениям показателя 

различия и тем самым добиться выполнения первой аксиомы.

В прикладной статистике используются самые разные расстояния 

и показатели различия.

4. Аксиоматическое введение расстояний

В нечисловой статистике (и в прикладной статистике в целом) 

используют большое количество метрик и показателей различия (см. 

примеры в предыдущем разделе). Как обоснованно выбрать то или иное 

расстояние для использования в конкретной задаче? В 1959 г. 

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

9

американский статистик Джон Кемени предложил использовать 

аксиоматический подход, согласно которому следует сформулировать 

естественные для конкретной задачи аксиомы и вывести из них вид 

метрики. Этот подход получил большую популярность в нашей стране 

после выхода в 1972 г. перевода на русский язык книги Дж. Кемени и 

Дж. Снелла [12], в которой дана система аксиом для расстояния Кемени 

между упорядочениями. (Упорядочения, как и иные бинарные 

отношения, естественно представить в виде квадратных матриц из 0 и 1; 

тогда расстояние Кемени – это расстояние из примера 7 предыдущего 

раздела). Последовала большая серия работ, в которых из тех или иных 

систем аксиом выводился вил метрики или показателя различия для 

различных видов данных, прежде всего для объектов нечисловой 

природы. Многие полученные результаты описаны в обзоре [13], 

содержащем 161 ссылку на литературные источники, в том числе 69 на 

русском языке. Рассмотрим некоторые задачи аксиоматического 

введения расстояний.

5. 
Аксиоматическое 
введение 
расстояния 
между 

толерантностями

Толерантность 
–
это 
бинарное 
отношение, 
являющееся 

рефлексивным и симметричным. Его обычно используют для описания 

отношения 
сходства 
между 
реальными 
объектами, 
отношений 

знакомства или дружбы между людьми. От отношения эквивалентности 

отличается тем, что свойство транзитивности не предполагается 

обязательно выполненным. Действительно, Иванов может быть знаком с 

Петровым, Петров – с Сидоровым, но при этом ничего необычного нет в 

том, что Иванов и Сидоров не знакомы.

Пусть 
множество 
Х, 
на 
котором 
определено 
отношение 

толерантности, состоит из конечного числа элементов: X = { x1, x2,…, xk} . 

Научный журнал КубГАУ, №101(07), 2014 года

http://ej.kubagro.ru/2014/07/pdf/13.pdf

10

Тогда толерантность описывается квадратной матрицей A = | | a(i,j)| | , i,j = 

1, 2,…, k, такой, что a(i,j) = 1, если xi и xj связаны отношением 

толерантности, и a(i,j) = 0 в противном случае. Матрица A симметрична: 

a(i,j) = a(j,i), на главной диагонали стоят единицы: a(i,i) = 1. Любая 

матрица, 
удовлетворяющая 
приведенным 
в 
предыдущей 
фразе 

условиям, является матрицей, соответствующей некоторому отношению 

толерантности. Матрице А можно сопоставить неориентированный граф 

с вершинами в точках Х: вершины xi и xj соединены ребром тогда и 

только тогда, когда a(i,j) = 1. Толерантности используются, в частности, 

при проведении  экспертных исследований [14, 15].

Будем 
говорить, 
что 
толерантность 
А3
лежит 
между 

толерантностями А1 и А2, если при всех i, j число a3(i,j) лежит между 

числами a1(i,j) и a2(i,j), т.е. выполнены либо неравенства a1(i,j) 
a3(i,j) 

a2(i,j), либо неравенства a1(i,j) 
a3(i,j) 
a2(i,j).

Теорема 1. Пусть

(I) 
d(A1, 
A2) 
–
метрика 
в 
пространстве 
толерантностей, 

определенных на конечном множестве X =  { x1, x2,…, xk} ;

(II) d(A1, A3) +  d(A3, A2) = d(A1, A2) тогда и только тогда, когда A3 

лежит между A1 и A2;

(III) если отношения толерантности A1 и A2 отличаются только на 

одной паре элементов, т.е. a1(i,j) = a2(i,j) при (i,j) ≠ (i0,j0), i<j, i0
j0, и 

a1(i0, j0) ≠ a2(i0, j0), то d(A1, A2) = 1.

Тогда 

.
)
,
(
)
,
(
2
1
)
,
(
)
,
(
)
,
(

1
1

2
1

1

2
1
2
1














k

i

k

j
k
j
i

j
i
a
j
i
a
j
i
a
j
i
a
A
A
d

Таким образом, расстояние d(A1, 
A2) только постоянным 

множителем Ѕ отличается от расстояния Кемени, введенного в 

пространстве всех бинарных отношений как расстояние Хемминга 

между описывающими отношения матрицами из 0 и 1 (см. пример 7