Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Кадровый потенциал науки: пример разработки базы данных и метода оценки

Бесплатно
Основная коллекция
Артикул: 472931.0002.99.0173
Абдуллин, А. Р. Кадровый потенциал науки: пример разработки базы данных и метода оценки / А. Р. Абдуллин, А. Р. Фаррахетдинова, В. П. Кулешова. - Текст : электронный // Интернет-журнал "Науковедение". - 2014. - №2 (21). - URL: https://znanium.com/catalog/product/519499 (дата обращения: 28.11.2024)
Фрагмент текстового слоя документа размещен для индексирующих роботов
Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

1

http://naukovedenie.ru 171TVN214

УДК
303.7

Абдуллин Айдар Риватович

ООО «Аррион-бизнес групп»

Россия, Уфа1

Системный аналитик

Доктор философских наук, профессор

E-Mail: aydaar_fen@mail.ru

Фаррахетдинова Альмира Риватовна

ФГБОУ ВПО «Башкирский государственный аграрный университет»

Россия, Уфа

Доцент кафедры аудита и налогообложения

Кандидат экономических наук

E-Mail: farralm@mail.ru

Кулешова Валентина Павловна

ФГБОУ ВПО «Башкирский государственный аграрный университет»

Россия, Уфа

Доцент кафедры аудита и налогообложения

Кандидат экономических наук

E-Mail: kvp1109@yandex.ru

Кадровый потенциал науки:

пример разработки базы данных и метода оценки

Аннотация: В статье изложены основные положения и результаты разработки базы данных 

(БД) «Наука»; БД содержит официальные статданные по всем регионам России начиная с 1992 г. 
ежегодно представляемые Росстатом в разделе «Научные исследования и инновации». БД 
содержит 40 показателей, которые разбиты на три группы: Кадры (19), Финансы (11) и Инновации 
(10); в скобках указано количество статистических показателей входящих в эти группы. В качестве 
основного объекта БД выступает «Регион России», а его идентификация производится по двум 
ключевым полям : «Год» (к которому относятся данные) и «Код региона». Вместо кода региона 
можно использовать и его название.

В работе приводятся ER-модель и структура БД, а также скриншоты запросов к ней.

Авторами предложен метод оценки динамики численности научного персонала 

учитывающий ее нелинейных характер. В соответствии с ним получены параметры уравнения 
трендов, характеризующих динамику численности научного персонала для республик 
Башкортостан, Татарстан, Челябинской области и в целом по России за 10 лет; при этом последние 
из них 4 года выделены дополнительно в качестве весового компонента. Это позволило более точно 
произвести количественную оценку ис-следуемого нелинейного процесса.

Согласно полученной модели численность научного персонала России в период с 2000 по 

2009 гг. ежегодно сокращалась в среднем на 2.3 % или более чем на 20 тысяч человек в год.

Ключевые слова: Наука; кадровый потенциал; метод оценки; метод наименьших 

квадратов; база данных; ER-модель; система управления базами данных; уравнение трендов.

Идентификационный номер статьи в журнале 171TVN214

1 450073, а/я 139.

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

2

http://naukovedenie.ru 171TVN214

Постановка задачи

Объектом данного исследования является кадровый потенциал науки, представленный 

набором различных статистических показателей(более подробно постановка данной 
проблемы изложена нами в работе [2]); предметом выступает метод оценки. На сегодняшний 
день разработано несколько способов оценки научного потенциала общества, без 
специального выделения его кадровой составляющий. Анализу этих методов авторы 
посвятили специальное исследование «Способы оценки потенциала науки и ее кадров» [4]. 
Как показал проведенный анализ, основу этих методов все же составляет именно оценка 
состояния научных кадров. Иными словами, научные кадры – это основа научного 
потенциала общества.

Изучение социально-экономических процессов представленных статистическими 

данными представляет особый интерес, потому что в этом случае исследователь имеет дело с 
количественными фактами. Однако общеизвестно, что статистические данные являются 
величинами, содержащими случайную компоненту. Это обстоятельство приводит к 
определённым математическим сложностям и может отрицательно повлиять на конечный 
результат исследования. Обычно и чаще всего в подобной ситуации используют всякого рода 
аналитические показатели ряда динамики такие, например как средние значения, абсолютный 
прирост, коэффициент роста, темпы роста и прироста и т.п. Основной их недостаток в том, 
что они не зависят от временных особенностей исследуемого процесса, т.е. не отражают 
характер его тренда. При более сложном «математизированном» подходе, для решения задач 
связанных с временными процессам предлагается использовать так называемый метод 
аналитического выравнивания [9, с. 212]. Его суть состоит в том, чтобы представить 
динамику процесса в виде математической модели, в частности в виде функции времени y = f
(t).Получитьтакую функцию по имеющимся статданным можно при помощи численных 
методов, наиболее известным из которых является метод наименьших квадратов (МНК). 
Таким образом, получают уравнение тренда и с его помощью дают оценку направлению 
тенденции и динамики отдельно взятого процесса. К сожалению полученное таким способом 
уравнение тренда не всегда адекватно соответствует реальному процессу, на что указывает 
величина коэффициента детерминации (R2) отражающая степень их соответствия. Конечно, 
эту точность можно повысить. Но тогда возникает другая проблема, связанная с 
использованием МНК. Дело в том, что система алгебраических уравнений, с помощью 
которых получают искомое уравнение тренда «с увеличением степени n приближающего 
многочлена становится плохо обусловленной и решение ее связано с большой потерей 
точности» [8, с. 89]. Поэтому считается, что показатель степени полинома не должен 
превышать трех.

Учитывая вышесказанное, в данной работе рассматриваются полиномы только первой 

степени (n = 1); по параметрам полученного полинома (коэффициентам уравнения) 
предлагается оценить: а) динамику отдельно взятого процесса; б) сопоставить между собой 
несколько аналогичных процессов, например для разных регионов РФ по одному и тому же 
показателю. Поскольку в основе предлагаемой оценки статистических показателей лежат 
параметры уравнения, то данный метод можно назвать параметрическим.

При этом важно отметить, что предлагаемый метод – это попытка линеаризации 

кривой, т.е. замены какого-то нелинейного процесса, представленного в виде, например ветви 
параболы, прямой линией. Идея данного метода состоит в том, чтобы использовать не одну, а 
две прямые. Однако, если процесс имеет периодический колебательный характер, то такой 
подход будет лишен всякого смысла. Решение же такого рода задач с использование аппарата 
рядов Фурье, нами рассмотрено в работе [1].

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

3

http://naukovedenie.ru 171TVN214

Исходно объектом данного исследования послужила научная деятельность (наука) 

регионов РФ, в частности Республики Башкортостан. Для комплексного и многомерного 
анализа такого сложного социального объекта была разработана и создана база данных для 
различных социально-экономических показателей, в том числе и относящихся к сфере науки. 
При этом можно отметить, что создание базы данных является самой трудоемкой частью 
данного исследования.

Создание базы данных «Наука»

На основе подготовленных и изданных Росстатом статистических сборников был 

собран материал, охватывающий период за 1992–2009 гг.; при этом исходные таблицы были 
приведены в 3-ю нормальную форму (3НФ), как того требует методика построения базы 
данных (БД). Так, например, автор книги по разработке БДдляMicrosoftAccess 2010, Г.А. 
Гурвиц утверждает, что «если вы довели уровень нормализации таблиц вашей базы данных до 
третьей нормальной формы и ваша задача – разработка системы масштаба предприятия, то 
смело может переходить к разработке интерфейса» [5, с. 45]; последующие нормальные 
формы (НФ) такие как Бойса–Кодда, 4 и 5НФ нужны для «разработки суперхранилищ данных 
под Oracle или DB2» [там же]. Алгоритм нормализации базы данных до 5НФ, описанный в 
статье «Управление базами данных» [11, c.479], представлен на рисунке 12.

Поясним, что подразумевается под видами НФ:


таблица находится в первой нормальной форме (1НФ) тогда и только тогда, 
когда ни одна из ее строк не содержит в любом своем поле более одного 
значения и ни одно из ее ключевых полей не пусто;


таблица находится во второй нормальной форме (2НФ), если она удовлетворяет 
определению 1НФ и все ее поля, не входящие в первичный ключ, связаны 
полной функциональной зависимостью с первичным ключом;


таблица находится в третьей нормальной форме (3НФ), если она удовлетворяет 
определению 2НФ и не одно из ее неключевых полей не зависит функционально 
от любого другого неключевого поля;


таблица находится в нормальной форме Бойса-Кодда (иначе - в усиленной 
третьей нормальной форме) тогда и только каждая ее нетривиальная и 
неприводимая слева функциональная зависимость имеет в качестве своего 
детерминанта некоторый потенциальный ключ;


таблица находится в четвёртой нормальной форме (4НФ), если она находится в 
нормальной форме Бойса-Кодда и не содержит нетривиальных многозначных 
зависимостей;


таблица находится в пятой нормальной форме (5НФ) (иначе – в проекционносоединительной нормальной форме) если каждая нетривиальная зависимость 
соединения в ней определяется потенциальным ключом (ключами) этого 
отношения.

2 Перевод сделан авторами статьи

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

4

http://naukovedenie.ru 171TVN214

Рис. 1. Алгоритм нормализации БД [2]

Существуют также шестая и, даже уже появилась седьмая нормальные формы.

Приведённые в 3НФ статданные были экспортированы из Excel в Access3 2010 (точнее 

импортированы Access’ом).

Как уже было сказано выше, в данном исследовании речь пойдет не просто о 

социально-экономических показателях регионов включаемых в статсборники Росстата, а 
конкретно – относящихся к 22 разделу «Научные исследования и инновации»; этот раздел 
включает в себя 17 таблиц. В общей сложности получившаяся БД содержит 1656 строк (за 18 
лет для 92 регионов и федеральных округов РФ) и 40 столбцов (показателей относящийся к 
научной деятельности).

Для оперативной работы с таким большим объемом статданных была разработана 

система управления базой данных (СУБД). Для этого вначале была спроектирована ERмодель (Рис. 2).

3 Как показал опыт, жесткие ограничения, накладываемые лицензионным соглашением Майкрософта на 

эту программу, делает ее практическое использование малоперспективным.

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

5

http://naukovedenie.ru 171TVN214

Рис. 2. ER-модель предметной области базы данных «Наука»4

Словосочетание «ER-модель» переводится как «модель сущность-связь». Считается 

что если построена ER-модель, то БД находится уже не в 3-ей, а в более высокой 4НФ. Так, 
автор учебника по проектированию БД С.М. Диго, излагая такой подход, пишет: «Существуют 
разные методы проектирования логической структуры реляционных баз данных. Среди них 
есть и строгие математические методы, обычно базирующиеся на теории нормализации. Они 
имеют очень большое значение в качестве теоретической основы проектирования БД, но в 
связи с вычислительной сложностью алгоритмов практически не используются в реальном 
проектировании систем. Рассмотрим метод проектирования, основанный на анализе ERмодели и переходе от нее к реляционным отношениям. В основу этого метода положен 
эмпирический подход. Предлагаемый метод является достаточно простым и наглядным и в то 
же время дает хорошие результаты. Базы данных, полученные в результате применения излагаемой ниже методики проектирования, находятся в 4-й нормальной форме» [7, с. 195]. 
Однако К. Дж. Дейт, автор фундаментального исследования по базам данных, в разделе 
«Является ли ER-модель моделью данных» [6, с. 523] оспаривает этот тезис. Так он пишет: 
«что “связи” лучше рассматривать просто как сущности определенного рода. И наоборот, 
обязательным условием использования ER-модели является то, что эти два понятия должны 
каким-то образом различаться. По мнению автора, любой подход, при котором преследуется 

4 Разработано авторами

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

6

http://naukovedenie.ru 171TVN214

такое разделение, обладает серьёзными недостатками, поскольку, как отмечалось выше в 
разделе 13.2,один и тот же элемент может совершенно справедливо рассматриваться как 
сущность одними пользователями и как связь – другими» [там же, с. 524].

Тем не менее, не смотря на эти острые дискуссии, все же была разработана ER-модель 

для проектируемой базы данных. В соответствии с этой моделью, в качестве основного 
объекта БД выступает «Регион РФ», а его идентификация производится по двум ключевым 
полям – Идентификационным объектам (ИО): «Год» (к которому относятся данные) и «Код 
региона» (в различных вариантах).Как видно из рисунка, статданные относящиеся к БД 
«Наука» разбиты на три группы: Кадры, Финансы и Инновации. В скобках указано 
количество показателей (столбцов) входящих в эти группы; всего их 40. В нижней части 
схемы приведены разделы «Образование», «Население», «Труд» и «ВРП». Показатели этих 
разделов также введены в БД, т.к. они необходимы для полноценного анализа научного 
потенциала и научных кадров. Например, количество научного персонала надо рассматривать 
на 100 000 человек населения, расходы на науку соотносить в ВРП региона и т.д.

Схема структуры раздела «Наука» в СУБД (Access) выглядит так, как показано на 

рисунке 3.

Рис. 3. Схема БД «Наука» в программе Access5

На этой схеме видно, какие сформированы таблицы в БД и какие конкретно показатели 

в них находятся. Перед показателями указаны номер раздела (для всех это 22) и исходные 
номера таблиц соответствующие статсборникам Росстата. Хотя структура БД предполагает 3 
таблицы, на схеме их 4. Дополнительная таблица «Код регионов» связана с технологией 
создания БД и ее СУБД. На схеме видны ключевые поля (с изображением ключа) и способы 

5 Разработано авторами

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

7

http://naukovedenie.ru 171TVN214

связи между таблицами («один-к-одному» и «один-ко-многим»).Благодаря СУБД из этой БД 
можно теперь извлечь все необходимые для исследования статданные.

Ниже, на рисунке 4, в качестве примера, показан Запрос на получение интересующих 

нас статданных. Так, из таблицы «22_40_Наука_Кадры_19» вначале выбирается поле «Год»,
оговаривается условие отбора и тем самым запрашиваются данные только за период с 2000 по 
2009 гг.

Рис. 4. Запрос к БД «Наука»6

Далее из таблицы «КодРег» выбирается поле «КодАвт» и указываются автомобильные 

коды интересующих нас регионов (02, 16, 74-ый и «Р» для России в целом); из этой же 
таблицы 
в 
следующем 
столбце 
выбирается 
поле 
«НазРег». 
Далее 
из 
таблицы 

«22_40_Наука_Кадры_19» выбирается поле «ЧисПерсНИР» и т.д. В последнем столбце 
показано как это делается фактически. После выполнения этого Запроса, программа выдает 
данные показанные на рисунке 5. В целях экономии места скриншот ограничен 2006 г.

Рис. 5. Результат Запроса к БД «Наука»7

При помощи СУБД эту таблицу можно привести в более удобный вид (см. Рис. 6).

6 Разработано авторами
7 Разработано авторами

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

8

http://naukovedenie.ru 171TVN214

Рис. 6. Запрос на создание сводной таблицы8

Для 
этого 
нужно 
сделать 
еще 
один 
новый 
Запрос, 
который 
называется 

«Перекрестный»,
а затем перейти в режим «Сводной таблицы». В результате этого 

происходит перегруппировка данных; теперь данные сгруппированы в соответствии с их 
регионами. Такие возможности являются одним из главных преимуществом реляционных БД.

Далее полученные данные можно экспортировать из БД в другие программы, например 

в Excel. Полученные таким образом данные были использованы для анализа научной 
деятельности РБпо предлагаемому методу. Рассмотрим данный метод более подробно.

Метод наименьших квадратов и его интерпретация

Исследование влияния одной или нескольких независимых переменных на зависимую 

называют регрессионным анализом. Такой анализ, в частности, позволяет прогнозировать
экономические процессы с помощью, так называемых, трендовых моделей; в основе такого 
подхода лежит идея экстраполяции, под которой в литературе, посвященной экономикоматематическим методам и моделям, «обычно понимают распространение закономерностей, 
связей и соотношений, действующих в изучаемом периоде, за его пределы» [10, с. 208]

Примером такого анализа может послужить рассматриваемое нами изменение 

численности персонала НИР региона РФ, т.е. зависимой переменной от независимой, 
например, времени. Благодаря такому анализу между изучаемыми переменными можно 
получить количественное
отношение. Естественно, что такое представление будет 

аппроксимацией, т.е. приближением. Самым простым и удобным (зачастую и лучшим) 
представлением является линейная зависимость (прямая линия) уравнение которой имеет вид:

У = а * Х + в,
(1)

где Х и У – независимая и зависимая переменные; «а» и «в» – параметры 

(коэффициеты) уравнения; в качестве Х чаще всего выступает фактор времени – t.

Если рассматривается всего одна независмая переменая то такую регрессию называют 

парной, а если больше то – множественной. Задача сводится к нахождению параметров 
уравнения регресси. Делается это с помощью так называемого метода наименьших 
квадратов (МНК, OLS, Ordinary Least Squares). Суть МНК заключается в поиске таких 
значений параметров регрессии, при которых сумма квадратов отклонений теоретического 
распределения от распределения эмпирического была бы наименьшей. Математически это 
записывается так:

8 Разработано авторами

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

9

http://naukovedenie.ru 171TVN214

.
(2)

Этим же методом определяются параметры не только линейной, но и для нелинейных 

функций, например параболы:

,
(3)

или ряда Фурье:

(4)

Последний вариант используются в том случае, если изучаемый процесс происходит с 

периодическими (сезонными) колебаниями.

Таким образом, любой изучаемый процесс можно представить пусть приближенно, но 

все же в аналитическом виде. МНК позволяет найти самое лучшее приближение, ибо он 
находит такие параметры, которые дают минимальное
расхождение с имеющимися 

эмпирическими данными. Но расхождение все же останется. Для того чтобы оценить степень 
этого расхождения применяется так называемый коэффициент детерминации, обозначаемый 
R2 (по сути это коэффициент корреляции возведенный в квадрат). Этот коэффициент может 
принимать значения от 0 до 1. Чем выше значение коэффициента, тем ближе полученное 
аналитическое (теоретическое, математическое) выражение к реальному процессу. Если R2 = 
1, то это значит что произошло 100 % совпадение, а если R2 = 0, то связь между 
рассматриваемыми переменными отсутствует.

Формулы для расчёта указанных параметров и примеры их расчета приводятся далее.

Оценка динамики показателей науки

Используя рассмотренный выше МНК был проведен анализ динамики научной 

деятельности по показателю «Численность персонала, занятого научными исследованиями и 
разработками, (человек)» для трех регионов и РФ в целом за период 2000–2009 гг. (Другие 
статистические показатели научной деятельности, такие как, например, «Внутренние затраты 
на научные исследования и разработки (тыс. руб.)» или «Затраты на технологические 
инновации (млн. руб.) нами рассматриваются в работе [3].)

Графическая иллюстрация этих данных, дающая общее представление о характере 

протекания рассматриваемого процесса, приведена ниже на рисунке 7.

Как отмечалось ранее, для сопосотавления изучаемых процессов предлагается 

использовть параметры уравнений трендов, полученные методом наименьших квадратов 
(МНК). Как известно, в общем виде уравнение линейного тренда вглядит так:

У = а * Х + в.
(5)

В нашем случае коэффициет «а» показывает на сколько человек ежегодно изменяется 

численность персонала. Причем, если этот коэфициет отрицательный, то численность падает, 
если положительный, то растет. Коэффициент «в» показывает с какого уровня начался отсчет 
рассматриваемого процесса, т.е. сколько человек научного персонла было на начальный 
момент времени. Значенияэтих коэффициентов (параметров), а так же коэффициент 
детерминации R2вычисляются с помощью МНК.





t

2

t
min
))
t(f
Y
(

2

2
1
0
x
x
a
x
a
a
y












m

1
k

k
k
0
t
).
kt
sin
b
kt
cos
a
(
a
y

Интернет-журнал «НАУКОВЕДЕНИЕ»
Выпуск 2, март – апрель 2014
Опубликовать статью в журнале - http://publ.naukovedenie.ru

Институт Государственного управления, 

права и инновационных технологий (ИГУПИТ)
Связаться с редакцией: publishing@naukovedenie.ru

10

http://naukovedenie.ru 171TVN214

Рис. 7. Сопоставление динамики изменения численности персонала занятого НИР, для трех 

регионов РФ за период с 2000 по 2009 гг.9

Особенность предлагаемого метода состоит в том, что расчеты проводятся в два этапа, 

а именно за периоды: а) с 2000 по 2009 года; б) с 2006 по 2009 года (Табл.1 и 2).

Таблица 1

Расчет параметров уравнения численности персонала НИР, чел10

За 10 лет

Год

Численность персонала НИР (чел)

Российская
Федерация

Республика

Башкортостан

Республика
Татарстан

Челябинская

область

2000
887 729
10 290
16 243
16 376

2001
885 568
10 241
15 785
20 021

2002
870 878
12 226
15 297
20 181

2003
858 470
10 090
14 683
19 705

2004
839 338
9 279
14 524
18 756

2005
813 207
8 415
14 352
17 839

2006
807 066
8 047
14 227
17 530

2007
801 135
8 281
13 289
15 174

2008
761 252
8 005
12 940
14 627

2009
742 433
7 543
12 783
14 246

a 
-16 405.66
-406.62
-379.61
-541.85

в
916 939
11478
16500
20426

R2
0.9689
0.71145
0.9724
0.5314

9 Выполнен авторами
10 Составлена авторами