Научное приборостроение : научный журнал. - Санкт-Петербург : Институт аналитического приборостроения РАН, 2022. - Т. 32, № 1. - 92 с. - ISSN 2312-2951. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1878621 (дата обращения: 09.05.2025)

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов

ISSN 0868–5886                                          НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1, c. 3–10 
 

 СИСТЕМНЫЙ  АНАЛИЗ  ПРИБОРОВ 

  И  ИЗМЕРИТЕЛЬНЫХ  МЕТОДИК 

3 
 

 
УДК 543.51+ 681.2–5 
 
 А. Г. Бородинов, В. В. Манойлов,  И. В. Заруцкий, А. И. Петров, В. Е. Курочкин, 2022 
 

МЕТОДИКА  ОЦЕНКИ  КАЧЕСТВА  ГЕНОМНОЙ  СБОРКИ  

НА  ОСНОВЕ  АНАЛИЗА  ЧАСТОТНОСТИ  K-МЕРОВ   

В  СЕКВЕНАТОРЕ  ПАРАЛЛЕЛЬНОГО  СЕКВЕНИРОВАНИЯ 

 

В настоящее время в связи с развитием приборостроения для проведения генетического анализа существует 
острая необходимость в разработке методик оценки качества геномной сборки. Подсчет встречаемости различных k-меров часто возникает в задачах сборки генома. В данной работе на основе анализа различных 
программных средств выбраны программы, которые позволяют оценить качество геномной сборки. С помощью выбранных программ обработаны данные, полученные на отечественном секвенаторе параллельного 
секвенирования Нанофор СПС. На основе результатов обработки этих данных произведена оценка качества 
геномной сборки по методике анализа k-меров для прибора Нанофор СПС. 
 
 
Кл. сл.:  k-мер, NGS-методы, биоинформатика, сборка генома 
 
 

ВВЕДЕНИЕ 

K-мер — это просто последовательность из k 

символов в строке (или нуклеотидов в последовательности ДНК в задаче секвенирования). Разложение последовательности на ее k-меры  позволяет 
анализировать этот набор фрагментов фиксированного размера, а не последовательность целиком, и это может быть более эффективным подходом. Простой пример: чтобы проверить, происходит ли последовательность S из организма A или 
из организма B, предполагая, что геномы A и B 
известны и достаточно разные, мы можем проверить, содержит ли S больше k-меров, присутствующих в A или в B. 

Практически любой геном содержит повто
ряющиеся области, однако, начиная с определенного значения k, k-меры определенным образом 
однозначно идентифицируют его; если мы посчитаем количество появлений k-мер для достаточно 
большого k (ограниченного сверху длиной чтения), оказывается, что большинство из них находятся в геноме в единственном экземпляре. Например, если порядок длины генома сравним  
с человеческим, вероятность встретить случайную 
подстроку длины 14 хотя бы один раз составляет 
0.975893 [1]. Для k = 20 эта же вероятность составляет 0.000909.  

Подсчет встречаемости различных k-меров ча- 

сто возникает в задачах сборки генома. Распределение частот встречаемости используется для процедуры корректирования рдов, что подразумевает разделение содержащихся k-меров на "доверенные" и "ошибочные" [1]. Подобная информация 

используется некоторыми программами сборки 
генома для определения того, является ли рассматриваемый участок повтором или нет.  

В настоящее время в связи с развитием 

приборостроения для проведения генетического 
анализа существует острая необходимость в разработке 
методик 
оценки 
качества 
геномной 

сборки. 
Такие 
методики 
позволят 
оценить 

достоверность проведения генетического анализа 
в существующих и вновь разрабатываемых приборах. В данной работе на основе анализа 
различных 
программных 
средств 
выбраны 

программы, которые позволяют оценить качество 
геномной сборки в секвенаторах параллельного 
секвенирования. С помощью выбранных программ 
обработаны данные, полученные на отечественном секвенаторе параллельного секвенирования Нанофор СПС. 

АНАЛИЗ ПРОГРАММНЫХ СРЕДСТВ ОЦЕНКИ 

КАЧЕСТВА СБОРКИ ГЕНОМА 

Поскольку количество k-мер растет экспонен
циально для значений k, подсчет k-мер для больших значений k является вычислительно сложной 
задачей. Хотя достаточно простые реализации работают для малых значений k, их необходимо 
адаптировать для приложений с высокой пропускной способностью или когда k велико. Для решения этой проблемы были разработаны различные 
инструменты: 

• Jellyfish использует многопоточную хеш
таблицу без блокировок для подсчета k-мер и имеет реализации на Python, Ruby и Perl [2];

стр. 1

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ, И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

• KMC — это инструмент для подсчета k-мер,

который использует многодисковую архитектуру
для оптимизации скорости [3];

• Gerbil использует подход хеш-таблицы, но с до
полнительной поддержкой ускорения графического
процессора [4];

• K-mer Analysis Toolkit (KAT) использует

модифицированную версию Jellyfish для анализа
количества k-мер [5].

В качестве основного инструмента работы с k
мерами был выбран KAT (K-mer Analysis Tookit),
представляющий эффективный набор средств для
быстрого подсчета, сравнения и анализа спектров
k-мер произвольной длины из данных генетических последовательностей.

Основным методом анализа при работе с k
мерами является проверка качества сборки генома
путем сравнения характеристик k-меров совокупности анализируемых рдов с референтным образцом или с собранным геномом (при сборке de
novo). Инструмент KAT hist — это графическое
представление набора данных, показывающее,
сколько коротких последовательностей фиксированной длины (k-мер) появляется определенное
количество раз. Частота встречаемости нанесена
на ось х, а число k-меров на оси у. Пример 31-mer
spectrum of S.cerevisae S288C WGS приведен
на рис. 1.

Инструмент KAT comp генерирует матрицу

с k-мерным набором последовательностей частот

k-меров на одной оси, а частотой встречаемости
k-меров другого набора на другой оси. При сравнении набора рдов со сборкой KAT сначала вычисляет свойства и состав k-меров сборки. При
представлении в виде стоковых гистограмм спектр
k-меров для рдов разбивается по числу копий kмеров для сборки. Кроме того, KAT предоставляет
инструмент sect для отслеживания покрытия kмерами, исходя из рассчитанных спектров k-меров
для совокупности рдов и референса. Это может
помочь идентифицировать такие артефакты сборки, как события сворачивания и разворачивания,
или обнаруживать повторяющиеся области в последовательности ДНК.

KAT также включает инструмент hist для вы
числения спектра из одного набора последовательностей и инструмент gcp для анализа гуанинцитозин содержания (GC-контента) в зависимости
от частоты k-меров. Инструмент filter можно использовать для выделения последовательностей
из полного набора в соответствии либо с покрытием k-мерами или GC-содержанием для заданного
набора. Эти инструменты могут использоваться
для различных задач, включая обнаружение и извлечение загрязняющих веществ (contaminant
detection) как в необработанных рдах, так и
в сборках (assemblies), анализ смещения по GCсоставу
и
согласованность
между
парно
концевыми (paired end) рдами с чувствительностью по концентрациям примесей от 0.1 ppm.

Рис. 1. Графическое представление набора данных KAT hist

стр. 2

МЕТОДИКА ОЦЕНКИ КАЧЕСТВА ГЕНОМНОЙ СБОРКИ

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

KAT прост в использовании, обеспечивает вы
сокую скорость анализа. Время получения результатов анализа составляет не более минуты.

МЕТОДИКИ РАБОТЫ С K-МЕРАМИ

В работе [1] предложен метод оценки качества

геномной сборки, заключающийся в установлении
соответствия между уникальными k-мерами в со-
бранном геноме и k-мерами в рдах. Процедура
выглядит следующим образом.

1. Построение гистограммы встречаемости k
меров для рдов.

2. Выбор окрестности пика уникальных k
меров на гистограмме встречаемости.

3. Построение гистограммы встречаемости k
меров для каждой сборки.

4. Расчет меры Q как доли различных k-меров,

взятых из окрестности пика на гистограмме встречаемости k-меров в чтениях.

5. Выбор сборки с максимальным значением
в качестве наилучшей.

В работе [6] предложен метод исправления

ошибок, оптимизированный для работы с чтениями, содержащими как ошибки замены, так
и ошибки вставки и удаления. Поскольку ошибки
происходят с небольшой частотой, вероятность
того, что один и тот же k-мер будет прочитан несколько раз с одинаковым набором ошибок, очень
мала. Из этого вытекает, что те k-меры, которые
встречаются в наборе чтений мало раз, являются
ошибочными, остальные же являются реальными
подстроками генома (рис. 2).

Рис. 2. Распределение частот k-меров в рдах [6]

стр. 3

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ, И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ KAT

ДЛЯ ОБРАБОТКИ ДАННЫХ

СЕКВЕНАТОРА НАНОФОР СПС

Для обработки данных секвенатора Нанофор

СПС была использована опция программы КАТ
"K-mer comparison plot". По сути мы представляем, сколько элементов каждой частоты в спектре
рдов оказались не включены в референтный ге-

ном (в нашем случае Phix174), включены один раз,
включены дважды и т.д.

На рис. 3, 4 представлены k-mer comparison

plot, полученные соответственно для приборов
Illumina и Нанофор СПС. Показательно, что для
сходных характеристик проточных ячеек запуск
Нанофор СПС обеспечивает больший уровень покрытия рдами референсной последовательности
(центр тяжести k-меров с уникальным покрытием).

Рис. 3. Типичный k-mer comparison
plot
секвенирования
Phix
174

на Illumina Miseq

Рис. 4. Типичный k-mer comparison
plot
секвенирования
Phix
174

на Нанофор СПС

стр. 4

МЕТОДИКА ОЦЕНКИ КАЧЕСТВА ГЕНОМНОЙ СБОРКИ

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

ЗАКЛЮЧЕНИЕ

Проекты сборки генома обходятся дорого как

по времени, так и по вложенным средствам.
В этом случае выявление проблем с экспериментальными данными, обаруженных уже после сборки, может стать настоящей неудачей. С помощью
K-mer Analysis Toolkit (KAT) исследователи могут
получить доступ к качественным критериям
и подтвердить свои результаты на более ранних
этапах.

K-меры представляют собой небольшие фраг
менты исходного генома с фиксированным числом
оснований ДНК. Компьютер может эффективно
работать с большим количеством k-меров, а затем
идентифицировать связи между этими фрагментами, чтобы создать представление об исходном геноме. Основанные на k-мерах методы обычно используются для эффективного создания геномных
сборок. KAT построен для изучения и сравнения
наборов данных секвенирования с использованием
основных свойств каждого отдельного k-мера, таких как частота встречаемости и нуклеотидный
состав.

В первую очередь KAT может анализировать

данные секвенирования для определения уровней
случайных
ошибок,
систематических
ошибок

и контаминации. Информация, полученная в ходе
этого анализа, может помочь исследователям решить, следует ли продолжать выполнение последующих задач, таких как сборка генома. Затем
KAT может перепроверить проведенную сборку
генома, определив полноту и точность сборки без
каких-либо внешних справочных данных.

СПИСОК ЛИТЕРАТУРЫ

1. Романенков К.В. Метод оценки качества сборки гено
ма на основе частот k-меров, Препринт. ИПМ им.
М.В. Келдыша, 2017.

2. Marcais G., Kingsford C. A fast, lock-free approach for

efficient parallel counting of occurrences of k-mers // Bioinformatics. 2011. Vol. 27, is. 6. P. 764–770. DOI:
10.1093/bioinformatics/btr011

3. Deorowicz S., Kokot M., Grabowski S., Debudaj
Grabysz А. KMC 2: fast and resource-frugal k-mer counting // Bioinformatics. 2015. Vol. 31, is. 10. P. 1569–1576.
DOI: 10.1093/bioinformatics/btv022

4. Erbert M., Rechner S., Müller-Hannemann M. Gerbil:

a fast and memory-efficient k-mer counter with GPUsupport // Algorithms for Molecular Biology. 2017.
Vol. 12. Art. Num. 9. DOI: 10.1186/s13015-017-0097-9

5. Mapleson D., Accinelli G.G., Kettleborough G.,Wright J.,

Clavijo B.J. KAT: a K-mer analysis toolkit to quality control NGS datasets and genome assemblies // Bioinformatics. 2017. Vol. 33, is. 4. P. 574–576. DOI:
10.1093/bioinformatics/btw663

6. Александров А.В., Шалыто А.А. Метод исправления

ошибок вставки и удаления в наборе чтений нуклеотидной последовательности // Научно-технический
вестник информационных технологий, механики и оптики.
2016.
Т.
16,
№
1.
С.
108–114.
DOI:

10.17586/2226-1494-2016-16-1-108-114

Институт аналитического приборостроения РАН,
Санкт-Петербург

Контакты: Бородинов Андрей Геннадьевич,
borodinov@gmail.com

Материал поступил в редакцию 30.12.2021

стр. 5

ISSN 0868–5886 NAUCHNOE PRIBOROSTROENIE, 2022, Vol. 32, No. 1, pp. 3–10

METHODOLOGY FOR ASSESSING THE QUALITY

OF GENOMIC ASSEMBLY BASED ON THE ANALYSIS

OF THE FREQUENCY OF K-MERS IN A PARALLEL

SEQUENCING SEQUENCER

A. G. Borodinov, V. V. Manoilov, I. V. Zarutskiy, A. I. Petrov, V. E. Kurochkin

Institute for Analytical Instrumentation of RAS, Saint-Petersburg, Russia

Counting the occurrence of different k-mers often causes problems of genome assembly. Analysis of the fre
quency distribution of k-mers makes it possible to find assembly errors in already formed contigs. Currently, in
connection with the development of instrumentation for genetic analysis, there is an urgent need to develop methods for assessing the quality of genomic assembly. Such techniques will make it possible to assess the reliability of genetic analysis in existing and newly developed devices. In this work, based on the analysis of various
software tools, programs were selected to assess the quality of genomic assembly in parallel sequencing sequencers. Using the selected programs, the data obtained on the domestic sequencer for parallel sequencing Nanofor SPS were processed. Based on the results of processing these data, the quality of the genomic assembly
was assessed by the method of analysis of k-mers and recommendations were given for improving the hardware
and software of the Nanofor SPS device.

Keywords: k-mers, NGS, bioinformatics, genome assembly

INTRODUCTION

A k-mer is simply a sequence of k symbols in

a string (or nucleotides in a DNA sequence in the case
of sequencing). The decomposition of a sequence into
its k-mers allows one to analyze this set of fixed size
fragments, rather than the whole sequence, and this
may be a more efficient approach. A simple example:
to check if the sequence S originates from organism A
or from organism B, assuming that the genomes of A
and B are known and quite different, we can check
which k-mers contains S more of: those present in A
or in B.

Almost any genome contains repeating regions,

however, starting from a certain value of k, k-mers in
a certain way uniquely identify it. If we count
the number of occurrences of k-mers for a sufficiently
large value of k (limited from above by the length of
reads), it appears that most of them are in a single
copy in the genome. For example, if the order of genome length is comparable with a human one,
the probability of encountering a random substring of
k =14 length at least once is 0.975893 [1]. For k = 20,
the probability is 0.000909.

Counting the occurrence of different k-mers often

arises in genome assembly tasks. The frequency distribution is used for the read correction procedure, which implies the seraration of the contained k-mers into "trusted"
and "erroneous" ones [1]. This information is used by
some genome assembly software programs to determine whether the region in question is a repeat or not.

Currently, due to the development of instrumenta
tion for genetic analysis, there is an urgent need for
the development of methods for assessing the quality
of genomic assembly. Such techniques make it possible to assess the reliability of genetic analysis in existing and newly developed devices. In this work, based
on the analysis of various software tools, programs
were chosen that allow assessing the quality of genomic assembly in sequencers for parallel sequencing.
Using the selected programs, the data obtained on the
domestic sequencer Nanofor SPS [Нанофор СПС] for
parallel sequencing were processed.

ANALYSIS OF SOFTWARE FOR ASSESSING

THE QUALITY OF GENOME ASSEMBLY

Since the number of k-mers grows exponentially

for values of k, calculating k-mers for large values of
k is computationally challenging. While fairly simple
applications work for small values of k, they need to
be adapted when high throughput is needed or when k
is large. Various tools have been developed to solve
this problem:

• Jellyfish uses a multi-threaded, lock-free hash ta
ble for counting k-mers and has implementations in
Python, Ruby, and Perl [2];

• KMC is a k-mer calculator that uses a multi-disk

architecture to optimize speed [3];

• Gerbil uses a hash table approach, but with addi
tional support for GPU acceleration [4];

• The K-mer Analysis Toolkit (KAT) uses a mod

стр. 6

МЕТОДИКА ОЦЕНКИ КАЧЕСТВА ГЕНОМНОЙ СБОРКИ

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

ified version of Jellyfish to analyze the number of kmers [5].

As the main tool for working with k-mers, KAT

(K-mer Analysis Tookit) was chosen, representing
an effective set of tools for quickly calculating, comparing and analyzing the spectra of k-mers of arbitrary
length from genetic sequence data.

The main analysis method when working with k
mers is to check the quality of genome assembly by
comparing the characteristics of the k-mers of the set
of analyzed reads with the reference sample or with
the assembled genome (when assembling de novo).
A KAT hist tool is a graphical representation of a dataset showing how many short, fixed-length sequences
(k-mers) appear a specified number of times. The frequency of occurrence is plotted on the axis x, and the
number of k-mers on the axis y. An example of 31mer spectrum of S. cerevisae S288C WGS is given in
Fig. 1.

A KAT comp generates a matrix with a k-mer set

of frequency sequences of k-mers on one axis, and
the frequency of occurrence of k-mers of another set
on the other axis. When comparing a set of reads with
an assembly, KAT first calculates the properties and
composition of the k-mers of the assembly. When presented in the form of stock histograms, the spectrum
of k-mers for reads is divided according to the number
of copies of k-mers for assembly. In addition, KAT
provides sect tool for tracking k-mer coverage based
on calculated k-mer spectra for a set of reads and
a reference. This can help identify assembly artifacts
such as folding and unfolding, or detect repeating regions in a DNA sequence.

KAT also includes a hist tool for calculating

a spectrum of a set of sequences and a gcp tool for
analyzing guanine-cytosine content versus frequency
of k-mers. A filter tool can be used to select sequences from the complete set according to either kmer coverage or GC content for a given set. These
tools can be used for a variety of tasks, including contaminant detection and extraction in both raw reads
and assemblies, bias analysis over GC content, and
consistency between paired end reads with sensitivity
to impurity concentrations from 0.1 ppm. KAT is easy
to handle, it provides high speed analysis. The time
spent on obtaining the result of the analysis is no more
than 1 min.

TECHNIQUES FOR WORKING WITH K-MERS

In [1], a method for assessing the quality of ge
nomic assembly is proposed, which consists in establishing a correspondence between unique k-mers in
the assembled genome and k-mers in reads. The procedure is as follows.

1. Construction of a histogram of the occurrence of

k-mers for the reads.

2. Selection of the vicinity of the peak of unique k
mers on the histogram of occurrence.

3. Plotting a histogram of the occurrence of k-mers

for each assembly.

4. Calculation of the measure Q as the fraction of

different k-mers taken from the vicinity of the peak on
the histogram of the occurrence of k-mers in reads.

5. Selection of the assembly with the maximum

value of as the best.

In [6], an error correction method is proposed that

is optimized for working with reads containing both
substitution errors and insertion and deletion errors.
Since errors occur with a small probability, the probability that the same k-mer will be read several times
with the same set of errors is very small. It follows
that those k-mers that occur a few times in the set of
reads are erroneous, while the rest are real substrings
of the genome (Fig. 2).

USING THE KAT SOFTWARE

FOR SEQUENATOR NANOFOR SPS

DATA PROCESSING

To process the data of the Nanofor SPS sequencer,

the KAT program option k-mer comparison plot was
used. In fact, we get a notion of how many elements
of each frequency in the read spectrum were not included in the reference genom (in our case Phix174),
included once, included twice, etc.

Figs. 3, 4 show the k-mer comparison plot results

obtained with the Illumina and Nanofor SPS instruments, respectively. It is significant that Nanofor SPS
provides a higher level of coverage of the reference
sequence by reads (the centroid of k-mers with
a unique coverage) in cases of similar characteristics
of flow cells.

Fig. 1. Graphical representation of the KAT hist
dataset

Fig. 2. Frequency distribution of k-mers in reads [6]

Fig. 3. Typical k-mer comparison plot results of Phix
174 sequencing using Illumina Miseq

стр. 7

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ, И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1

CONCLUSION

Genome assembly projects are costly in both time

and investment. Identifying problems with experimental data discovered after assembly can be a real failure. With the K-mer Analysis Toolkit (KAT) researchers can access quality criteria and confirm
the results in the earlier stages.

K-mers are small fragments of the original genome

with a fixed number of DNA bases. A computer can
efficiently work with a large number of k-mers and
then identify the relations between these fragments to
create an idea of the original genome. K-mer-based
methods are commonly used to efficiently generate
genomic assemblies. KAT is built to examine and
compare sequencing datasets using the basic properties of each individual k-mer, such as frequency and
nucleotide composition.

First of all, the KAT can analyze sequencing data

to determine the levels of random errors, systematic
errors and contamination. The information gained
from this analysis can help researchers decide whether
to continue with subsequent tasks, such as genome
assembly. Then the KAT can re-check the performed
assembly of the genome, determining the completeness and accuracy of the assembly without any external reference.

REFERENСES

1. Romanenkov K.V. [A new method of evaluating genome

assemblies based on k-mers frequencies]. Preprinty Instituta prikladnoi matematiki im. M.V. Keldysha RAN [Preprints of the Keldysh Institute of Applied Mathematics],
2017, no. 11, 24 p. DOI: 10.20948/prepr-2017-11 (In
Russ.).

2. Marcais G., Kingsford C. A fast, lock-free approach for

efficient parallel counting of occurrences of k-mers. Bioinformatics, 2011, vol. 27, is. 6, pp. 764–770. DOI:
10.1093/bioinformatics/btr011

3. Deorowicz S., Kokot M., Grabowski S., Debudaj
Grabysz А. KMC 2: fast and resource-frugal k-mer counting. Bioinformatics, 2015, vol. 31, is. 10, pp. 1569–1576.
DOI: 10.1093/bioinformatics/btv022

4. Erbert M., Rechner S., Müller-Hannemann M. Gerbil:

a fast and memory-efficient k-mer counter with GPUsupport. Algorithms for Molecular Biology, 2017, vol. 12,
art. num. 9. DOI: 10.1186/s13015-017-0097-9

5. Mapleson
D.,
Accinelli
G.G.,
Kettleborough
G.,

Wright J., Clavijo B.J. KAT: a K-mer analysis toolkit to
quality control NGS datasets and genome assemblies. Bioinformatics, 2017, vol. 33, is. 4, pp. 574–576. DOI:
10.1093/bioinformatics/btw663

6. Alexandrov A.V., Shalyto A.A. [Error correction method

for sequencing data with insertions and deletions].
Nauchno-tekhnicheskii vestnik informatsionnykh tekhnologii, mekhaniki i optiki [Scientific and Technical Journal
of Information Technologies, Mechanics and Optics],
2016, vol. 16, no. 1, pp. 108–114. DOI: 10.17586/22261494-2016-16-1-108-114 (In Russ.).

Contacts: Borodinov Andrey Gennad'evich,
borodinov@gmail.com

Article received by the editorial office on 30.12.2021

Fig. 4. Typical k-mer comparison plot results of Phix
174 sequencing using Nanofor SPS

стр. 8

ISSN 0868–5886                                          НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1, c. 11–20 
 

 СИСТЕМНЫЙ  АНАЛИЗ  ПРИБОРОВ 

  И  ИЗМЕРИТЕЛЬНЫХ  МЕТОДИК 

11 

 
УДК 001.8 
 
 И. Б. Птицына, 2022 
 

НАУЧНЫЕ  ПРИБОРЫ  И  ИНСТРУМЕНТЫ   

КАК  ОСОБЫЙ  ВИД  АРТЕФАКТОВ 

 

История артефактов — произведенных человеком предметов — так же велика, как и история человечества. 
Среди большого разнообразия артефактов важное место с самого начала занимали инструменты и несколько 
позже — приборы. Развитие социума всегда сопровождалось и сопровождается необходимостью увеличения 
возможностей этих артефактов и их усложнением. Все артефакты подобного рода — это экстрасоматические органы, дополнение к органам телесным и умственным, это инструменты, созданные для повышения 
способности решать определенные проблемы. С развитием технологий их возможности стали настолько 
большими, что возник вопрос, превышают ли они возможности человеческого мозга. Особенно этот вопрос 
актуален для такой разновидности инструментов, которые созданы для помощи мозгу, — обучающихся 
компьютерных программ искусственного интеллекта. Чтобы понять это, нужно обратиться к истокам науки, 
когда закладывались основы методологии и общие принципы получения умственного продукта. Этот результат имеет особенность — он часто воспринимается антропоморфно, перенося свойства экспериментатора на результат его деятельности. Это особенно актуально для сложных приборов и инструментов. В статье 
показана природа взаимоотношений человека и инструмента как его искусственного экстрасоматического 
органа. 
 
 
Кл. сл.: прибор, инструмент, артефакт, экстрасоматический орган, искусственный интеллект, методология, 
модель, антропоморфизм, мифологизация науки 
 
 
 

ВВЕДЕНИЕ 

Термин "артефакт" имеет несколько значений. 

В экспериментальных науках под артефактом часто понимают нежелательное постороннее воздействие на объект, искажающее результат эксперимента, или результат такого воздействия. В науках, изучающих человека и его деятельность, под 
артефактом понимают любой объект, подвергавшийся воздействию человека.  В  настоящем тексте — это искусственно созданный с определенной целью объект, имеющий заданные физические 
характеристики и знаковое, символическое содержание [1]. Артефакты можно условно разделить  
на две большие группы: объекты, используемые 
для увеличения силовых двигательных и прочих 
телесных возможностей (инструменты), и объекты, используемые для воздействия на внешнюю 
среду для ее трансформации и усовершенствования (объекты культуры). 

Некоторые животные уже в состоянии исполь
зовать для своих нужд подходящие предметы. Как 
зачатки инструментов можно рассматривать палки, которыми они достают предметы из недоступного места, или камни, которые используют для 
разбивания орехов и раковин. Зачатки элементов 
культуры у них — создание различного рода убежищ, гнезд.  

ОСНОВНЫЕ ВИДЫ АРТЕФАКТОВ 

Очевидно, что человеческие артефакты отли
чаются 
принципиально 
большей 
сложностью  

и разнообразием. Уже у древних людей появляются не только приспособленные предметы в качестве инструментов, а специально изготовленные под 
определенную задачу. Среди самых первых инструментов  расколотые куски гальки с острым краем — скребки и резаки. Объекты культуры пополняются новым типом артефактов, связанным с ритуалами как методом общения с духами и потусторонним миром, — обереги и другие предметы 
культа, которые позже и дадут основу тому, что 
сейчас понимают под объектами культуры. Именно находки этих новых типов артефактов дают 
основания антропологам утверждать, что их производители уже относятся к миру людей, а не к животным. По ходу развития человечества инструменты совершенствовались и становились разнообразнее. Появляется специализация — рабочие 
инструменты, медицинские, оружие. За длинную 
историю были не только приобретения, но и потери. Многие культуры исчезали, не оставив описания технологий. Например, до сих пор идут споры 
о том, как без развитой техники можно было выпиливать и шлифовать огромные каменные глыбы 
и возводить из них мегалиты.

стр. 9

И. Б. ПТИЦЫНА 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

12

Исследовательская деятельность является не
обходимым компонентом деятельности человека. 
Среди инструментов формируется особая большая 
группа, предназначенная для увеличения человеческих возможностей при изучении окружающей 
среды, — приборы. История приборов, начиная  
с 
простейших 
измерительных 
инструментов, 

обычно приводится в руководствах по приборостроению [2–6], кроме того, существует довольно 
обширная литература по истории отдельных типов 
приборов. Приборы расширяют возможности сенсорных систем и позволяют наблюдать и регистрировать те параметры объектов, которые недоступны обычному восприятию. 

Чтобы понять, как возникли более сложные ар
тефакты, в том числе и инструменты, нужно обратиться к истокам науки. Новоевропейская наука, 
или то, что называют современной наукой, возникла относительно недавно и характеризуется 
наличием установленных методов исследования  
и системы доказательств [7]. 

ИСТОКИ НАУКИ 

Современная наука возникла из трех основных 

источников. Древнюю науку (натурфилософию) 
часто считают началом. К нему могут быть добавлены источники знаний из древней Индии и арабских стран, а также средневековая схоластика, которая имеет богословское содержание, но сохранила интерес к античным авторам. 

Другой источник — практические навыки ре
месленников, которые передавались из поколения 
в поколение в семье или ремесленной мастерской 
и  изменяли общий уровень знаний. 

Третьим, наиболее интригующим источником, 

была алхимия. Известно, что она дала толчок развитию современной химии [8], но этим ее роль  
не ограничивается. После ее появления исследования стали приобретать современный вид. 

Началась эпоха Возрождения, во время которой 

изменилось мировоззрение людей. Алхимия существовала и раньше, но в этот период она пережила 
свой расцвет, а затем была вытеснена наукой. 
Христианский Бог, прочно занимавший центр картины мира, начал несколько терять свое положение, поначалу совсем незначительно. Появились 
дерзкие умы, которые пытались в чем-то уподобиться Ему. Они хотели не только знать, как Господь сотворил этот мир, познать Его творение,  
но и создать то, что считалось доступным только 
Богу. Они были заняты поисками философского 
камня, который не только превращает другие материалы в золото, но и управляет вопросами жизни и смерти. Он дает вечную молодость и позволяет вырастить в пробирке гомункула — маленького, но живого человека. Многие из тех, кто были 

первыми учеными и заложили основы современной науки, были алхимиками [9]. Самый известный из тех, о ком сохранились достоверные сведения,  это Ньютон, который, однако, при жизни не 
афишировал свои исследования алхимии [10]. 
Практически одновременно ученые начали закладывать рациональные основы науки, ее методологию [11]. 

СВОЙСТВА ИНСТРУМЕНТОВ,  

ИНСТРУМЕНТ КАК ВОПЛОЩЕННАЯ МЫСЛЬ 

Все инструменты, в том числе приборы, были 

созданы для увеличения возможностей человека. 
Инструменты можно рассматривать как искусственно созданные дополнения к человеческим органам — экстрасоматические органы. Производственные инструменты увеличивают физические 
возможности человека (например, молоток, электродрель, токарный станок), а инструменты исследования — возможности органов чувств: например, очки, телескоп, измеритель давления, регистратор колебаний. На протяжении жизни последнего поколения появился новый тип инструментов, 
которые увеличивают умственные способности, — 
компьютеры совокупно с программами, и среди 
них выделяется подгруппа искусственного интеллекта (ИИ). Их история началась с простейших 
приспособлений для счета — абакусов, счетов, 
арифмометров и калькуляторов, а позже они приобрели много новых функций и сейчас используются как отдельные приборы, так и как части экспериментальных установок. Все инструменты 
специализированы, иногда реализуют  большой, 
но ограниченный список функций. Сейчас есть 
большой перечень областей, в которых используются возможности ИИ, и этот список постоянно 
расширяется. Как и любой артефакт, ИИ является 
воплощением какой-то деятельности, направленной 
на решение конкретной задачи. Это реализованная 
в материале модель задачи. При этом сохраняются 
все проблемы моделей, в том числе ограничения 
на выбранные параметры для моделирования, что 
также приводит к необходимости ограничения 
возможностей прибора. 

Результатом работы ИИ являются предпола
гаемые физические явления, такие как появление 
на экране компьютера черно-белых или цветных 
изображений, которые пользователь воспринимает 
как текст или как другие данные, полученные  
в результате реализации алгоритма. Это просто 
физические явления в физическом субстрате,  
а именно результат — это интерпретация этих 
изображений пользователем как итог деятельности 
пользователя совместно с разработчиками и другими создателями алгоритма. ИИ не может оценивать и интерпретировать результат своей работы,

стр. 10