Набор данных для машинного обучения отдельных компонентов рекомендательных Сервисов поддержки научно-технической и научно-образовательной деятельности
Название набора данных
Набор данных для машинного обучения отдельных компонентов рекомендательных Сервисов поддержки научно-технической и научно-образовательной деятельности.
Аннотация (описание)
Набор данных содержит 20 000 полнотекстовых научных публикаций на русском языке. Тексты предварительно обработаны: номера страниц, информация об авторах, коды УДК, коды ГРНТИ. Каждый документ сохранён в отдельный текстовый файл с расширением .txt. Имя файла соответствует уникальному идентификатору документа в корпусе. Разметка документов выполнена по рубрикам Государственного рубрикатора научно-технической информации (ГРНТИ) на двух уровнях детализации. Набор данных предназначен для задач автоматической классификации научных текстов, тематического моделирования, информационного поиска и обучения языковых моделей.
Источник данных
Открытые научные публикации на русском языке. Все тексты распространяются в открытом доступе на условиях лицензий Creative Commons.
Язык
Русский.
Объём и структура
Общее количество документов: 20 000.
Объем набора данных: 673 Мб.
Корпус представлен в виде архива (TAR.GZ), содержащего:
- папку data_ru/ с 20 000 файлов в формате TXT;
- файл метаданных grnti_dataset.csv с разделителем «;».
Структура CSV‑файла (одна строка – один документ) содержит следующие столбцы:
- Порядковый номер документа.
- Относительный путь к текстовому файлу, например data_ru/2000:a8f05fe3079dec2e:d186f4163e0a.txt.
- Путь к файлу с метаданными (может быть относительным к csv-файлу или абсолютным). Наличие данного столбца требуется для функционирования обработчика датасетов, используемого в классификаторе, но не участвует в процессе классификации. Поэтому значение пустое.
- grnti_labels – список меток классификации по ГРНТИ в формате
<первый уровень>_<второй уровень>, ...
Пример значения: 6_1,2_15, 58_1.
- Первая часть до символа «_» – код первого уровня рубрикатора.
- Вторая часть после «_» – код второго уровня.
Несколько меток перечисляются через запятую без пробелов.
Имя каждого текстового файла соответствует уникальному идентификатору (например 2000:a8f05fe3079dec2e:d186f4163e0a.txt).
Форматы данных
Текстовые документы: .txt, кодировка UTF‑8.
Файл метаданных: .csv, разделитель – точка с запятой (;), кодировка UTF‑8.
Схема классификации
Используется Государственный рубрикатор научно-технической информации (ГРНТИ) – иерархическая система, принятая в России для систематизации научных и технических документов. В наборе данных применяются первые два уровня:
Первый уровень (макрорубрики) – обозначается двузначным числом, например 06 (Информатика).
Второй уровень (детализация) – двузначное число после точки, например 06.01 (Общие вопросы информатики).
Формат метки объединяет оба уровня через знак подчёркивания: 06_01. Для документа может быть указано несколько меток (мультилейбл‑разметка).
Обработка данных
Все данные приведены в формат plaintext.
Произведена дополнительная очистка текста:
- удалены коды УДК,
- удалены коды ГРНТИ,
- удалены сноски из колонтитулов,
- удалены авторы,
- удалены коды ББК
Лицензия
Набор данных распространяется под лицензией Creative Commons Attribution 4.0 International (CC BY 4.0).
Ключевые слова
научные тексты, полнотекстовый корпус, ГРНТИ, рубрикация, классификация текстов, мультилейбл, естественно-научные тексты, открытые данные, NLP, русский язык
Потенциальные области применения
Автоматическая рубрикация научных статей.
Обучение мультиклассовых и мультилейбл‑классификаторов.
Тематическое моделирование и кластеризация научных текстов.
Обучение языковых представлений (BERT, GPT) на русскоязычном научном домене.
Технические требования
Для работы с набором рекомендуется:
Дисковое пространство: около 1 ГБ.
Инструменты для чтения CSV с нестандартным разделителем (Python pandas, R, LibreOffice Calc).
Версия набора данных
1.0 (финальная).