Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Набор данных для машинного обучения отдельных компонентов рекомендательных Сервисов поддержки научно-технической и научно-образовательной деятельности

Название набора данных

Набор данных для машинного обучения отдельных компонентов рекомендательных Сервисов поддержки научно-технической и научно-образовательной деятельности.

Аннотация (описание)

Набор данных содержит 20 000 полнотекстовых научных публикаций на русском языке. Тексты предварительно обработаны: номера страниц, информация об авторах, коды УДК, коды ГРНТИ. Каждый документ сохранён в отдельный текстовый файл с расширением .txt. Имя файла соответствует уникальному идентификатору документа в корпусе. Разметка документов выполнена по рубрикам Государственного рубрикатора научно-технической информации (ГРНТИ) на двух уровнях детализации. Набор данных предназначен для задач автоматической классификации научных текстов, тематического моделирования, информационного поиска и обучения языковых моделей.

Источник данных

Открытые научные публикации на русском языке. Все тексты распространяются в открытом доступе на условиях лицензий Creative Commons.

Язык

Русский.

Объём и структура

Общее количество документов: 20 000.

Объем набора данных: 673 Мб.

Корпус представлен в виде архива (TAR.GZ), содержащего:

  • папку data_ru/ с 20 000 файлов в формате TXT;
  • файл метаданных grnti_dataset.csv с разделителем «;».

Структура CSV‑файла (одна строка – один документ) содержит следующие столбцы:

  • Порядковый номер документа.
  • Относительный путь к текстовому файлу, например data_ru/2000:a8f05fe3079dec2e:d186f4163e0a.txt.
  • Путь к файлу с метаданными (может быть относительным к csv-файлу или абсолютным). Наличие данного столбца требуется для функционирования обработчика датасетов, используемого в классификаторе, но не участвует в процессе классификации. Поэтому значение пустое.
  • grnti_labels – список меток классификации по ГРНТИ в формате

<первый уровень>_<второй уровень>, ...

Пример значения: 6_1,2_15, 58_1.

  • Первая часть до символа «_» – код первого уровня рубрикатора.
  • Вторая часть после «_» – код второго уровня.

Несколько меток перечисляются через запятую без пробелов.

Имя каждого текстового файла соответствует уникальному идентификатору (например 2000:a8f05fe3079dec2e:d186f4163e0a.txt).

Форматы данных

    Текстовые документы: .txt, кодировка UTF‑8.

    Файл метаданных: .csv, разделитель – точка с запятой (;), кодировка UTF‑8.

Схема классификации

Используется Государственный рубрикатор научно-технической информации (ГРНТИ) – иерархическая система, принятая в России для систематизации научных и технических документов. В наборе данных применяются первые два уровня:

    Первый уровень (макрорубрики) – обозначается двузначным числом, например 06 (Информатика).

    Второй уровень (детализация) – двузначное число после точки, например 06.01 (Общие вопросы информатики).

    Формат метки объединяет оба уровня через знак подчёркивания: 06_01. Для документа может быть указано несколько меток (мультилейбл‑разметка).

Обработка данных

Все данные приведены в формат plaintext.

Произведена дополнительная очистка текста:

  • удалены коды УДК,
  • удалены коды ГРНТИ,
  • удалены сноски из колонтитулов,
  • удалены авторы,
  • удалены коды ББК

Лицензия

Набор данных распространяется под лицензией Creative Commons Attribution 4.0 International (CC BY 4.0).

Ключевые слова

научные тексты, полнотекстовый корпус, ГРНТИ, рубрикация, классификация текстов, мультилейбл, естественно-научные тексты, открытые данные, NLP, русский язык

Потенциальные области применения

    Автоматическая рубрикация научных статей.

    Обучение мультиклассовых и мультилейбл‑классификаторов.

    Тематическое моделирование и кластеризация научных текстов.

    Обучение языковых представлений (BERT, GPT) на русскоязычном научном домене.

Технические требования

Для работы с набором рекомендуется:

    Дисковое пространство: около 1 ГБ.

    Инструменты для чтения CSV с нестандартным разделителем (Python pandas, R, LibreOffice Calc).

Версия набора данных

1.0 (финальная).

Ссылка для скачивания

https://cloud.znanium.ru:4444/index.php/s/jjDJTQf2kZYYGQN