Разработка размеченного набора русскоязычных текстов для анализа эмоций по модели Роберта Плутчика
Аннотация
Дата поступления статьи: 15.02.2025Целью исследования является повышение уровня конкретизации сентимента в рамках анализа тональности русскоязычных текстов путем разработки датасета с обширным набором эмоциональных категорий. В работе рассмотрены основные методы сентимент-анализа и основные эмоциональные модели. Разработана и описана программная система для децентрализации разметки данных. Новизна данной работы заключается в том, что для определения эмоциональной окраски русскоязычных текстов впервые применяется эмоциональная модель, которая содержит больше 8 эмоциональных классов, а именно модель Роберта Плутчика. В итоге был разработан новый датасет, предназначенный для исследования и анализа эмоций. Полученный корпус данных состоит из 24435 уникальных записей, размеченных по 32 классам эмоций, что делает его одним из наиболее разнообразных и детализированных наборов данных в данной области. По полученному датасету обучена нейронная сеть, которая определяет набор эмоций автора при написании им текста. Полученный датасет предоставляет возможность для проведения дальнейших исследований в данной области. Одной из перспективных задач является повышение эффективности нейронных сетей, обученных на данном датасете.
Ключевые слова: сентимент, анализ, модель, Роберт Плутчик, эмоции, разметка, текст
.