ivdon3@bk.ru
В статье представлены существующие методы уменьшения размерности данных для обучения машинных моделей естественного языка. Вводятся понятия векторизации текста и слоформенного эмбеддинга. Формируется задача классификации текста. Формируются этапы обучения классификатора. Проектируется классифицирующая нейронная сеть. Проводится серия экспериментов на определение влияния уменьшения размерности словоформенных эмбеддингов на качество классификации текста. Сравниваются результаты оценки работы обученных классификаторов.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, классификация текста, уменьшение размерности данных, классификатор
В статье представлено краткое описание существующих методов векторизации текстов на естественном языке. Описывается оценка методом определения похожести слов. Проводится сравнительный анализ работы нескольких моделей векторизаторов. Описывается процесс подбора данных для оценки. Сравниваются результаты оценки работы моделей.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, семантическая близость, корреляция