Решение задачи авторского профилирования русскоязычных текстов при помощи спайковых нейронных сетей с использованием нового метода кодирования текстовых данных
https://doi.org/10.56304/S2304487X21060092
Аннотация
В данной работе исследуется возможность применения спайковых нейронных сетей к решению задачи авторского профилирования текстов на русском языке на примере задач определения пола и возраста автора, а также задачи различения текстов, сгенерированных алгоритмически и написанных человеком. Разрабатывается метод преобразования текстов, закодированных последовательностями векторов, полученных при помощи языковой модели FastText, в спайковые последовательности. В рамках поставленной задачи используются два корпуса документов, первый из которых характеризуется большим количеством коротких текстов, второй же – в четыре раза меньшим количеством текстов существенно большей длины. Такой выбор корпусов позволяет сделать выводы об ограничениях и возможностях предложенного способа кодирования. Проведенные эксперименты показывают, что предложенный метод кодирования текстов в сочетании с используемой в задаче спайковой топологией успешно решает поставленные перед ней задачи: полученные точности соответствуют baseline-модели (LinearSVC) на обоих корпусах по метрике f1-score.
Ключевые слова
Об авторах
А. Г. СбоевРоссия
123182
115409
Москва
Р. Б. Рыбка
Россия
123182
Москва
Ю. А. Давыдов
Россия
123182
Москва
Д. С. Власов
Россия
123182
Москва
Список литературы
1. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information // Transactions of the Association for Computational Linguistics, 2017. V. 5. P. 135–146.
2. Сбоев А. Г. Нейросетевая модель для перевода текстовых команд мобильному роботу на естественном русском языке в семиотический формат RDF / А. Г. Сбоев, Ю. А. Давыдов, Р. Б. Рыбка // Cб. научных трудов VII Международной конференции “Лазерные, плазменные исследования и технологии-ЛАПЛАЗ-2021”. – Москва, 2021. – С. 138–139.
3. Abbott L. F. Lapicque’s introduction of the integrate-and-fire model neuron (1907) // Brain research bulletin, 1999. V. 50 (5–6). P. 303–304.
4. Sjöström J., Wulfram G. Spike-timing dependent plasticity // Scholarpedia, 2010. V. 5 (2). P. 1362.
5. Diehl P. U., Cook M. Unsupervised learning of digit recognition using spike-timing-dependent plasticity // Frontiers in computational neuroscience, 2015. V. 9. P. 99.
6. Hazan H., Saunders D., Khan H., Patel D. et al. Bindsnet: A machine learning-oriented spiking neural networks library in Python // Frontiers in Neuroinformatics, 2018. V. 12. P. 89.
7. Pedregosa F., Varoquaux G., Gramfort A. et al. Scikitlearn: Machine learning in Python // Journal of Machine Learning Research, 2011. V. 12. P. 2825–2830.
8. Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need. / 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017.
Рецензия
Для цитирования:
Сбоев А.Г., Рыбка Р.Б., Давыдов Ю.А., Власов Д.С. Решение задачи авторского профилирования русскоязычных текстов при помощи спайковых нейронных сетей с использованием нового метода кодирования текстовых данных. Вестник НИЯУ МИФИ. 2021;10(6):523-528. https://doi.org/10.56304/S2304487X21060092
For citation:
Sboev A.G., Rybka R.B., Davydov Y.A., Vlasov D.S. Solution of the Problem of Author’s Profiling of Russian Texts Using Spike Neural Networks and a New Method of Coding Text Data. Vestnik natsional'nogo issledovatel'skogo yadernogo universiteta "MIFI". 2021;10(6):523-528. (In Russ.) https://doi.org/10.56304/S2304487X21060092