Preview

Вестник НИЯУ МИФИ

Расширенный поиск

Решение задачи авторского профилирования русскоязычных текстов при помощи спайковых нейронных сетей с использованием нового метода кодирования текстовых данных

https://doi.org/10.56304/S2304487X21060092

Аннотация

   В данной работе исследуется возможность применения спайковых нейронных сетей к решению задачи авторского профилирования текстов на русском языке на примере задач определения пола и возраста автора, а также задачи различения текстов, сгенерированных алгоритмически и написанных человеком. Разрабатывается метод преобразования текстов, закодированных последовательностями векторов, полученных при помощи языковой модели FastText, в спайковые последовательности. В рамках поставленной задачи используются два корпуса документов, первый из которых характеризуется большим количеством коротких текстов, второй же – в четыре раза меньшим количеством текстов существенно большей длины. Такой выбор корпусов позволяет сделать выводы об ограничениях и возможностях предложенного способа кодирования. Проведенные эксперименты показывают, что предложенный метод кодирования текстов в сочетании с используемой в задаче спайковой топологией успешно решает поставленные перед ней задачи: полученные точности соответствуют baseline-модели (LinearSVC) на обоих корпусах по метрике f1-score.

Об авторах

А. Г. Сбоев
НИЦ “Курчатовский институт”; Национальный исследовательский ядерный университет “МИФИ”
Россия

123182

115409

Москва



Р. Б. Рыбка
НИЦ “Курчатовский институт”
Россия

123182

Москва



Ю. А. Давыдов
НИЦ “Курчатовский институт”
Россия

123182

Москва



Д. С. Власов
НИЦ “Курчатовский институт”
Россия

123182

Москва



Список литературы

1. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information // Transactions of the Association for Computational Linguistics, 2017. V. 5. P. 135–146.

2. Сбоев А. Г. Нейросетевая модель для перевода текстовых команд мобильному роботу на естественном русском языке в семиотический формат RDF / А. Г. Сбоев, Ю. А. Давыдов, Р. Б. Рыбка // Cб. научных трудов VII Международной конференции “Лазерные, плазменные исследования и технологии-ЛАПЛАЗ-2021”. – Москва, 2021. – С. 138–139.

3. Abbott L. F. Lapicque’s introduction of the integrate-and-fire model neuron (1907) // Brain research bulletin, 1999. V. 50 (5–6). P. 303–304.

4. Sjöström J., Wulfram G. Spike-timing dependent plasticity // Scholarpedia, 2010. V. 5 (2). P. 1362.

5. Diehl P. U., Cook M. Unsupervised learning of digit recognition using spike-timing-dependent plasticity // Frontiers in computational neuroscience, 2015. V. 9. P. 99.

6. Hazan H., Saunders D., Khan H., Patel D. et al. Bindsnet: A machine learning-oriented spiking neural networks library in Python // Frontiers in Neuroinformatics, 2018. V. 12. P. 89.

7. Pedregosa F., Varoquaux G., Gramfort A. et al. Scikitlearn: Machine learning in Python // Journal of Machine Learning Research, 2011. V. 12. P. 2825–2830.

8. Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need. / 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017.


Рецензия

Для цитирования:


Сбоев А.Г., Рыбка Р.Б., Давыдов Ю.А., Власов Д.С. Решение задачи авторского профилирования русскоязычных текстов при помощи спайковых нейронных сетей с использованием нового метода кодирования текстовых данных. Вестник НИЯУ МИФИ. 2021;10(6):523-528. https://doi.org/10.56304/S2304487X21060092

For citation:


Sboev A.G., Rybka R.B., Davydov Y.A., Vlasov D.S. Solution of the Problem of Author’s Profiling of Russian Texts Using Spike Neural Networks and a New Method of Coding Text Data. Vestnik natsional'nogo issledovatel'skogo yadernogo universiteta "MIFI". 2021;10(6):523-528. (In Russ.) https://doi.org/10.56304/S2304487X21060092

Просмотров: 153


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2304-487X (Print)