Научные труды

Бадмаева Л. Д.
О РАСШИРЕНИИ КОРПУСА БУРЯТСКОГО ЯЗЫКА // БАНЗАРОВСКИЕ ЧТЕНИЯ: материалы международной научной конференции, посвященной 200-летию со дня рождения Д. Банзарова и 90-летию БГПИ — БГУ. В 2 ч. Ч. I (30.03.2022 – 31.03.2022, Улан-Удэ). Научный редактор: В. В. Номогоева, Ответственный редактор: О. Н. Полянская, Рецензент: Л. Б. Жабаева, Т. И. Юсупова, - Улан-Удэ: Издательство Бурятский государственный университет, 2022. - С. 227-229.
О РАСШИРЕНИИ КОРПУСА БУРЯТСКОГО ЯЗЫКА
ON EXPANSION OF THE BURYAT LANGUAGE CORPUS
Сотрудники ИМБТ СО РАН Л. Д. Бадмаева, Ю. Д. Абаева, Г. Н. Чимитдоржи- ева, О. С. Ринчинов, выполнившие работы по контракту и договору, сердечно благодарны Т. А. Архангельскому (Университет Гамбурга, Германия) за постоянную поддержку на высо- ком профессиональном уровне при обновлении и функционировании бурятского корпуса; С. А. Крылову (Институт востоковедения РАН, Москва) за ценные консультации при подго- товке материалов.
811.512.31, 81’33  10.18101/978-5-9793-1709-0-227-229
В статье описаны работы по обновлению корпуса бурятского языка в 2021 г. Важнейшими результатами проделанных работ являются: база данных текстов объемом более 400 тыс. слово-употреблений; увеличение жанрового разнообразия корпуса за счет фольклорных текстов; обновленный корпус бурятского языка на усовершенствованной платформе Цакорпус объемом 2,8 млн словоупотреблений; дополнительные интерфейсы на бурятском и английском языках; увеличение морфологической разметки словоформ корпуса до 76%.



The article deals with the description of works on updating the Buryat language corpus. The corpus was updated to 2.8 million word usages. The morphological word form tagging of the corpus has been increased to 76%.

бурятский язык, корпусная лингвистика, база данных, текст, метаразметка, морфологическая разметка.
the Buryat language, corpus linguistics, database, text annotation, morphological tagging.
Архангельский Т. А. Интернет-корпуса финно-угорских языков России // Ежегодник финно-угорских исследований / ФГБОУ ВО »Удмуртский государственный университет». 2019. Т. 13, № 3. С. 528–537.

Богоявленская Ю. В. Репрезентативность лингвистического корпуса: метод верификации достоверности полученных данных // Политическая лингвистика. 2016. № 4 (58). С. 163–166.

Бурятский корпус. URL: // http://web-corpora.net/BuryatCorpus/search/?interface_language=ru (дата обращения: 02.02.2022).

Корпус бурятского языка. URL//: http://buryat.web-corpora.net/index.html (дата обращения: 02.02.2022).

НКРЯ — Национальный корпус русского языка. URL: // https://ruscorpora.ru/new/ (дата обращения: 02.02.2022).
Статья