Осетинский национальный корпус

В 2011 году в свободном доступе открылся Осетинский национальный корпус.

База текстов разных авторов с принятой в корпусной лингвистике разметкой (грамматические категории и полексемный перевод) позволяет находить слова в определённой грамматической форме, уточняя их место в предложении и так далее. Это незаменимый инструмент как для лингвистов-исследователей, так и для простых учащихся.

«Даже в таком минимальном объеме, как сейчас, наш корпус среди иранских языков не знает аналогов как по объему (самый известный корпус — это персидский Bijan на основе газеты „Хамшахри“, однако у них меньше 3 млн словоупотреблений), так и по качеству разобранности», — комментирует Арсений Павлович Выдрин, кандидат филологических наук, координатор работы по составлению корпуса. Ни в одном из имеющихся корпусов иранских языков нет, например, одновремено поморфемного разбора, грамматических помет, переводов лексем, не реализованы удобные системы поиска.

В своём нынешнем виде Осетинский национальный корпус насчитывает более 5 миллионов словоупотреблений (то есть общая длина всех текстов — более 5 миллионов слов), поддержанная Российской академией наук работа над его расширением продолжается.

Ссылки по теме:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *