Корпусная лингвистика 2015

Международная научная конференция «Корпусная лингвистика-2015» состоится в Санкт-Петербурге 22-26 июня 2015 г.

Кафедра математической лингвистики Филологического факультета Санкт-Петербургского государственного университета (СПбГУ) совместно с Институтом лингвистических исследований (ИЛИ РАН) и кафедрой образовательных технологий в филологии Российского государственного педагогического университета им. А.И. Герцена (РГПУ) приглашают принять участие в седьмой международной научной конференции «Корпусная лингвистика-2015».

Тематика конференции охватывает следующие направления: Продолжение →

Осетинский национальный корпус

В 2011 году в свободном доступе открылся Осетинский национальный корпус.

База текстов разных авторов с принятой в корпусной лингвистике разметкой (грамматические категории и полексемный перевод) позволяет находить слова в определённой грамматической форме, уточняя их место в предложении и так далее. Это незаменимый инструмент как для лингвистов-исследователей, так и для простых учащихся.

«Даже в таком минимальном объеме, как сейчас, наш корпус среди иранских языков не знает аналогов как по объему (самый известный корпус — это персидский Bijan на основе газеты „Хамшахри“, однако у них меньше 3 млн словоупотреблений), так и по качеству разобранности», — комментирует Арсений Павлович Выдрин, кандидат филологических наук, координатор работы по составлению корпуса. Ни в одном из имеющихся корпусов иранских языков нет, например, одновремено поморфемного разбора, грамматических помет, переводов лексем, не реализованы удобные системы поиска.

В своём нынешнем виде Осетинский национальный корпус насчитывает более 5 миллионов словоупотреблений (то есть общая длина всех текстов — более 5 миллионов слов), поддержанная Российской академией наук работа над его расширением продолжается.

Ссылки по теме: