В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках
,_interior_77.jpg)
Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.
По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке.
В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.
Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).
Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов, во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.
Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.
Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.
Ульяна Петрунина
«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.
Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны.
Нина Здорова
«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.
В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.
Здорова Нина Станиславовна
Вам также может быть интересно:
Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026
Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.
НИУ ВШЭ установил станцию «Геоскана» для космических исследований в Индийском технологическом институте Бомбея
На территории Индийского технологического института Бомбея (IIT Bombay) установили российскую наземную станцию для приема спутниковых данных СОНИКС. Разработка компании «Геоскан» станет частью проекта зеркальной лаборатории Высшей школы экономики и одного из ведущих университетов Индии.
ВШЭ и Positive Technologies оценят последствия кибератак на бизнес и государство
Институт мировой военной экономики и стратегии НИУ ВШЭ совместно с компанией Positive Technologies объявляет о запуске междисциплинарного научно-исследовательского конкурса «Разработка моделей прогнозирования и оценки последствий кибератаки». Молодые ученые смогут предложить свои идеи, модели и подходы к анализу социальных, экономических и иных эффектов от реализованных киберугроз. Грантовый фонд конкурса составит 3 млн рублей.
МИЭМ ВШЭ и МТС запускают мастерскую по инновационным решениям в сетях связи
Московский институт электроники и математики им. А.Н. Тихонова ВШЭ и МТС запускают совместную мастерскую, в которой студенты будут работать на стыке инженерии сетей связи, анализа данных и цифровых технологий. Совместный проект подразумевает формат практического обучения, где студенты смогут решать реальные задачи индустрии вместе с инженерами компании и специалистами МИЭМ.
«Думать о будущем — сверхусилие»: в ИСИЭЗ обсудили возможности и вызовы корпоративного форсайта
Поиск новых точек роста и снижение неопределенности перед крупными решениями — основные задачи, которые компании стремятся реализовать с помощью форсайта. Среди ключевых вызовов стратегического прогнозирования — высокая степень непредсказуемости будущего. К таким выводам пришли участники круглого стола с ведущими российскими компаниями «Технологии управления будущим», который прошел в ИСИЭЗ 1 апреля 2026 года.
«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»
Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».
Как адаптироваться к жаре и наводнениям
Разработанное экспертами и партнерами факультета географии и геоинформационных технологий НИУ ВШЭ руководство по адаптации к изменениям климата дает практические рекомендации по системному управлению адаптацией к изменениям климата и природными рисками, которые оказывают значительное влияние на экономику и качество жизни людей. Одновременно авторы предлагают современные технологии, которые способны эффективно справляться с угрозами, вызванными изменениями климата, и снижать негативные последствия опасных природных явлений.
В НИУ ВШЭ показали антропоморфного робота-курьера
С 1 по 3 апреля прошел IV Фестиваль робототехники, главным организатором которого стал факультет компьютерных наук НИУ ВШЭ. Одним из ключевых событий фестиваля стала презентация антропоморфного робота-курьера Аркуса. Разработку представил Институт робототехнических систем, созданный НИУ ВШЭ совместно с Группой компаний «ЭФКО».
Как формируется новая профессия специалиста по безопасности систем машинного обучения
Онлайн-кампус НИУ ВШЭ запускает новую онлайн-магистратуру «Информационная безопасность систем искусственного интеллекта», посвященную подготовке специалистов по защите систем машинного обучения. Программа ориентирована на одну из самых быстро формирующихся профессиональных ниш — безопасность моделей ИИ и инфраструктуры их эксплуатации.
«Для нас большая честь быть партнерами»
В конце марта состоялась официальная встреча делегации Высшей школы экономики НИУ ВШЭ с делегацией Ханойского государственного университета (ХГУ), Правительства Социалистической Республики Вьетнам и Посольства Вьетнама в РФ. Участники обсудили ключевые точки взаимодействия, которые послужат укреплению связей не только между университетами, но и между странами.


