24 июля 2025 в 11:02

VK выложила в открытый доступ нейросеть для обработки разговорного русского языка

Российская технологическая компания VK обновила и выложила в открытый доступ модель RuModernBERT. Она предназначена для обработки естественного русского языка и уже внедрена в продукты и сервисы, сообщили «Телеспутнику» в компании.

Денис Чупров

Редактор

Денис Чупров

Редактор

По словам разработчиков, она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру. Инженеры могут использовать её для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдёт наиболее релевантную информацию, видео, товары или документы.

RuModernBERT была обучена на 2 трлн токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Для всех этапов обучения были использованы разные источники данных, в том числе книги, статьи, посты и комментарии в социальных сетях, что позволяет адаптировать её для работы с современным текстом и учитывать разговорную речь.

RuModernBERT доступна в нескольких версиях: на 150 миллионов параметров и облегчённая модель на 35 миллионов параметров. Это позволит инженерам выбирать вариант, отвечающий их задачам. Также обновлены две дополнительные версии модели: USER и USER2. Они помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 есть специальная технология, которая позволяет сократить объем данных почти без потери точности.

Благодаря современной архитектуре RuModernBERT работает быстрее аналогов: обучение и развёртывание на конечных устройствах на 10–20 %, обработка данных —происходит в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT. При оценке на валидационном датасете модель RuModernBERT показала лучшие результаты в области обработки естественного русского языка, чем существующие аналоги. Все версии модели доступны на платформе для машинного обучения и искусственного интеллекта Hugging Face, добавили в компании.

Ранее «Телеспутник» писал, что компания объявила о запуске инициативы OpenVK, в рамках которой будет публиковаться программное обеспечение с открытым исходным кодом, в частности планируется выкладывать проекты в нескольких направлениях, включая ИТ-системы, инструменты и библиотеки для разработчиков, а также модели искусственного интеллекта.

Понравилась статья?

Чтобы оставить комментарий необходимо авторизоваться.

VK выложила в открытый доступ нейросеть для обработки разговорного русского языка

Читайте также

M2M в банковской сфере: как новые технологии меняют бизнес

Российские печатные платы получили поддержку

Похожие материалы

Российские печатные платы получили поддержку

Глава «Газпром-медиа холдинга» назвал окончательные сроки объединения Rutube с Premier

Сложный квест: операторы объяснили, как мигрантам легально получить сим-карту

У 3 из 4 крупнейших мобильных операторов в России нет безлимита на MAX

M2M в банковской сфере: как новые технологии меняют бизнес

Популярные статьи

Эксперт: борьба с Telegram превратилась в бесконечную технологическую гонку с ущербом для легитимных сервисов

Наталья Касперская: блокировки VPN создают критические риски для разработки ПО

Безлимит возвращается: «большая четверка» начала предлагать мобильный интернет без ограничения по объему трафика

Подписка на рассылку

Выбор редакции

Магия живого театра: дан старт новому этапу проекта «Золотой фонд театральных постановок России»

Private Cloud ренессанс II: консолидация, российский ИИ и ставка на безопасность вместо гонки объёмов

Эксперт: «Ожидания пользователей растут быстрее возможностей ИИ-моделей»

В GS Group заявили о необходимости ужесточить ответственность за псевдолокализацию

Алексей Бырдин («Интернет-видео»): дискредитация ценностей – неизведанная область для юристов

Псевдолокализация ЭКБ: как контрафакт подрывает российский рынок электроники

Олег Грищенко («Ростелесеть»): многие требования для операторов станут невыполнимыми

ИИ-тоги недели: японцы инвестируют в Европу, Стэнфордский индекс обновлён, ИИ как ключевая тема ПМЭФ и новый урок для школьников

Взболтать, но не смешивать. Бондинг трафика как спасение бизнеса в условиях блокировок

«Ростелесеть»: 80% операторов кабельного ТВ находятся в зоне риска