08 апреля 2025 в 19:54

Российская языковая модель обогнала OpenAI и Google в бенчмарке Mera

Большая языковая модель A-Vibe от «Авито» заняла первое место среди облегчённых моделей (до 10 млрд параметров) в независимом российском бенчмарке Mera, обойдя международные аналоги от OpenAI, Google и Anthropic. Об этом сообщила пресс-служба компании.

Денис Чупров

Редактор

Денис Чупров

Редактор

По словам разработчиков, A-Vibe лучше аналогичных моделей понимает запросы, генерирует код и поддерживает осмысленный диалог. Технология уже работает в сервисах Авито, например, помогает продавцам писать продающие описания и быстрее договариваться о сделке в мессенджере. До конца года компания планирует добавить ещё 20 новых сценариев, а в будущем может открыть код модели для всех.

«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы. Именно обучение небольшой модели под наши нужды позволяет нам закладывать окупаемость инвестиций: "Авито" планирует вложить в GenAI около 12 млрд рублей, а заработать более 21 млрд рублей к 2028 году», — отметил старший директор по данным и аналитике «Авито» Андрей Рыбинцев.

A-Vibe обошла такие модели, как GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные небольшие нейросети. Тестирование включало задачи различной сложности — от базового понимания текста до продвинутых лингвистических задач, требующих глубокой работы с контекстом. В компании рассказали о некоторых результатах тестирования. Так генерация кода на 25 % лучше Gemini 1.5 с 8 миллиардами параметров, ведение диалога на 32 % точнее Llama 3.1 с 405 миллиардами параметров, а способность анализировать смысл текста на 23 % точнее Claude 3.5 Haiku.

Команда «Авито» разработала собственные генеративные модели A-Vibe и A-Vision, использовав для обучения на начальном этапе открытую модель. Однако она имела ограничения в работе с русским языком — модель обучалась на данных более чем 100 языков, при этом русский составлял менее 1 % общего объема данных. Из-за этого модель плохо понимала и генерировала текст на русском. Разработчики модифицировали и провели «русификацию» модели, заменив стандартный токенизатор на собственный, который умеет работать с русским языком. Это привело к ускорению работы до 2-х раз по сравнению с оригинальной моделью и улучшению понимания и генерации текста на русском.

Благодаря этим изменениям A-Vibe стала лучшей, в своём классе, моделью для работы с русскоязычным контентом согласно независимым тестам Mera. При этом A-Vibe может одновременно обрабатывать до 32 тысяч текстовых фрагментов (токенов) — это позволяет ей эффективно работать с объёмными текстами.

«Мы рассматриваем возможность выпуска модели в открытый доступ, что станет нашим вкладом в развитие российского рынка ИИ. Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели», — комментирует руководитель разработки больших языковых моделей «Авито» Анастасия Рысьмятова.

Mera — открытый инструкционный бенчмарк для оценки больших языковых моделей для русского языка. На сайте представлен рейтинг моделей по качеству решения фиксированного набора задач, составленных экспертами, со стандартизированными конфигурациями промптов и параметров. Проект поддерживает Альянс ИИ, ведущие индустриальные игроки и академические партнёры, которые занимаются исследованием языковых моделей.

Ранее «Телеспутник» узнал у экспертов, где, как и зачем в медиасфере применяется ИИ. Нейросети глубоко интегрировались в нашу жизнь. Их возможности позволяют существенно облегчить некоторые процессы, чем пользуются производители контента.

Понравилась статья?

Чтобы оставить комментарий необходимо авторизоваться.

Российская языковая модель обогнала OpenAI и Google в бенчмарке Mera

Читайте также

Фоторепортаж: XII форум «ИТ-Диалог» стартовал в Петербурге

От «трубы» к ИТ-логике: как телеком-рынок переходит к новой формуле

Похожие материалы

От «трубы» к ИТ-логике: как телеком-рынок переходит к новой формуле

На рынке телевизоров сменились лидеры: россияне присмотрелись к отечественным брендам

Связь в отдаленных районах и оборонный потенциал: эксперт рассказал о вариантах применения «Рассвета» с аэростатами

Алексей Роговцев (МТС Геоэффект) о способности аналитики геоданных помочь турбизнесу

Фоторепортаж: XII форум «ИТ-Диалог» стартовал в Петербурге

Популярные статьи

Эксперт: борьба с Telegram превратилась в бесконечную технологическую гонку с ущербом для легитимных сервисов

В России планируют создать группировку радиолокационных спутников-кубсатов

Наталья Касперская: блокировки VPN создают критические риски для разработки ПО

Подписка на рассылку

Выбор редакции

В GS Group заявили о необходимости ужесточить ответственность за псевдолокализацию

Алексей Стуров (АКС): реформа связи может заставить малых операторов уйти в тень

Private Cloud ренессанс II: консолидация, российский ИИ и ставка на безопасность вместо гонки объёмов

Большие данные — большому городу: как работает «цифровой мозг» Петербурга

«Робот в кабине»: как в Петербурге развивается беспилотный общественный транспорт

Наталья Иванова-Достоевская («Студия и Достоевская»): мы пережили все стадии принятия искусственного интеллекта

Не замена, а дополнительный канал: почему «Первый ТВЧ» делает ставку на «Макс», но не прощается с Telegram

Всем войти в сумрак: кабельные операторы готовятся уйти в тень из-за реформы Минцифры

Отечественный производитель ЭКБ проигрывает в госзакупках

Ответят рублём: когда грозит штраф за нарушение эксплуатационной дисциплины в КИИ