Отечественная нейросеть обогнала аналоги от OpenAI и Google по качеству работы с русскоязычным контентом

Вся Россия
  •  © Фото pressfoto, ru.freepik.com
    © Фото pressfoto, ru.freepik.com

Нейросеть A-Vibe победила в тесте MERA, опередив аналоги от OpenAI, Google и Anthropic

О бенчмарке MERA

Бенчмарк (от англ. benchmark — ориентир, эталон) MERA — это российский стандарт оценки языковых моделей. В рамках замера тестируют понимание русского языка и культурного контекста. Проект поддерживает Альянс ИИ, ведущие индустриальные игроки и академические партнеры, которые занимаются исследованием языковых моделей.

По данным теста, A-Vibe лучше аналогичных моделей понимает запросы, генерирует код и поддерживает осмысленный диалог. Технология уже работает в сервисах Авито — например, помогает продавцам писать продающие описания и быстрее договариваться о сделке в мессенджере. До конца года компания планирует добавить ещё 20 новых сценариев, а в будущем может открыть код модели для всех.

Рейтинг MERA показывает, насколько хорошо модель справляется с разными задачами. Познакомиться с рейтингом можно на сайте mera.a-ai.ru. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — результат тестирования реальных людей.

  •  © Скриншот с сайта mera.a-ai.ru
    © Скриншот с сайта mera.a-ai.ru

19% россиян используют нейросети для подготовки резюме:

«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет быстро обрабатывать запросы даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы. Именно обучение небольшой модели под наши нужды позволяет нам закладывать окупаемость инвестиций: Авито планирует вложить в GenAI около 12 млрд рублей, а заработать более 21 млрд рублей к 2028 году», — рассказал старший директор по данным и аналитике Авито Андрей Рыбинцев.

Результаты тестирования A-Vibe 

A-Vibe обошла GPT-4o mini, Gemma 3-27B, Claude 3.5 Haiku, Mistral Large и другие популярные небольшие нейросети. Тестирование включало разнообразные тесты — от базового понимания текста до сложных лингвистических задач.

По данным бенчмарка, A-Vibe обладает следующими преимуществами:

  • генерирует код на 25% лучше Gemini 1.5 с 8 млрд параметров;
  • ведет диалог на 32% точнее Llama 3.1 с 405 млрд параметров;
  • анализирует смысл текста на 23% точнее Claude 3.5 Haiku.

Технические особенности A-Vibe

Авито создал модели A-Vibe и A-Vision на базе открытой модели с ограничениями в работе с русским языком. Ее обучили на данных более чем 100 языков, из которых русский составлял около 1%. Это привело к плохому пониманию и генерации текста на русском.

Разработчики «русифицировали» модель — заменили стандартный токенизатор на собственный, который умеет работать с русским языком. Мера дала два ключевых преимущества:

  • модель стала работать быстрее — обработка русского текста ускорилась до двух раз;
  • качество повысилось — понимание и генерация текста стали намного лучше.

Благодаря этим изменениям A-Vibe стала лучшей в своем классе моделью для работы с русскоязычным контентом по независимым тестам MERA. При этом A-Vibe может одновременно обрабатывать до 32 тысяч текстовых фрагментов (токенов) — это позволяет ей эффективно работать с объемными текстами.

«Мы рассматриваем возможность выпуска модели в открытый доступ, что станет нашим вкладом в развитие российского рынка ИИ. Это поможет малому бизнесу внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий. Для нас это возможность получить ценную обратную связь от рынка и улучшить наши модели», — отметила руководитель разработки больших языковых моделей «Авито» Анастасия Рысьмятова.


Лента новостей