img03 июня 2024 в 10:14

«Яндекс» создаст мультимодальную нейросетевую модель

Компания «Яндекс» объявила о планах нанять специалистов для разработки мультимодальной модели SpeechGPT. Согласно описанию вакансии, данная технология должна иметь способность работать с текстом и звуком, а также отвечать на запросы, используя оба эти вида данных. Хотя сервисы нейронных сетей «Яндекса» уже могут обрабатывать и речь, и текст, это происходит за счет перевода информации из одного формата в другой. Мультимодальные сети, над созданием которых работает компания, предназначены для более глубокого понимания содержания, включая эмоции и сарказм.

Компания «Яндекс» объявила о планах нанять специалистов для разработки мультимодальной модели SpeechGPT. Согласно описанию вакансии, данная технология должна иметь способность работать с текстом и звуком, а также отвечать на запросы, используя оба эти вида данных. Хотя сервисы нейронных сетей «Яндекса» уже могут обрабатывать и речь, и текст, это происходит за счет перевода информации из одного формата в другой. Мультимодальные сети, над созданием которых работает компания, предназначены для более глубокого понимания содержания, включая эмоции и сарказм.

«Яндекс» несекретно разрабатывает модель SpeechGPT, однако информация о нейросетевой технологии еще не была официально представлена, пишет «Коммерсантъ». Вакансии в компании указывают на поиск инженеров в области машинного обучения для работы над мультимодальной моделью, способной не только анализировать текст и звук, но и решать задачи, связанные с обоими типами данных. Представители «Яндекса» сообщили, что интеграция мультимодальности является актуальной задачей в различных сервисах, включая ассистента «Алиса». Однако на запросы о модели SpeechGPT ответ представители компании не предоставили.

Между пониманием пользовательского мультимодального опыта и разработкой мультимодальных моделей существует разница, отмечает эксперт. В процессе преобразования данных, например, от речи к тексту и обратно для голосовых ассистентов, происходит упрощение информации на каждом этапе, что замедляет обработку и может привести к потере важных деталей. В отличие от этого, мультимодальные модели, такие как GPT-4o от OpenAI, способны учитывать все данные одновременно, без задержек.

Эксперт в области искусственного интеллекта полагает, что «Яндексу» критически важно продолжать разработку в этой сфере, так как данные технологии будут определять будущее развития искусственного интеллекта и ассистентов, включая популярного в России ассистента «Алису».

Тем не менее, некоторые участники рынка сомневаются, что возможности мультимодальных моделей от «Яндекса» смогут конкурировать с технологиями от Google (Gemini) или OpenAI. Это потребует огромных финансовых вложений. Однако учитывая имеющийся опыт «Яндекса» в данной области, затраты на разработку могут быть ощутимо снижены.

Ранее мы писали о том, что «Яндекс» выпустил обновление голосового ассистента «Алиса» и устройств на базе ОС YaOS (ранее «Яндекс ТВ»). Новых функции и возможности уже доступны пользователям в мае на телевизорах от «Яндекса», а также сторонних брендов со встроенной платформой YaOS и «Алисой».

Подписка на рассылку

Подпишитесь на рассылку, чтобы одним из первых быть в курсе новых событий

Я даю согласие на обработку персональных данных