Большие языковые модели: расширение возможностей с помощью аудиокодировщика

Модели больших языков (LLM) становятся все более популярными с момента появления ChatGPT от OpenAI. Эти модели превосходно справляются с различными задачами, такими как ответы на вопросы, обобщение текста, переводы на языки и многое другое. LLM построены на подобластях искусственного интеллекта, включая обработку естественного языка, понимание естественного языка, компьютерное зрение и другие.

LLM тренируются, предсказывая следующее слово в огромных объемах текстовых данных. Такое обучение позволяет им кодировать значительный объем знаний о мире в своих нейронных сетях. В результате LLM полезны для решения широкого круга задач.

Недавние исследования продвинули возможности LLM на шаг вперед, включив в модель аудиокодер. Это позволяет LLM выполнять задачи автоматического распознавания речи (ASR) и переводить устную речь в текст. Путем непосредственной интеграции представлений аудиоданных в существующие встраивания текстовых токенов LLM получает возможности распознавания речи, аналогичные его текстовому аналогу.

Исследовательская группа продемонстрировала эффективность этого подхода, проанализировав выходные данные аудиокодировщика и подтвердив точное сопоставление встраивания аудио с соответствующими текстовыми токенами. Команда использовала набор данных Multilingual LibriSpeech (MLS) для оценки и обнаружила, что скорректированный LLM, известный как LLaMA-7B, превосходит одноязычные базовые показатели на 18% в задачах распознавания голоса.

Помимо оценки эффективности, в исследовании также изучались другие аспекты расширенной LLM. Испытания по абляции показали, что LLM по-прежнему может хорошо выполнять многоязычные задачи ASR, даже если он заморожен во время обучения, без изменения его параметров.

Команда также исследовала влияние масштабирования аудиокодера и настройки параметров, связанных с разделением звука. Эти испытания были направлены на повышение эффективности и результативности системы ASR. Результаты показали, что LLM могут обрабатывать длинные аудиовходы даже при использовании более крупных аудиокодеров или более длинных шагов.

В целом, исследование демонстрирует перспективность использования LLM с аудиокодировщиками для расширения возможностей многоязычного ASR. Благодаря достижениям в области обработки звука, LLM могут эффективно и результативно решать широкий спектр задач, связанных с аудио.