SberDevices представила GigaAM — семейство open-source-моделей машинного обучения для распознавания речи и эмоций

Открытое ПО

Команды разработки сервисов GigaChat и SaluteSpeech в SberDevices представили GigaAM (Giga Acoustic Model) — семейство акустических моделей для русского языка, которые позволяют корректно распознавать речь и эмоции.

GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.

GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями как NeMo-Conformer-RNNT и Whisper-Large-v3, утверждают разработчики.

GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.

Улучшенные версии этих моделей бизнесу доступны на нашей платформе для синтеза и распознавания речи SaluteSpeech API, а физические лица также могут ими воспользоваться в приложении SaluteSpeech App.

CNews Forum 2024 CNews Forum 2024

erid:

Рекламодатель:

ИНН/ОГРН:

byteoilgas_conf 2024 byteoilgas_conf 2024

erid:

Рекламодатель:

ИНН/ОГРН:

LANSOFT: время комплексных бизнес-решений LANSOFT: время комплексных бизнес-решений

erid:

Рекламодатель:

ИНН/ОГРН:

Orion Digital Day Orion Digital Day

erid:

Рекламодатель:

ИНН/ОГРН:

ELMA DAY ELMA DAY

erid:

Рекламодатель:

ИНН/ОГРН: