Россияне выложили в открытый доступ исходный код мультимодального ИИ

ПО Свободное ПО Софт Техника Открытое ПО
, Текст: Антон Денисенко

Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.


Опубликован код OmniFusion

Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.

OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.

На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.

Ранее издание CNews уже сообщало о разрабтке. Например, с помощью ИИ можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.

Исходный код российской мультимодальной ИИ-модели опубликован в открытом доступе

На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.

В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices.

AIRI

Научно-исследовательский институт ИИ (AIRI), ранее имел название Институт ИИ Сбербанка – российская автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института - создание универсальных систем ИИ для решения задач реального мира.

В декабре 2020 г. глава Сбербанка Герман Греф анонсировал открытие первого в России института ИИ. Образовательное учреждение заработает в Москве в январе 2021 г. Греф отмечал, что экосистемы банка ведут более тысячи исследовательских проектов в области ИИ, и на каждые 15 руб., проинвестированных в развитие команд Data Science, генерируется дополнительный доход в 100 руб. На 2022 г. более 90 научных сотрудников задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.

Модели искусственного интеллекта

ИИ-модель представляет собой программу, которая была обучена на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным, чтобы достичь тех задач или результатов, на которые они были запрограммированы. Проще говоря, ИИ-модель определяется ее способностью автономно принимать решения или делать прогнозы, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ стали программы для игры в шашки и шахматы в 1950-х г. Модели позволяли программам делать ходы в прямой реакции на действия соперника, а не следовать заранее заготовленным сериям ходов.

Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их особая логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, применяя методы ансамблевого обучения, такие как bagging, boosting или stacking.

По мере того как инструменты ИИ на 2024 г. становятся все более сложными и универсальными, они требуют все более сложных объемов данных и вычислительной мощности для обучения и выполнения. В ответ на это системы, предназначенные для выполнения конкретных задач в одной области, уступают место базовым моделям, предварительно обученным на больших немаркированных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели можно затем тонко настраивать для решения конкретных задач.

Один из способов различать модели машинного обучения - это их фундаментальная методология: большинство из них можно отнести либо к генеративным, либо к дискриминативным. Различие заключается в том, как они моделируют данные в заданном пространстве.

Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи Несколько слоев взаимосвязанных узлов постепенно получают данные, извлекают ключевые характеристики, выявляют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений ИИ, например большие языковые модели (LLM), которыми оснащаются современные чат-боты, используют глубокое обучение. Данные операции требует больших вычислительных ресурсов.