«Яндекс» выложил в открытый доступ библиотеку машинного обучения Catboost 1.0.0

Открытое ПО

«Яндекс» объявил о выходе новой версии открытой библиотеки машинного обучения Catboost. Версии присвоили номер 1.0.0 — это означает, что разработчики считают библиотеку готовой к широкому применению.

«Мы впервые выложили Catboost в открытый доступ в 2017 г. За это время библиотека обрела популярность за пределами «Яндекса». Её используют и коммерческие компании, и научные учреждения — например, в ЦЕРНе с её помощью классифицируют полученные в результате экспериментов частицы. Вместе с сообществом разработчиков мы постоянно обновляем Catboost и добавляем новые функции. Сейчас возможности Catboost стали настолько широки, что мы решили присвоить очередной версии номер 1.0.0 — чтобы ознаменовать выход проекта из „детского возраста“», — сказал Станислав Кириллов, руководитель группы разработки систем машинного обучения в «Яндексе».

В последние полгода Catboost получил сразу несколько крупных обновлений. В частности, он начал полноценно поддерживать Apache Sparkфреймворк, который используется в распределённом обучении на больших данных. Выросла скорость работы — теперь обучение занимает меньше времени. Появилась возможность применять Catboost для задач классификации с пересекающимися классами (multi-label) — эта функция может пригодиться, например, для предсказания возможных характеристик объекта при поведенческом анализе.

Catboost — это метод машинного обучения, в основе которого лежит механизм градиентного бустинга. Одной из важных особенностей Catboost является то, что он хорошо подходит для работы с данными, выраженными в нечисловой форме. «Яндекс» создал Catboost для своих нужд. Он применяется во многих сервисах компании. Например, «Алиса» с помощью Catboost принимает решение, какой ответ дать пользователю, а «Кинопоиск», «Музыка» и «Дзен» используют его для составления рекомендаций.