CatBoost: российская технология в мировом научном пространстве
Алгоритм CatBoost, созданный компанией Яндекс, занял прочные позиции среди ведущих инструментов машинного обучения. Его активно применяют в самых разных областях — от фундаментальных научных исследований до прикладных инженерных и медицинских задач. Подтверждение этому можно найти в отчёте американского издания MarkTechPost, где проанализированы 5 000 научных статей журнала Nature за 2025 год.
Примечательно, что CatBoost стал единственной российской технологией, включённой в этот глобальный отчёт. Он вошёл в узкую группу неамериканских решений, которые удалось вывести на уровень мирового научного стандарта. Всего в списке представлено пять таких технологий, и наряду с российским CatBoost там фигурируют разработки из Франции (Scikit‑learn), Германии (U‑Net), Канады (GAN и RNN) и Великобритании (AlphaFold). При этом подавляющее большинство технологий в отчёте — а именно 90 % — созданы в США.
Широкое признание CatBoost подтверждается и статистикой его использования: алгоритм задействован в каждой тридцатой научной работе и находится в одном ряду с решениями таких технологических гигантов, как Google, Microsoft, Intel и Amazon, а также ведущих научных институтов. География применения охватывает более 50 стран, что наглядно демонстрирует международное признание российских разработок в сфере искусственного интеллекта.
Особенно активно CatBoost используют в Китае, который стал лидером по числу упоминаний алгоритма в статьях Nature: на эту страну приходится 32 % публикаций. Такой высокий показатель объясняется интенсивным развитием в КНР научных исследований на базе машинного обучения, в частности, применением ансамблевых методов, когда для решения задачи объединяют несколько моделей. Существенную долю публикаций обеспечивают также Саудовская Аравия (19 %) и Индия (18 %).
В США CatBoost успешно конкурирует с продуктами других технологических компаний и находит применение в авторитетных научных центрах, включая Гарвардский университет, Массачусетский технологический институт и Стэнфордский университет. На Соединённые Штаты приходится 13 % статей в Nature, где упоминается этот алгоритм. Для сравнения: американский аналог XGBoost (разработка Вашингтонского университета) упоминается в 15 % публикаций, классический Gradient Boosting Model (Стэнфордский университет) — в 12 %, а LightGBM (Microsoft) — в 10 %.
Изначально созданный Яндексом для задач Поиска, CatBoost сегодня задействован в широком спектре сервисов компании — от Погоды и Директа до Маркета и Музыки. Основная причина популярности алгоритма заключается в его способности эффективно работать с табличными данными, выявляя в них сложные и неочевидные закономерности. Например, при обработке поискового запроса CatBoost анализирует обширную таблицу, где строки представляют варианты материалов для поисковой выдачи, а столбцы содержат тысячи характеристик: параметры и историю запросов, регион пользователя, популярность и актуальность сайтов, их релевантность, а также комбинации признаков запроса и материалов. На основе этого анализа алгоритм ранжирует варианты, отбирая наиболее полезные. Аналогичный принцип применяется и в других сервисах Яндекса — скажем, при расчёте прогноза погоды, когда алгоритм оперирует числовыми и категориальными данными из таблицы для определения вероятности осадков.
Ключевыми преимуществами CatBoost являются его способность корректно обрабатывать категориальные признаки без предварительного преобразования и возможность давать точные прогнозы без длительной настройки. Это означает, что алгоритм эффективно работает с разнородными данными — будь то диагнозы пациентов, типы почвы или марки автомобилей — и при этом не требует трудоёмкой предварительной подготовки. Благодаря этим качествам CatBoost нашёл применение не только внутри Яндекса, но и в мировой науке, где его используют для решения самых разнообразных задач: от ранжирования веб‑страниц до диагностики заболеваний по медицинским анализам.
Отчёт MarkTechPost включает 188 статей с упоминанием CatBoost, демонстрирующих впечатляющие результаты применения алгоритма в научных исследованиях. В частности, он помог добиться значимых успехов в прогнозировании рецидивов рака печени, обнаружении рака молочной железы, ранней диагностике болезни Альцгеймера и прогнозировании преждевременных родов. Помимо медицины, CatBoost показал высокую эффективность и в других прикладных областях: например, при прогнозировании индекса качества воды, в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей, а также при выявлении фальшивых аккаунтов в социальных сетях.









