Тинькофф построили суперкомпьютер для машинного обучения

Группа Тинькофф построила собственный суперкомпьютер в рамках стратегии AI First и развития платформы для машинного обучения и искусственного интеллекта. Суперкомпьютер «Колмогоров» предназначен для быстрого обучения моделей на больших массивах данных, накопленных Тинькофф за тринадцать лет существования компании. Быстрые соединения между вычислительными узлами позволяют эффективнее использовать вычислительные ресурсы для распределенного обучения на огромных массивах данных.

 «Колмогоров» позволит намного быстрее решать такие связанные с машинным обучением и искусственным интеллектом задачи, как

  •  Распределенное обучение нейросетевых моделей для распознавания речи, синтеза речи и обработки естественного языка;
  • обучение классических моделей machine learning для задач скоринга, привлечения и предиктивной аналитики.

 Благодаря кластеру «Колмогоров» задачи по обучению нейросетей выполняются в сотни раз быстрее: например, для задачи по оптимизации исходящих звонков мы за сутки переобучили модель, предсказывающую вероятность продажи финансовых продуктов на всем объеме накопленных за 13 лет данных. Переобучение модели традиционными способами заняло бы, по нашим расчетам, около 6 месяцев. Использование кластера позволяет бизнесу быстрее и эффективнее проверять гипотезы, улучшать сервисы и выводить новые продукты на рынок.

 Суперкомпьютер «Колмогоров» имеет пиковую производительность 658,5 терафлопс при вычислениях с плавающей точкой двойной точности (FP64). Система состоит из 10 узлов, оснащенных передовыми вычислителями NVIDIA Tesla V100 со специализированными тензорными ядрами для ускорения задач искусственного интеллекта. Вычислительные узлы суперкомпьютера Тинькофф объединены современной высокоскоростной сетью 100 Гигабит с поддержкой технологии RoCE (RDMA over Converged Ethernet). Сочетание передовых технологий позволило кластеру достичь производительности 418,9 терафлопс в тесте Linpack, что обеспечило выход системы в лидеры рейтинга самых быстрых суперкомпьютеров страны.

 В «Колмогорове» установлены точно такие же ускорители, как и в самом быстром суперкомпьютере в мире Summit (OLCF-4). Кроме того, он является самым мощным суперкомпьютером в рейтинге по показателю производительности на узел, то есть каждый его сервер отличается высокой эффективностью(41,9 TFlop/s).

Читайте также:

Добавить комментарий