Аналитический движок от Amazon: медленный Redshift ускорят в десять раз
Служба Amazon Redshift Machine Learning (ML) стала общедоступной и теперь может использоваться для создания, обучения и развертывания моделей машинного обучения непосредственно из кластера Amazon Redshift с помощью SQL-команд в хранилище данных Amazon Redshift.
Данные Redshift можно анализировать с помощью стандартных инструментов на основе SQL и приложений бизнес аналитики. Служба позволяет распределять и параллельно передавать запросы между несколькими узлами. Компания Amazon также предлагает для Redshift аппаратно-ускоренный кеш Advanced Query Accelerator (AQUA), который, по словам представителей компании, ускоряет работу службы в десять и более раз, чем любое другое облачное хранилище данных.
Как работает
Для создания модели машинного обучения используется:
- SQL-запрос, чтобы указать данные, которые нужно использовать для обучения модели;
- Выходное значение, которое нужно предсказать.
После запуска команды SQL для создания модели, Redshift ML экспортирует указанные данные из Amazon Redshift в корзину S3 и вызывает сервис Amazon SageMaker Autopilot. Последний Redshift ML использует для предварительной обработки и разработки функций. Затем необходимо выбрать соответствующий заранее созданный алгоритм и применить его для модели обучения. При желании можно указать используемый алгоритм, например XGBoost.
Redshift ML обрабатывает все взаимодействия между Amazon Redshift, S3 и SageMaker, включая все этапы обучения и компиляции. После обучения модели Redshift ML использует Amazon SakeMaker Neo для оптимизации модели и развертывания и делает ее доступной как функцию SQL. Ее потом можно использовать, чтобы применить модель машинного обучения к данным в запросах, отчетах и дашбордах.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: