Как построить точную прогностическую модель для бизнеса с помощью ML: наша история с американским заказчиком

Оленка Пилипчак

13.01.2022 14:19

Роль машинного обучения и нейронных сетей неоценима с точки зрения бизнеса. Кажется, только ленивый не писал об их преимуществах и потенциале для роста. Но за историями успеха и растущими финансовыми показателями стоят не менее впечатляющие процессы.

Команда Data Science компании Competera поделилась с Highload примером реального бизнес-кейса, где будущий успех клиента напрямую зависел от способности модели предсказывать неизвестные исторические значения. В этой статье ребята детальнее расскажут о закулисье современных ML-решений. Передаем им слово.

Результаты, описанные в этой статье, будут в первую очередь интересны как специалистам и аналитикам Data Science, так и всем, кто интересуется современными технологиями в области ценообразования.

Предистория

Американский производитель искусственных елок и украшений обратился к Competera для внедрения алгоритмов машинного обучения, чтобы оптимизировать цены на товары. Полноценному роллаутуОт англ. rollout — выкатка. В этом контексте — представление. решения предшествовала проверка эффективности нового подхода.

Традиционный A/B-тест с тестовой и контрольной группами оказался невозможным из-за особенностей бизнеса — высокой сезонности. 80% годовых продаж ритейлера происходит в последние три месяца года. Так, решение можно было применить на практике только в горячий сезон следующего года.

Решение

Учитывая особенности бизнеса и запроса клиента, мы решили проверить точность алгоритмов с помощью бэккастингаМоделирование будущего с некими желаемыми характеристиками, после чего сценарий развития поэтапно строится «сверху вниз» — из будущего в сегодня..

Построение прогностической модели

Чтобы доказать эффективность решения на основе машинного обучения, нам понадобились две вещи: модель и данные, которые будут в нее загружены.

Клиент предоставил нам:

Данные о транзакциях
Прайс-листы
Промо-календари
Продуктовые характеристики
Данные о маркетинговых активностях

Работа над проектом происходила в 2020 году, но объем всех необходимых исторических данных охватывал только два сезона продаж (2017-2018), а данные о транзакциях были предоставлены за 2008-2018 годы.

Клиент намеренно не делился с нами данными о продажах за 2019 год, чтобы наша модель могла доказать свою эффективность, с точностью восстановив эти данные.

Другими словами, наша предиктивная модель должна была делать прогноз так, как будто она была запущена не в 2020 году, а в начале 2019-го.

Основным критерием успеха была точность прогноза продаж и выручки за 8 недель теста высокого сезона на уровне всего ассортимента и отдельной категории (которая составляет ~30% от общего ассортимента и ~75% от общей выручки). Это могло быть представлено в следующем виде:

Процентную ошибку рассчитывали с помощью формулы:

Решение

Чтобы добиться высокой точности по заданным критериям, можно построить статистическую авторегрессионную модель для каждой из двух категорий на уровне недель, а затем, после обучения модели, агрегировать прогноз на 8 недель тестового периода и получить окончательный результат. А благодаря тому, что исторические данные о транзакциях содержали наблюдения за более чем 10 лет, модель сможет лучше изучить сезонность бизнеса.

Итак, мы построили модель SARIMA для прогнозирования. После получения реальных данных о продажах нужно было проверить точность этой модели. В результате для каждой из категорий значение абсолютной процентной ошибки на тесте составило <5%.

И хотя результаты были хорошими, модель неприменима для реального бизнеса, потому что не позволяет оценить изменение продаж на уровне отдельных единиц товара.

Конечно, можно было бы построить отдельную модель на уровне каждого продукта, но:

во-первых, это неэффективно с точки зрения времени и ресурсов;
во-вторых, это мешает отдельной модели использовать знания, заключенные в других моделях;
предыдущий пункт нивелирует возможность оценить взаимозависимости между продажами товаров из разных групп и категорий.

Теперь предположим, что вы проводите оптимизацию цен с использованием упомянутой модели прогнозирования спроса. Вы устанавливаете ценовые ограничения +- 50% от текущей цены продукта, и ваша цель — оптимизировать доход. Поскольку ваша модель не может оценить изменение продаж на уровне SKUОт англ. stock keeping unit — единица складского учета, она предсказывает неизменные продажи при увеличении цен. Чтобы максимизировать доход, она увеличит цены на все товары до верхних границ. Наверное, вы уже догадались, какими будут результаты такой оптимизации.

Идеальная предиктивная модель для ритейл-бизнеса

Предиктивная модель, которая бы одновременно была точной и применимой на практике для бизнеса, должна:

строить точные прогнозы на долгосрочную перспективу для управления стратегиями;
делать точный прогноз на уровне продукта, чтобы использовать стратегию на любом заданном уровне;

иметь возможность делать прогноз на заданный период времени (например, неделю);
учитывать взаимосвязи между продуктами, например, проблемы товаров-заменителейТовар, заменяющий привычный, но обладающий рядом достоинств по сравнению с заменяемым. и товаров-дополнителейТовар, рост цены на который приведет к падению спроса на все остальные товары.;
она должна учитывать абсолютные и относительные ценовые характеристики (например, цена продукта, ее изменение во времени и т. д.).

Классические подходы к прогнозированию

Кроме SARIMA, есть и другие авторегрессионные модели, которые отвечают заданным требованиям. Например, (S)ARIMAX и VARMA(X), которые могут помочь оценить влияние экзогенныхПредопределенных, заданных, независимо от функционирования моделируемой системы (явления, процесса). факторов и взаимосвязи между продуктами. Более того, классические подходы к прогнозированию хорошо обоснованы математически и легко интерпретируемы.

Тем не менее, у таких подходов есть ряд недостатков, таких как:

чувствительность к формату входных данных;
они субоптимальный для работы с большим количеством различных, но зависимых временных рядов;
не подходят для прогнозов новых временных рядов (проблема холодного старта);
неоптимальны для долгосрочного прогнозирования;
требуют переобучать модель каждый раз при расширении или изменении ассортимента товаров.

Рекуррентный подход к прогнозированию

Исправить эти недостатки может переход от задачи прогнозирования временных рядов к построению регрессии.

Характеристики временной оси кодируются путем прямой передачи в модель лагов временных переменных, в то время как временные характеристики передаются в форме признаков для модели.

Прогноз на несколько периодов вперед можно получить с помощью рекуррентного прогнозирования. То есть основная модель прогнозирует на один период вперед, а для составления прогнозов на несколько периодов рекуррентно используются предыдущие прогнозы.

Бейслайн может быть основан на обычной линейной регрессии, нейронной сети или градиентном бустинге для задачи регрессии, который лучше всего подходит для гетерогенных (табличных) данных.

Реализованы несколько бустинговых фреймворков, которые позволяют работать с пропущенными значениями, категориальными переменными, использовать кастомные целевые функции:

LightGBM
XGBoost
CatBoost

Подход рекуррентного прогнозирования легко реализовать, но он требует динамического пересчета данных Значения фич, основанных на прогнозах продаж на текущем шаге, для последующего прогноза. Также сложно обнаружить неявные временные зависимости.

RNN-модели

Альтернатива подходу рекуррентного прогнозирования — использование RNNРекуррентные нейронные сети-моделей. Они лучше обнаруживают временные зависимости, а также позволяют строить прогноз на несколько шагов вперед (модели seq2seq).

Таргетом для прогноза могут выступать, например:

Мы построили seq2seq-LSTMОт англ. Long short-term memory — длинная цепь элементов краткосрочной памяти. Разновидность архитектуры рекуррентных нейронных сетей.-модель с механизмом внимания Luong для прогнозирования логарифмированного прироста продаж:

Чтобы уловить влияние зависимостей на уровне категорий, мы использовали статические эмбеддинги категорий. Такие временные характеристики, как номер недели и месяца, подавались в модель в виде динамических темпоральных эмбеддингов, что значительно повысило ее точность из-за высокого фактора сезонности данных. Накопленные локальные эффектыОт англ. accumulated local effects для временных признаков отразили первоначальное распределение данных о продажах.

Детальнее: Apley, Daniel W., and Jingyu Zhu. 2016. Visualizing the Effects of Predictor Variables in Black Box Supervised Learning Models. https://arxiv.org/abs/1612.08468; Molnar, Christoph. 2020. Interpretable Machine Learning: https://christophm.github.io/interpretable-ml-book/

Чтобы лучше приспособить модель к потребностям бизнеса, мы использовали взвешивание наблюдений в зависимости от цен на товары, динамики продаж и временного периода. Это позволило нам получить более точные прогнозы для А-сегмента ассортимента в высокий сезон.

Результаты

Модель достигла 96% точности прогнозов общего дохода и 99,6% точности прогнозов доходов выбранной в тестовый период:

Ее точность также оставалась высокой на уровне продукта и недели. WAPEМера при прогнозировании спроса. Эта мера дает больший вес товарам с более высокими продажами. на отложенном датасете составила 66,7%. Это позволяет алгоритмам точно восстанавливать собственные ценовые эластичности товаровПоказатель процентного изменения спроса на товар из-за изменения цены., а также их кросс-эластичностиПоказатель процентного изменения в количестве купленного товара в ответ на изменение в цене другого товара. и использовать стратегии ценообразования на уровне продукта и недель для достижения глобальных целей.