Вестник цифровой трансформации CIO.RU

Антон Мироненков: «Скорость – наша первоочередная задача»
Антон Мироненков: «Скорость – наша первоочередная задача»




19:06 09.01.2019 (обновлено: 11:04 10.01.2019)  |  Наталья Дубова | 915 просмотров



Для реализации успешных проектов на базе больших данных не достаточно привлечь лучшие кадры. Надо правильно организовать их работу и работу с данными в целом. Как это сделать — в интервью номинанта премии CDO Award, директора по большим данным X5 Retail Group Антона Мироненкова.

Розница – один из тех бизнесов, где вложения в большие данные и современную аналитику способны дать реальный и немалый экономический эффект. Однако, чтобы раскрыть их потенциал в полном объеме и вовремя, необходима планомерная, сложная работа. Антон Мироненков, директор по большим данным Х5 Retail Group, соискатель премии CDO Award, рассказывает о создании в компании дирекции по большим данным, ее первых достижениях и планах на ближайшее будущее.

- Как и почему в Х5 появилась структура для работы с большими данными?

Год назад в компании по теме больших данных не было ничего, дирекция по большим данным создавалась с нуля. Хотя, конечно, системы аналитики в компании использовались, без них мы не могли бы ежедневно пополнять товарами более 14 тыс. магазинов и платить зарплату 200 тыс. сотрудникам. Но не было централизованного хранилища данных по клиентам, которые можно быстро извлекать в нужных разрезах, обрабатывать и делать на их основе важные для бизнеса выводы. За год удалось создать такое хранилище, внедрить средства работы с ним, включая современные инструменты визуализации, и все это собрать в единую систему.

Антон Миренков
Антон Мироненков: «В сфере больших данных люди – самый ценный и самый дорогой ресурс»

Все началось с идеи. Мы проанализировали опыт западных ретейлеров по применению аналитики больших данных, в том числе побывали в нескольких компаниях и поняли, что обладание такими компетенциями может стать конкурентным преимуществом. Вместе с консультантами мы описали структуру нового подразделения, какие специалисты нам понадобятся, какая требуется инфраструктура, как выстроить data governance и т.д., и затем начали искать людей и параллельно формировать инфраструктуру.

При этом мы столкнулись с типичной проблемой, которая так или иначе возникает при создании подобных структур: данных в компании много, но прежде чем их можно будет использовать, все они требуют обработки. Их надо чистить и структурировать. Например, мы обнаружили, что данные по программе лояльности и чековые данные о покупках хранятся в разных форматах. Поэтому задача была не просто запустить инфраструктуру, куда можно складывать данные, но и обеспечить, чтобы данные собирались в правильном виде.

Параллельно с созданием инфраструктуры и сбором данных мы стали выяснять, какие потребности бизнеса можем реализовать. Было собрано около 200 кейсов и для тех из них, которые обладали потенциалом принести наибольшие выгоды для Х5, были сформированы продуктовые команды. К настоящему моменту ряд продуктов доведен до стадии MVP (minimum viable product), один запущен в продуктивную эксплуатацию.

- Что это за продукт?

Набор отчетности для переговорных кампаний с поставщиками. Если раньше для анализа поставщика приходилось долго и сложно сравнивать данные из десятков таблиц Excel, то сейчас буквально двумя кликами можно получить исчерпывающую информацию по любому вендору – история взаимоотношений, на каком они уровне находятся в данный момент и где потенциал для дальнейшего развития.

С решением постоянно работают более 100 сотрудников.

- Каким образом выделялись продуктовые направления, которые приносят деньги. Это были ваши гипотезы, результат серьезного анализа или запрос от бизнеса?

Они появились из нескольких источников. Во-первых, лучшие мировые практики. Во-вторых – обсуждение с бизнесом, показавшее, какие из этих практик работают не только на Западе, но и у нас. И в-третьих – идеи, появившиеся в результате мозгового штурма в команде. Затем выявленные направления были приоритезированы. Впрочем, любой, кто в ретейле работает не первый год, скажет вам, что основные деньги в нашем бизнесе приносят правильная работа с ассортиментом, ценообразование, промоактивности. Конечно, эти направления оказались в приоритете и в Х5.

Затем мы стали глубже анализировать каждое из направлений – какие данные используются, что должно получиться на выходе, степень возможной автоматизации. Будет ли это инструмент, который помогает принимать решение, как в случае отчетности для переговорных кампаний, или полная автоматизация определенных процессов так, чтобы человек в них вообще не участвовал. Ведь, как правило, пользователей можно условно разделить на «отличников», «хорошистов» и «троечников». Если в процесс вмешивается «отличник», у него получается лучше чем у системы, по крайней мере на начальном этапе, но если в систему вмешивается «троечник», получается хуже. На большом масштабе автоматизация позволяет в среднем результат подтянуть до более высокого уровня. Это не значит, что люди не нужны. Они теперь системно занимаются тем, чтобы процесс работал правильно, а не улучшением результата процесса на каждом из его этапов, то есть меняют алгоритм вместо того чтобы искать правильные решения в отдельных точках.

- Речь идет о внедрении машинного обучения или пока только автоматизации заданных алгоритмов?

Мы используем различные подходы, в том числе машинное обучение. В некоторых случаях простая линейная регрессия дает хороший результат. Например, в продукте «Ассортимент» статистическими методами на основе чеков строится дерево принятия решения покупателем, а оптимизация ассортимента реализуется с помощью машинного обучения.

Еще один классический оптимизационный инструмент применяется в ценообразовании. На входе он получает большое количество параметров (исходные цены, цены конкурентов, маржинальность товаров, условия по логистике), чтобы на выходе ежедневно генерировать оптимальные цены на товары в магазинах.

При этом мы никогда не зацикливаемся на одном подходе для конкретной задачи, модель должна становиться все более точной со временем. Специалисты из команды data science находятся в постоянном поиске улучшений: если из этого метода мы выжали все, давайте попробуем вместо деревьев решений применить нейронную сеть, а затем добавим к ней дополнительные слои. Наш продукт – это не монолит, а живой организм, который постоянно дорабатывается. Поэтому продуктовые команды работают по принципам Agile – они отвечают за то, чтобы бизнес-результат был лучше и лучше с каждой итерацией.

- Сколько продуктов реализовано за год?

У нас восемь продуктовых команд. Но потребностей у бизнеса больше, и периодически приходится формировать временные девятую и десятую команду, чтобы срочно реализовать ту или иную задачу.

- Какова связь стратегии дирекции по большим данным с бизнес-стратегией компании?

До того, как возглавить подразделение по работе с большими данными, я отвечал за стратегию Х5, поэтому прекрасно представляю задачи бизнеса и могу говорить с ним на одном языке. Это очень помогло в формировании нашей продуктовой линейки. Наш план на текущий и будущий год увязан со стратегией компании в целом и со стратегией каждой торговой сети, входящей в Х5.

Несколько лет назад в X5 было принято решение о децентрализации. Каждая сеть получила достаточную свободу, чтобы развивать собственное клиентское предложение, в чем-то конкурировать, иметь ресурсы для самостоятельного ведения бизнеса. Как следствие, сети различаются и с точки зрения используемых ИТ-решений. Даже данные в анкетах программы лояльности в разных сетях не идентичны, хотя и пересекаются процентов на 80. Поэтому обычно мы не можем сделать одинаковый продукт для всех трех сетей.

Часто бывает так, что мы разрабатываем решение, например, для «Пятерочки», рассказываем о нем в «Перекрестке», и менеджеры сети высказывают желание получить аналогичный продукт. Тогда продуктовая команда делает кастомизацию решения под другую сеть. Происходит миграция знаний и продуктов между торговыми сетями.

- Как организована работа вашего подразделения?

Команды работают по принципам Agile и включают в себя все необходимые группы специалистов – data science, аналитики данных, бизнес-аналитики, менеджеры продуктов, DevOps. Есть и системные инженеры, которые отвечают за инфраструктуру определенного уровня. Базовую инфраструктуру для нас поддерживает ИТ. Но у нас остается возможность разворачивать инфраструктурные слои более высокого уровня, необходимые для наших решений. Это нетипичный подход, но по-другому скорости просто не достичь. Чем больше ресурсов в одном месте сконцентрировано, тем быстрее можно двигаться. А скорость – это наша первоочередная задача.

Процессы data governance реализуются в нашей дирекции и в ИТ. Мы занимаемся контролем качества данных во входных потоках, которые получаем на свой кластер. Но кроме этого необходимо обеспечивать качество данных на источниках, которые расположены в других местах корпоративной архитектуры. За это отвечает ИТ.

Сейчас процессы data governance включают в себя сбор, обеспечение качества, описание собранных данных и формирование требований к конечным витринам. Очень важной составляющей data governance являются также корпоративные политики работы с данными, но здесь мы еще в самом начале пути. Корпоративная политика задает стандарт ввода данных для бизнес-пользователей, тем самым закладывается основа для того, чтобы данные были качественными при всех дальнейших использованиях.

Нам необходимо наладить процесс регламентации ввода данных, и это займет немалое время, поскольку груз проблем в этой сфере за годы существования компании накопился очень большой.

- Какие данные используются для реализации ваших продуктов – внутренние данные компании или вы привлекаете также внешние данные с рынка?

Мы активно обсуждаем с телекомом, с банками, какие решения мы можем сделать вместе, обогащая данные. И пришли к выводу, что те данные, которые есть у нас, гораздо более полезны другим игрокам, нежели нам полезны внешние данные с рынка. Почему? Потому что у нас очень много данных внутри компании, и их, как правило, достаточно для реализации различных идей по улучшению бизнеса. Наша основная задача при работе с данными — наладить процесс получения и постоянной актуализации этих данных, а также сделать так, чтобы данные, которые единожды получены, неважно из какого источника, были доступны всем заинтересованным бизнес-пользователям.

Надо отметить, что в Х5 с большими данными работает не только дирекция больших данных. Наиболее сложные вещи, которые требуют написания кода и ведут к созданию продукта, мы делаем централизованно. Это специализированные задачи, которыми должны заниматься квалифицированные специалисты, а в сфере больших данных люди – самый ценный и самый дорогой ресурс.

При этом от бизнеса постоянно возникает большое количество сиюминутных запросов, поэтому мы обеспечиваем бизнес-пользователей данными, с которыми они могут самостоятельно делать любую аналитику. Причем очень важно, чтобы все было совершенно прозрачно – где взять нужные данные, как их обработать и что делать с результатом. Но если одна и та же задача возникает постоянно, мы берем ее на себя. Мы стараемся освободить аналитиков от рутины, чтобы они могли заниматься более продуктивными задачами.

- Что представляет собой технологическая инфраструктура больших данных в X5?

У нас полный стек необходимых инструментов. «Холодные» данные собираются в озере данных на базе Hadoop, дальше в зависимости от приложения данные перемещаются в более быстрые базы – Greenplum, Qlickhouse. Для загрузки данных используются классические ETL-инструменты, для визуализации – Qlicksense, Tableau.

- Что было самым сложным за этот год?

Самое сложное – наладить работу команды. Наш Agile пока часто «перпендикулярен» тому, как работает остальная компания. С одной стороны, бюджет, оргструктура, регламентированный процесс найма человека, с другой – скорость процессов Agile. Как увязать между собой еженедельные спринты с ежегодной оценкой эффективности сотрудника? Объясняем, договариваемся, где-то меняем процессы в самой компании.

- А что вы можете поставить в заслугу дирекции больших данных?

Главное достижение – скорость. Я очень рад, что удалось меньше чем за год собрать сильную команду. Когда к нам приходят на собеседование специалисты по data science, они спрашивают, с кем будут работать, и быстро соглашаются, когда слышат фамилии. Для меня это показатель качества команды. Второй показатель – то, что за короткий период мы довели несколько продуктов до стадии MVP и один до промышленной эксплуатации и уже получаем много положительных отзывов от пользователей.

Мы построили гибкую инфраструктуру, в которую можно быстро адаптировать дополнительные инструменты, если понадобится. Развернули хранилище из более 80 узлов в кластере, которое удалось быстро наполнить.

Скорость – это главное, к чему мы стремимся. Я постоянно говорю ребятам: «возможно, вы сделаете это гораздо лучше через год, но тогда это уже никому не будет нужно». Меняются потребности бизнеса, технологии уходят вперед, а задачи надо решать здесь и сейчас.

- Не в ущерб качеству?

Это же Agile. Конечно, продукты дорабатываются. Но для этого и нужен постоянный диалог с бизнесом.

- Какой эффект получит бизнес от продуктов на базе больших данных, когда они будут введены в промышленную эксплуатацию? Например, я – постоянный клиент «Перекрестка». Какие я почувствую улучшения?

Возьмем для примера такое решение, как ассортиментный план. Главный результат его применения состоит в том, что, если раньше вы приходили в супермаркет и клали в корзину 7 товаров, то сейчас будете класть 8. Вам не придется обходить несколько магазинов, вы здесь найдете все, что вам нужно. И в целом увеличивается число клиентов сети, когда люди понимают, что могут найти в магазине все необходимое и, возможно, по более выгодной цене, чем у конкурентов.

Другой пример – промоакции. Продукт позволяет правильным образом изучить аудиторию в конкретной локации, понять, какие магазины рядом, как правильно сделать скидку на определенный товар и каким людям из программы лояльности нужно ее предложить. Пилот по этому решению продемонстрировал рост трафика в магазинах на несколько процентов – это очень хороший результат. Лояльность покупателей тоже выросла.

- Ваши планы на будущее?

Главная цель ближайших нескольких месяцев – вывести в продуктив те продукты, которые сейчас находятся на стадии MVР. Это не самая простая задача, поскольку необходимо быстро и без лишних затрат масштабировать успешный пилот с сотни на несколько тысяч магазинов.

В апреле должны быть завершены проекты по ассортименту и ценообразованию. Весной планируется улучшить качество прогнозирования продаж в сети магазинов «Перекресток». Это обеспечит повышение точности заказа товаров на склад, как результат, сократится количество продуктов, которых нет на полках, и это, в свою очередь, положительно отразится на продажах.


Теги: Большие данные X5 Retail Group CDO Award



На ту же тему: