«Ростелеком»: консолидация данных в стиле open source | Вестник цифровой трансформации

Объединить четыре хранилища в одно, не допуская остановки развития средств BI, в условиях оптимизации процессов и перехода на открытые платформы — нетривиальная задача. Как при всем этом уладить конфликты интересов и заручиться доверием со стороны бизнес-заказчиков, не понаслышке знает Сергей Носов, директор по управлению данными ПАО «Ростелеком» и претендент на премию CDO Award.

В 2018 году и в начале 2019-го «Ростелеком» провел ряд изменений в организации работы с данными. Реализованные проекты были призваны обеспечить импортозамещение, а также снизить стоимость аналитической отчетности и оптимизировать ее подготовку. Сергей Носов, директор по управлению данными ПАО «Ростелеком» и претендент на премию CDO Award, рассказывает об объединении четырех хранилищ данных в одно централизованное, повышении качества данных и проводимой образовательной работе.

- Что в компании изменилось за последние два года? Почему началась такая активность по направлениям, связанным с работой с данными?

«Ростелеком» развивается, и бизнес прекрасно понимает вызовы, которые бросает нам рынок. Мы понимаем, что бизнес-решения нельзя принимать, руководствуясь только опытом и интуицией. Взвешенные, оптимальные решения должны быть основаны на фактах, проверке гипотез реальными данными. Рост бизнеса, расширение продуктового ряда и всеобщая цифровизация приводят к тому, что данных становится все больше и их надо структурировать и систематизировать. Этим и обусловлена активность.

- Что конкретно было предпринято?

«Без спонсорства со стороны заказчика проект создания централизованного хранилища становится просто дорогой игрушкой для ИТ-специалистов»

Можно выделить несколько ключевых достижений, которые были объединены в рамках одного проекта — создания и запуска так называемого Data-офиса. Во-первых, это миграция нескольких федеральных хранилищ в целевое хранилище данных, построенное преимущественно на открытых решениях: Hadoop, открытой версии Greenplum, Airflow, Ni-Fi, Kafka. Посредством перевода централизованного хранилища на стек open source удалось сэкономить средства, сравнимые с годовым бюджетом построения хранилищ данных в крупных компаниях. С учетом требований, предписывающих компаниям с государственным участием переходить на отечественное ПО, это достижение особенно ценно.

В период миграции, несмотря на технологические проблемы, мы активно развивали функционал аналитической отчетности для ключевых бизнес-заказчиков. Оптимизировав работу с данными (построив полноценный конвейер от постановки задачи до реализации витрин или BI-отчетов) и переведя ключевые компетенции внутрь компании, мы сократили стоимость новых разработок примерно на 30% и ускорили внедрение новых решений.

Мы практически полностью автоматизировали получение ключевой управленческой отчетности сегмента B2C, которая год назад собиралась с макрорегиональных филиалов компании преимущественно в ручном режиме. Реализовав новый подход к построению отчетности, компания ушла от логики лицевых счетов к логике проникновения услуг в домохозяйства. Был создан полный профиль домохозяйств: от подключенных сервисов, объема трафика и финансовых показателей до наличия технической возможности предоставления услуг.

Одновременно шло формирование «золотой карточки клиента» (Customer Data Integration, CDI), завершить эту работу планируется в первом квартале нынешнего года; продолжается запуск отраслевого решения «Паспортизация объектов недвижимости» (ОРПОН), предусматривающего унификацию адресной информации в ключевых информационных системах компании с геокоординатами. Благодаря всем этим усилиям повысилось качество данных и возросло доверие к ним, а созданная аналитика теперь будет использоваться в ходе внедрения системы управления маркетинговыми кампаниями и в работе других более сложных решений. На основании этих данных реализован в том числе BI-проект «Тепловые карты», призванный выявлять те географические зоны, в которых требуется улучшить обслуживание или реализовать потенциал продаж. Например, в зонах активной застройки.

27 марта — форум BIG DATA 2019

Центральное событие года для общения с экспертами индустрии больших данных и интеллектуальной аналитики!

- Откуда появились четыре федеральных хранилища и какие функции они выполняли? Зачем потребовалось их объединить?

Первое хранилище появилось для сбора сводной базовой аналитики по всей компании. Когда «Ростелеком» объединился со «Связьинвестом», понадобилось собрать данные самостоятельных прежде телекоммуникационных макрорегиональных компаний, чтобы сформировать целостную картину. Интегрировать весь разрозненный ИТ-ландшафт в короткие сроки было сложно, и первое хранилище стало скорее инструментом для сбора агрегированной информации.

Второе и третье хранилища развивались практически одновременно на различных платформах. У проектов были разные заказчики (как и требования к разным предметным областям), а реализацией занимались раздельные команды, у них не было единого исполнителя и координатора.Первое хранилище появилось для сбора сводной базовой аналитики по всей компании. Когда «Ростелеком» объединился со «Связьинвестом», понадобилось собрать данные самостоятельных прежде телекоммуникационных макрорегиональных компаний, чтобы сформировать целостную картину. Интегрировать весь разрозненный ИТ-ландшафт в короткие сроки было сложно, и первое хранилище стало скорее инструментом для сбора агрегированной информации.

Реализацию четвертого хранилища было решено делать с нуля, в соответствии со всеми канонами: создать полноценное «озеро», собрав сырые данные из всех ключевых систем отчетности, сформировать модель данных и т. д. Однако усилия по построению четвертого корпоративного хранилища не принесли ожидаемого результата, и проект решили заморозить.

В какой-то момент стало понятно, что заказчикам всех четырех хранилищ для формирования полной картины требуется добавление одних и тех же новых предметных областей. После проведения функционально-технологического аудита выяснилось, что четвертое хранилище — самое технологически зрелое. Дорабатывать его для решения бизнес-задач было нецелесообразно, а вот использовать технологии и инфраструктуру — вполне возможно, да и компетенции у команды были хорошие. Следовало объединить методологии первых трех хранилищ и инфраструктуру четвертого, чтобы обеспечить и требуемый уровень доверия, и нужную производительность, и возможности масштабирования.

- В чем заключались основные проблемы?

Процесс объединения различных хранилищ данных, создание по-настоящему централизованного решения, которому будет доверять бизнес, с активным использованием открытых решений в период изменяющегося ИТ-ландшафта — это действительно вызов. При этом ключевые заказчики всегда хотят оперативно получать бизнес-результаты, несмотря на потребность в проведении существенных технологических доработок. Важно, что нам удалось решить практически все противоречивые и конфликтующие задачи: снизить стоимость владения, внедрить новую операционную модель, поддержать изменение ИТ-ландшафта, обеспечить доверие бизнеса к данным из централизованного хранилища и реализовать чуть ли не с нуля ключевую аналитику для розничного бизнеса.

- Импортозамещение в вашем случае — это пожелание или обязательное требование?

Для компании с государственным участием это тот самый случай, когда принудительный характер импортозамещения совпадает с экономическим интересом и внутренним пожеланием компании.

- Какие именно проблемы представляли наибольший вызов лично для вас?

Основная проблема в том, что очень сложно реанимировать доверие заказчиков к проекту, который себя первоначально не оправдал. Поэтому важно было создавать централизованное решение, не останавливая развитие аналитики по новым запросам бизнеса, обеспечивая при этом более оперативную, качественную и дешевую реализацию накопившихся требований.

Без спонсорства со стороны реального заказчика проект создания централизованного хранилища становится просто дорогой игрушкой для ИТ-специалистов. Если отсутствует доверие, то решение не используется, данные не верифицируются и не подтверждаются, бизнес вынужден создавать локальные, альтернативные источники сведений. Другими словами: нет доверия — нет сформулированной потребности — нет использования решения — нет бюджета.

- Как удалось уладить конфликты интересов, всегда присутствующие, если есть несколько заказчиков?

Путем грамотного перераспределения компетентных команд, устранения дублирования работ, построения полноценной архитектурной функции, эффективного управления бюджетом. При этом пришлось уделять достаточное внимание исследовательским работам, чтобы понимать, какие открытые решения мы можем применять в условиях ограниченного бюджета и как эффективнее использовать инфраструктуру.

Не менее важно выстраивание взаимоотношений с заказчиками. Заказчики должны быть готовы заниматься приоритизацией задач, а не ожидать, что все потребности будут реализованы одномоментно. Для задач линейного развития мы выделили под каждого заказчика отдельные команды, которым платили за фактически выполненные работы. Наконец, заказчик должен понимать, какие задачи и в какие сроки реально будут выполнены. Мы согласуем с ним тот объем работ, который будет выполнен в двухнедельном спринте.

- Сформулирована ли в компании стратегия управления данными?

У нас есть понятие целевой архитектуры, она представляет собой скользящее окно: целевая архитектура на 2018, 2019 годы и т. д., а также эталонная архитектура. Определено место каждой компоненты: как будет развиваться BI, хранилище данных, система мастер-данных, как закреплены зоны ответственности. В определенном смысле это можно назвать стратегией.

- В настоящее время разрабатывается национальная стратегия управления данными (НСУД). Какие вызовы она подразумевает, как готовится платформа «Ростелекома» к этому?

Можно ожидать, что государство будет ужесточать требования к работе с персональными данными. Проекты, заявленные в НСУД, будут в ходе своего развития требовать от компаний увеличения числа проверок и более тщательного контроля различного рода данных и обмена этими данными с различными ведомствами.

Поэтому мы готовимся к этим вызовам прежде всего в технологическом плане: создаем легкомасштабируемую, оптимальную по стоимости платформу для работы с данными с нужным уровнем отклика на запросы. При этом не забываем о необходимости повышать качество и полноту данных в информационных системах.

- «Ростелеком» довольно заметен в информационном поле. Какая работа проводится в этом направлении?

Совместно с технологическими и бизнес-партнерами мы создаем экосистему по работе с данными. Она состоит из нескольких уровней. Во-первых, мы запустили бесплатный образовательный проект «Ростелеком. DataTalks»: совместно с партнерами обучаем по очной форме более ста начинающих специалистов, даем им возможность погрузиться в мир данных. Тем, кто успешно закончит обучение, мы предложим работу в «Ростелекоме» и компаниях-партнерах. Кроме того, мы начали выпускать цикл статей на «Хабре» для специалистов среднего уровня о развитии корпоративного хранилища: разбираются реальные кейсы и проблемы, с которыми сталкивается компания. Наконец, для опытных специалистов мы проводим митапы, в ходе которых они могут глубоко изучить детали построения хранилищ данных на открытых решениях.

- Какова цель этих популяризационных мер? Вы готовите для себя кадры или есть и другие задачи?

Мы обеспечиваем информационный поток для специалистов всех уровней, делимся своим опытом с рынком. Для нас такая популяризация — это прежде всего инвестиции.

Инвестиция в ИТ-бренд компании, которая позволит нам в краткосрочной и среднесрочной перспективе нанимать высококлассных специалистов. Инвестиция в имеющуюся команду, поскольку участие в таких мероприятиях — хорошая мотивация. Кроме того, мы стараемся через эти активности проводить обучение собственной команды — например, через проект «Ростелеком. DataTalks». Внешнее обучение наших специалистов обходится дороже, чем запуск и реализация такого образовательного проекта. Наконец, инвестиция в получение новых ценных знаний извне, поскольку, создавая экосистему, мы упрощаем доступ к информации, лучше понимаем, с какими проблемами уже столкнулись другие компании. Это позволяет совершать меньше ошибок и меньше за них платить.

- Как вы видите развитие своего подразделения в «Ростелекоме»? Каковы его ближайшие задачи?

В ближайшие два года нам предстоит большая работа по завершению объединения хранилищ, созданию базовой и продвинутой аналитики для всех сегментов и заказчиков, интеграции решения CDI в ландшафт компании. Будем и дальше оптимизировать работу с нормативно-справочной информацией, устранять технические сложности имеющихся решений, развивать открытые решения, ускорять регламент подготовки данных. По направлениям, где уже удалось сделать качественный шаг вперед, мы большее внимание намерены уделять продвинутой аналитике.