«Пользуетесь дашбордами? Нет, только смотрим»: объясняем дата-анализ на мемах, понятных каждому

Оленка Пилипчак

Казалось бы, как можно из такой фановой темы как мемы, рассказывать о серьезных вещах вроде Data Analysis и Business Intelligence? На самом деле сложные понятия и процессы довольно просто объясняются мемами. Понятный всем формат шуток помогает разобраться во многих аспектах Data-анализа. Как именно — узнаем из лекции о Data Analysis, которая состоялась в рамках IT-конференции NIX Multiconf.

Этот материал будет полезен тем, кто хочет попробовать себя в качестве аналитика. Опытные специалисты могут взглянуть на хорошо известную тему под необычным углом.

Содержание

1. Что такое big data
2. Как выглядит работа в Data-проекте
3. Каталоги данных – в чем их польза для Data-аналитиков?
3.1 Легкий поиск
3.2 Генерирование каталогами данных Connection Strings
3.3 Для каждого ресурса данных есть много полезной информации
3.4 Глоссарий
4. Что важно знать о дашбордах
5. Делайте интерактивные дашборды
6. Учите пользователей работать с BI-инструментами
7. Как улучшить командную работу над дашбордом
8. Инструменты BI для Data-аналитика
9. Что же делать, когда ваш инструмент BI не позволяет достичь желаемого результата?

Что такое big data

Существует много концепций, по которым объясняют этот термин. Эксперты NIX предпочитают схему 8V:

Схема 8V

  1. Volume — объем. Если у вас гигабайт данных, это считается big data только с точки зрения их объема.
  2. Velocity — скорость генерации данных, частота их обновления и анализ.
  3. Variety — разнообразие данных, наличие разных источников. Большие данные могут быть в любом формате: (не)структурированными, с одинаковой структурой или разной и очень сложной.
  4. Veracity — правдивость, помогающая определить, поступают ли данные из надежного источника.
  5. Variability — изменение, когда данные содержат различные типы данных и отображаются в разных форматах.
  6. Value — бизнес-стоимость данных.
  7. Visualization — визуализация. Среди аналитиков популярно мнение: если данные не представлены содержательно, то нет смысла их анализировать.
  8. Validity — это свойство big data показывает, насколько данные соответствуют своему назначению.

На практике наиболее важные — объем, скорость и разнообразие данных. Остальные же характеристики немного схожи и просто вносят больше деталей.

Когда вы слышите об аналитике данных, то прежде всего ожидаете, что будете работать с big data. В реальности можно получить несколько больших файлов Excel, которые нужно объединить и использовать как источник данных. Но операции могут быть гораздо сложнее. Например, включать чистку данных и установку связей между файлами.

«Я буду работать с бигдатой» — И здесь тебе дают четыре эксельки в качестве источника данных — «Принимается»

Интересна тенденция. Пандемия COVID-19 вызвала исторические изменения в работе с big data, из-за чего данные могут очень быстро стареть. Это нарушает многие производственные алгоритмы и модели искусственного интеллекта и машинного обучения. Как прогнозируют в исследовании Gartner, к 2025 году 70% мировых компаний сместят фокус с больших данных на малые и широкие. Именно они сокращают зависимость компаний от big data.

Как выглядит работа в Data-проекте

Для того чтобы не возникла путаница в понятиях, сразу определимся со значением аббревиатур DBA и BDA.

DBA (Database administrator) используется для определения роли администратора базы данных. BDA (Big Data Analytics) касается аналитики бизнес-данных.

Аналитика бизнес-данных — это набор методов, техник и практик, применяемых для непрерывного изучения, повторения и исследования предварительных и текущих данных о бизнесе. Эта информация позволяет понять, какие данные и действия над ними могут улучшить принятие решений.

Похожие аббревиатуры, но разные значения

Процесс анализа бизнес-данных включает шесть этапов:

1) Определить вопросы, которые необходимо поисследовать.

2) Найти исходные данные — так мы можем получить ответы на первичные вопросы.

3) Фактически анализ данных, в ходе которого может появиться еще больше вопросов. Возможно, вы вернетесь ко второму пункту и измените первые вопросы.

4) Интерпретировать полученные результаты. В этом пункте можно вернуться к истокам первого этапа.

5) Использовать полученные результаты для принятия взвешенного бизнес-решения.

6) Управление стратегией бизнес-знаний на уровне системы — этот этап проходит красной нитью через весь флоу.

После получения всей важной информации следует узнать, есть ли в проекте документация и модели данных, схемы данных или хотя бы из перечисленного?

Иногда аналитики чувствуют себя персонажем мема, приведенного ниже.

Каждый раз на старте нового проекта они скрещивают пальцы и думают: «Может, на этот раз повезет, и у проекта будет актуальная документация или по крайней мере какая-нибудь».

К сожалению, на практике приходится сталкиваться с недостаточно задокументированными проектами.

На проекте будет ​​документация. «Мы делаем проект уже два года» — «То есть у вас есть документация, правда?» – …

Если вы работаете над проектом с самого начала, скажем, год, и вам понадобится изменить определенные бизнес-правила или бизнес-логику — вы можете не запомнить, почему в том или ином месте применили какие-либо правила. Когда это задокументированно, вопросов не возникнет. В противном случае придется потратить время и силы на восстановление этой информации.

Рассмотрим основные типы документации, с которыми вы можете иметь дело на Data-проекте:

  1. Словари и глоссарии. Это список терминов, используемых в домене. Когда на старте проекта вы начнете добавлять их в базу знаний, эти термины непременно помогут вам говорить с коллегами на одном языке.
  2. Реляционные диаграммы сущностей. Необходимы для понимания, что такое модель бизнес-решения.
  3. Схема базы данных Это нечто вроде плана, который нужен администраторам баз данных для создания и разработчиками для заполнения данных в этой БД.
  4. Первоначальный отчет о сборе данных. В нем описано, какие данные нужны, из каких источников мы их возьмем и на каком этапе удаляем или добавляем в окончательную версию.
  5. Отчет о качестве данных. Здесь собрана информация о том, есть ли пробелы в значениях, известны ли их причины, есть ли несоответствия заполнения некоторых полей.

В таблице — пример словаря данных. Его шаблоны могут отличаться, но основными столбцами обычно выступают название, определение, тип данных. Иногда даже хранилища данных могут создать такой шаблон. Если у вас разные источники данных, то у них наверняка не будет одинаковой структуры. Поэтому лучше хранить их в одном месте и предоставлять коллегам единый формат. И уже существует инструмент, который поможет вам в этом — каталоги данных.

Каталоги данных – в чем их польза для Data-аналитиков?

Каталоги объединяют метаданные об имеющейся big data и помогают настроить процесс управления данными в компании. Самое крутое в каталогах, что они могут создать часть документации для вас.

На этих скриншотах вы можете увидеть несколько экранов из каталога данных Azure. Объясним подробнее его возможности.

Легкий поиск

В каталоге есть ресурсы данных, с помощью которых можно искать информацию, использовать расширенный поиск или некоторые фильтры и добавлять теги для облегчения поиска. Для каждого источника данных можно найти окно запроса доступа и разместить информацию о всех шагах для получения доступа к этому источнику.

Если организация большая, иногда получение доступа может быть проблемой и может напоминать поиск черного кота в темной комнате. Если же держать всю информацию в одном месте, у вас будет понятная пошаговая инструкция:

  • сначала нужно заполнить форму и получить одобрение менеджера;
  • далее отправить электронное письмо в службу поддержки;
  • в результате вы легко получите доступ к источнику данных и сэкономите свое время.

Генерация каталогами данных Connection Strings

Еще одна интересная функция — каталоги данных могут генерировать Connection Strings. В случае с Azure можно подключиться к источнику данных, например в Excel или Power BI. Каталоги не загружают данные непосредственно в Excel, но создают это соединение. После того, как вы добавите учетные данные, сможете получить доступ к самим данным.

Для каждого ресурса данных есть много полезной информации

К примеру, профили данных, главные свойства полей и т.Д. Мы можем предварительно просмотреть данные, поэтому не нужно устанавливать соединение с источником и выполнять запрос. Просто ищем нужные нам данные и видим, какие типы данных, столбцов, значений. А еще одна интересная вещь — происхождение данных. Вы можете шаг за шагом идти от исходного источника, где получаете данные, к создающему дашборду.

Глоссарий

Отдельно хочу сказать о глоссарии. Как уже упоминалось, это важный тип документации. В нем вы можете хранить все свои термины, утверждать их у администратора, добавлять родительские термины для создания определенной иерархии. Можно также связать их с дата-объектами и увидеть поля, в которых можно объединить таблицы между собой.

Как видите, каталоги данных — это действительно удобный инструмент для работы.

Что важно знать о дашбордах

Одна из целей работы со стейкхолдерами – сделать их счастливыми 🙂 Но иногда, несмотря на все усилия, добиться этого не удается.

Стейкхолдер всегда будет счастлив — Ты делаешь все по макету клиента — Стейкхолдер: «Как безобразно»

Объясним на примере распространенной ситуации. В команду обращается стейкхолдер с чем-то вроде приведенного ниже мокапа дашборда. Он хочет видеть здесь данные для всех продуктов одновременно. И для каждого из них KPI, столбчатые диаграммы, круговые диаграммы и т.д. Можете сами убедиться, что это не самое лучшее решение…

Мокап дашборда клиента

Проблема состоит в том, что горизонтальная протяженность дашборда достаточно велика. В нем собрано слишком много всего. Обычно аналитики сразу говорят об этом стейкхолдеру. Но часто клиент настаивает на реализации именно по такому макету. После завершения разработки во время демонстрации дашборда, скорее всего, заказчик не будет доволен увиденным и объяснит это примерно так: «Я думал, что все будет не так горизонтально» .

Что делать в такой ситуации:

  • прежде всего разделить дашборды по продуктам: одна панель — один продукт;
  • затем необходимо изменить дизайн, где метрики расположены более продуманно и наглядно;
  • можно добавить возможность переключаться между продуктами, изменяя значение фильтра;
  • Для сопоставления товаров меж собой можно составить сводную таблицу со значениями характеристик.

Посмотрите, как это может выглядеть:

Вариант, который можно создать

Делайте интерактивные дашборды

Дашборды должны быть понятны и полезны для клиентов. А зрительно красивые дашборды еще и выглядят интереснее. Интерактивность позволит сделать работу с данными более эффективной. Каким образом?

Дашборды будут полезны — «Пользуетесь дашбордами?» — «Нет, только смотрим» — «Красивое»

  • Оживленность принятых решений. Именно интерактивный анализ помогает пользователям отвечать на некоторые критические бизнес-вопросы на основе новых данных. Всего за несколько щелчков на них можно посмотреть с другого ракурса. Поэтому коты из известного мема всегда будут знать о цене на сегодняшнюю рыбу 🙂
  • Избегание излишних отчетов. Вместо создания десяти статических слайдов в PowerPoint требуется только один инструмент с интерактивными функциями для быстрой адаптации изображения. Хотя не исключено, что вы будете сталкиваться с клиентами, которым нужно экспортировать дашборды именно в презентации PowerPoint.
  • Меньше IT-вовлечения. Позволяя пользователям выполнять собственный анализ данных, компания может сэкономить время и другие ресурсы. В свою очередь, IT-специалисты смогут сосредоточиться на собственных неотложных и стратегических задачах.
  • Скорость. При использовании традиционных электронных таблиц или презентаций PowerPoint данные нужно вставлять вручную и обновлять. Современные инструменты в дашбордах значительно упрощают жизнь, обновляя данные в режиме настоящего времени. А это увеличивает скорость получения необходимых ответов.
  • Производительность. Объем данных для сбора и анализа постоянно растет. Поэтому статические таблицы с миллионами строк и столбцов уже не работают. А вот интерактивные инструменты BI позволяют пользователям самостоятельно взаимодействовать с данными и использовать технологии, которые могут повысить их производительность.

Перейдем к воплощению интерактивности на примере одного дашборда. Попробуйте следующие популярные функции:

  • Dashboard Chart Filter/Click-To-Filter. Вы можете нажимать на некоторые элементы данных и таким образом фильтровывать их. К примеру, здесь нажимаем на Австралию, все KPI и другие показатели отфильтровываются. Не нужно 20 дополнительных фильтров на дашборде. Так вы можете сэкономить пространство и сделать взаимодействие с вашей панелью удобной и понятной.

  • Drill-Throughs / Cross Tab Filters. Это фильтры детализации и перекрестных вкладок, позволяющие пользователям ознакомиться с данными с разных точек зрения. Например, расширить значение KPI для более подробного просмотра и разреза, как на примере ниже. Благодаря этому вы перейдете к другому визуалу с тем же набором фильтров. Фильтры перекрестных вкладок полезны для многостраничных дашбордов. Предположим, в вашем отчете десять страниц, и на каждой из них имеется шесть фильтров. Поэтому пользователи будут тратить время на установку одних и тех же значений для каждой страницы. А так вы синхронизируете значение фильтров и поможете им сэкономить усилия.

  • Drilldowns. С помощью детализаций можно добавить иерархию в отображении данных. Так вы сможете перейти от информации по кварталу до месяцев или дней, из категорий в подкатегории, из каналов в страны, связанные с этими каналами:

  • Custom Chart Tooltips. Это подсказки специальной диаграммы. Обычно в best practices рекомендуют использовать все их возможности, чтобы показать дополнительные важные моменты о ваших данных. Таким образом информация становится более значимой. Вы можете разместить текстовые описания и добавить другие визуалы.

Учите пользователей работать с BI-инструментами

Представьте, что пользователи раньше работали только с некоторыми таблицами Excel или слайдами и диаграммами PowerPoint. Теперь они начали использовать инструмент BI, например Power BI или Tableau. На этом этапе им не нужены все возможные функции. По сути, для своих целей им нужна цифра, которую вы получили из отчетов.

«Модные тулзы с чартами» — «Цифра»

Сначала функции дашбордов могут ошеломить пользователя. Поэтому будьте готовы потратить много времени, чтобы объяснить им все возможности инструментов. Главной целью ваших QA-сессий должна стать демонстрация преимуществ этих тулзов. Вы должны, так сказать, продать им этот инструмент BI.

Также можно создавать инструкции в помощь пользователям. Знакомя их с инструментами BI-аналитики, вы увеличиваете производительность их работы. Безусловно, многое здесь зависит от мотивации. Но готовность инвестировать в них свое время и знания должна быть в политике компании.

Как улучшить командную работу над дашбордом

Многие аналитики хотят самостоятельно работать над дашбордами, но на практике вы чаще будете сотрудничать с несколькими специалистами. Чтобы работа выполнялась эффективно и все были удовлетворены процессом и общим результатом, приведу несколько жизненных советов.

Я буду самостоятельно работать над дашбордами — Я: «Мои дашборды» — Мой тиммейт: «Имеешь в виду “наши”»?

Первая рекомендация — определите правила по названиям папок, заголовков дашбордов, вычислений и т.п. При проведении параллели с некоторыми методами разработки программного обеспечения мы могли бы организовать серверы Power BI или Tableau в онлайне с папками dev, test и production. Это поможет качественно проводить проверку и развертывать проект в правильной среде, а затем убедиться, что все в порядке. Это также помогает делиться знаниям, особенно если в команде есть новичок. Благодаря четким названиям всех элементов каждый будет уверенно работать с готовыми дашбордами и новыми данными.

Также вы можете попробовать и другие методы программной инженерии:

  • Системы контроля версий (Git). Если в проекте всего два аналитика, вам удобнее отправить друг другу файлы через мессенджер. В случае роста команды следует правильно построить процесс с самого начала. Благодаря системам контроля версий, вы можете видеть все изменения в проекте в любой момент, а также легко возвращаться к предыдущей версии.
  • Комментарии. С ними можно увидеть комментарии, методы или новые функции, реализованные на дашбордах. Также полезно избегать «последней последней» версии отчета 🙂
  • Чистый код. Для некоторых инструментов BI существует множество тулзов с открытым кодом. Они помогут с форматированием и очисткой кода.
  • Автоматизация CI/CD. Например, в Power BI можно автоматизировать конвейер развертывания с помощью API и Azure DevOps.

Инструменты BI для Data-аналитика

Сразу скажу: идеального полнофункционального инструмента нет. Иногда при работе с какой-нибудь малоизвестной тулзой вы не можете даже изменить цвета категорий. Хотя у хорошо известных инструментов есть слабые стороны.

К примеру, в Tableau практически нет ETL. Для этого нужно использовать отдельную программу Tableau Prep. Или Looker, один из самых дорогих инструментов BI. В нем вы не можете изменить всплывающие подсказки. Итак, разные инструменты BI служат для разных целей. Их выбор зависит от конкретных задач и условий проекта.

Идеальный функциональный BI-инструмент (которого не существует) — малоизвестная тулза, где ты не можешь даже изменить цвет

Еще одна бесполезная ожидание начинающих: достаточно овладеть одним инструментом, чтобы стать профи. Но в разных проектах вы можете столкнуться с разными тулзами для BI. Когда хорошо разбираетесь в принципах их работы, быстро овладеете любым новым инструментом. В основном у всех них одна логика — на основе SQL и функций перетаскивания.

Что же делать, если инструмент BI не позволяет достичь желаемого результата?

  • Ищите обходные приемы. В ходе конференции эксперты приводят следующую ситуацию: после публикации дашборда на сервере Power BI в одном из обновлений сервера кнопка сохранения отключилась. Это привело бы к тому, что невозможно настроить автоматическое обновление дашбордов на сервере. После некоторых исследований команда нашла решение: заменить состояние кнопки, включив ее с помощью html.
  • Общайтесь с сообществом пользователей BI-инструментов. К ним всегда можно обратиться за помощью. Некоторые инструменты оказывают еще и дополнительную платную поддержку. Например, у Tableau есть премиальная поддержка. С ней заметно ускоряются обработка проблем и получение ответов. Ведь работники службы поддержки больше погружены в задачи клиентов и оперативно помогают решать проблемы.
  • Подавайте запросы на новый функционал. Если вы работаете с не очень известным инструментом BI, иногда можно пообщаться с его разработчиками. Для больших проектов разработчики тулзов могут даже устраивать сессии с аналитиками. В ходе таких обсуждений вы можете узнать о новых функциях или редактировании существующих. На счет хорошо известных инструментов BI (как тот же Power BI), здесь вы можете изложить свою идею на их форуме, где такие же пользователи могут проголосовать за нее. Тогда, возможно, в будущем разработчики заметят ваше предложение и добавят новую функцию в следующей версии продукта.
  • Кроме того, специалисты ожидают, что ошибки в инструментах будут понятны и шаги шаги для их решения будут четкими. Но иногда вы получаете не подробное объяснение, а только номер ошибки. К примеру, в инструменте Pyramid BI есть только код из числа и буквы. Поэтому исправить ошибку очень сложно, поскольку нет никакой документации об этом инструменте, и раньше никто не сталкивался с подобной ситуацией. В таком случае можно обратиться за советом к коллегам по проекту или к IT-сообществу. Кроме этого можете воспроизвести все свои действия шаг за шагом, чтобы выяснить, где что-то пошло не так.

Ошибки в тулзах всегда будут понятны — «Ну хорошо. Берегите свои секреты!»

Напоследок еще один мем, чтобы вы улыбнулись. Как вы называете этот инструмент BI? Опытные аналитики могут упомянуть многие версии: Таблу, Таблю, Табля и, наконец, Табло.

Улыбнитесь! 🙂

Пошутили, а теперь закончим на серьезной ноте. Вот еще несколько полезных советов от экспертов NIX для работы в Data-проектах:

  • Находите время для создания всех типов документации данных. Улучшайте себе таким образом жизнь! При необходимости используйте внешние инструменты и постоянно обновляйте документацию.
  • Работайте над интерактивностью своих дашбордов. Используйте все возможные функции, но поступайте мудро — шаг за шагом.
  • Следите за новыми возможностями инструментов BI, с которыми вы часто работаете. При необходимости обращайтесь за помощью в службу поддержки и чаще общайтесь с другими специалистами в вашей команде.

Останні статті

Обучение Power BI – какие онлайн курсы аналитики выбрать

Сегодня мы поговорим о том, как выбрать лучшие курсы Power BI в Украине, особенно для…

13.01.2024

Work.ua назвал самые конкурентные вакансии в IТ за 2023 год

В 2023 году во всех крупнейших регионах конкуренция за вакансию выросла на 5–12%. Не исключением…

08.12.2023

Украинская IT-рекрутерка создала бесплатный трекер поиска работы

Unicorn Hunter/Talent Manager Лина Калиш создала бесплатный трекер поиска работы в Notion, систематизирующий все этапы…

07.12.2023

Mate academy отправит работников в 10-дневный оплачиваемый отпуск

Edtech-стартап Mate academy принял решение отправить своих работников в десятидневный отпуск – с 25 декабря…

07.12.2023

Переписки, фото, история браузера: киевский программист зарабатывал на шпионаже

Служба безопасности Украины задержала в Киеве 46-летнего программиста, который за деньги устанавливал шпионские программы и…

07.12.2023

Как вырасти до сеньйора? Девелопер создал популярную подборку на Github

IT-специалист Джордан Катлер создал и выложил на Github подборку разнообразных ресурсов, которые помогут достичь уровня…

07.12.2023