«Користуєтесь дашбордами? Ні, тільки дивимося»: пояснюємо дата-аналіз на мемах, зрозумілих кожному

Оленка Пилипчак

Здавалося б, як можна через таку фанову тему, як меми, розповідати про серйозні речі на кшталт Data Analysis та Business Intelligence? Насправді складні поняття та процеси тут доволі просто пояснюються мемами. Зрозумілий усім формат жартів допомагає розібратися в багатьох нюансах Data-аналізу. Як саме — дізнаємось із лекції про Data Analysis, яка відбулась у межах IT-конференції NIX Multiconf.

Цей матеріал буде корисний для тих, хто хоче спробувати себе в якості аналітика. Спеціалісти, які вже мають практичний досвід, можуть поглянути на добре відому тему під незвичним кутом.

Зміст

1. Що таке big data
2. Як виглядає робота в Data-проєкті
3. Каталоги даних — в чому їхня користь для Data-аналітиків?
3.1 Легкий пошук
3.2 Генерування каталогами даних Connection Strings
3.3 Для кожного ресурсу даних є багато корисної інформації
3.4 Глосарій
4. Що важливо знати про дашборди
5. Робіть інтерактивні дашборди
6. Навчайте користувачів працювати з BI-інструментами
7. Як покращити командну роботу над дашбордом
8. Інструменти BI для Data-аналітика
9. Що ж робити, коли ваш інструмент BI не дозволяє досягти бажаного результату?

Що таке big data

Існує багато концепцій, через які пояснюють цей термін. Експерти NIX віддають перевагу схемі 8V:

Схема 8V

  1. Volume — обсяг. Якщо у вас гігабайти даних, це вважається big data лише з точки зору їх обсягу.
  2. Velocity — швидкість генерації даних, частота їх оновлення та аналіз.
  3. Variety — різноманітність даних, наявність різних джерел. Великі дані можуть бути в будь-якому форматі: (не)структурованими, з однаковою структурою або різною і дуже складною.
  4. Veracity — правдивість, яка допомагає визначити, чи надходять дані з надійного джерела.
  5. Variability — мінливість, коли дані містять різні типи даних та відображаються в різних форматах.
  6. Value — бізнес-вартість даних.
  7. Visualization — візуалізація. Серед аналітиків популярна думка: якщо дані не представлені змістовно, то немає сенсу їх аналізувати.
  8. Validity — ця властивість big data показує, наскільки дані відповідають своєму призначенню.

На практиці найважливішими є обсяг, швидкість та різноманітність даних. Інші ж характеристики трохи подібні між собою і просто вносять більше деталей.

Коли ви чуєте про аналітика даних, насамперед очікуєте, що будете працювати з big data. В реальності ви можете отримати декілька великих файлів Excel, які потрібно об’єднати та використовувати як джерело даних. Однак операції можуть бути значно складнішими. Наприклад, включати чистку даних і встановлення зв’язків між файлами.

«Я працюватиму з бігдатою» — І тут тобі дають чотири ексельки як джерело даних — «Прийнятно»

Цікава яка тенденція. Пандемія COVID-19 викликала історичні зміни в роботі з big data, через що дані можуть дуже швидко старіти. Це порушує багато виробничих алгоритмів і моделей штучного інтелекту та машинного навчання. Як прогнозують у дослідженні Gartner, до 2025 року 70% світових компаній змінять фокус із великих даних на малі та широкі. Саме вони зменшують залежність компаній від big data.

Як виглядає робота в Data-проєкті

Для того, щоб не виникла плутанина в поняттях, одразу визначимося зі значенням абревіатур DBA та BDA.

DBA (Database administrator) використовується для визначення ролі адміністратора бази даних. BDA (Big Data Analytics) стосується аналітики бізнес-даних.

Аналітика бізнес-даних — це набір методів, технік і практик, які застосовуються для безперервного вивчення, повторення та дослідження попередніх і поточних даних про бізнес. Ця інформація дозволяє зрозуміти, які дані та дії над ними можуть поліпшити процес ухвалення рішень.

Схожі абревіатури, але різні значення

Процес аналізу бізнес-даних включає шість етапів:

1) Визначити дослідницькі питання.

2) Знайти вихідні дані — так ми можемо отримати відповіді на первинні питання.

3) Власне аналіз даних, під час якого може з’явитися ще більше запитань. Можливо, ви повернетеся до другого пункту та зміните перші питання.

4) Інтерпретувати отримані результати. В цьому пункті також можна повернутися до витоків першого етапу.

5) Використати отримані результати для прийняття зваженого бізнес-рішення.

6) Управління стратегією бізнес-знань на рівні системи — цей етап проходить червоною ниткою крізь увесь флоу.

Після отримання всієї важливої інформації варто дізнатися, чи є в проєкті документація та моделі даних, схеми даних чи хоча б щось із переліченого?

Інколи аналітики відчувають себе персонажем мему, наведеного нижче.

Щоразу при старті нового проєкту вони схрещують пальці і думають: «Може, цього разу пощастить, і проєкт матиме актуальну документацію або ж принаймні деяку».

На жаль, на практиці доводиться стикатися з недостатньо задокументованими проєктами.

На проєкті буде документація. «Ми робимо проєкт вже два роки» — «Тож ви маєте документацію, правда?» — …

Якщо ви працюєте над проєктом від самого початку, скажімо, рік, і вам знадобиться змінити певні бізнес-правила чи бізнес-логіку — ви можете не запам’ятати, чому в тому чи іншому місці були застосовані якісь правила. Коли це задокументовано, питань не виникне. В іншому випадку доведеться витратити час та сили на відновлення цієї інформації.

Розглянемо основні типи документації, з якими ви можете мати справу на Data-проєкті:

  1. Словники та глосарії. Це список термінів, які використовуються у вашому домені. Коли на старті проєкту ви почнете додавати їх до бази знань, ці терміни неодмінно допоможуть вам говорити з колегами однією мовою.
  2. Реляційні діаграми сутностей. Необхідні для розуміння, що таке модель бізнес-рішення.
  3. Схема бази даних. Це щось на зразок плану, який потрібен адміністраторам баз даних для їх створення та розробниками для заповнення даних у цій БД.
  4. Первинний звіт про збір даних. У ньому описано, які дані потрібні, з яких джерел ми їх візьмемо та на якому етапі видаляємо чи додаємо їх в остаточну версію.
  5. Звіт про якість даних. Тут зібрана інформація про те, чи є прогалини у значеннях, чи відомі їхні причини, чи є невідповідності заповнення деяких полів.

У таблиці наведено приклад словника даних. Його шаблони можуть відрізнятися, але основними стовпцями зазвичай є назва, визначення, тип даних. Іноді навіть сховища даних можуть створити такий шаблон. Якщо у вас різні джерела даних, то вони напевно не матимуть однакової структури. Тому краще зберігати їх в одному місці та надавати колегам єдиний формат структури. І вже існує інструмент, який допоможе вам у цьому — каталоги даних.

Каталоги даних — в чому їхня користь для Data-аналітиків?

Каталоги об’єднують метадані про наявні big data і допомагають налаштувати процес управління даними в компанії. Найкрутіше в каталогах те, що вони можуть створити частину документації для вас.

На цих скріншотах ви можете побачити кілька екранів з каталогу даних Azure. Пояснимо детальніше його можливості.

Легкий пошук

У каталозі є ресурси даних, за допомогою яких можна шукати інформацію, використовувати розширений пошук чи деякі фільтри і додавати теги, щоб полегшити пошук. Для кожного джерела даних можна знайти вікно запиту доступу і розмістити там інформацію про всі кроки для отримання доступу до цього джерела.

Якщо організація велика, інколи отримання доступу може бути проблемою — і може нагадувати пошук чорного кота в темній кімнаті. Якщо ж тримати всю інформацію в одному місці, у вас буде зрозуміла покрокова інструкція:

  • спочатку треба заповнити форму й отримати схвалення менеджера;
  • далі надіслати електронний лист до служби підтримки;
  • в результаті ви легко отримаєте доступ до джерела даних і заощадите свій час.

Генерування каталогами даних Connection Strings

Ще одна цікава функція — каталоги даних можуть генерувати Connection Strings. У випадку з Azure можна під’єднатися до джерела даних, наприклад, в Excel або Power BI. Каталоги не завантажують дані безпосередньо в Excel, але створюють це з’єднання. Після того, як ви додасте облікові дані, зможете отримати й доступ до самих даних.

Для кожного ресурсу даних є багато корисної інформації

Наприклад, профілі даних, основні характеристики полів тощо. Ми можемо попередньо переглянути дані, тому не потрібно встановлювати з’єднання з джерелом і виконувати запит. Просто шукаємо потрібні нам дані і бачимо, які є типи даних, стовпців, значень. А ще одна цікава річ — походження даних. Ви можете крок за кроком йти від початкового джерела, де отримуєте дані, до дашборду, який створюєте.

Глосарій

Окремо хочу сказати про глосарій. Як ми вже згадували, це важливий тип документації. В ньому ви можете зберігати всі свої терміни, затверджувати їх в адміністратора, додавати батьківські терміни для створення певної ієрархії. Також можете зв’язати їх із дата-об’єктами і побачити поля, в яких можна об’єднати таблиці між собою.

Як бачите, каталоги даних — це дійсно зручний інструмент для роботи.

Що важливо знати про дашборди

Одна з цілей роботи зі стейкхолдерами — зробити їх щасливими. Проте іноді, незважаючи на всі зусилля, цього досягти не вдається.

Стейкхолдер завжди буде щасливий — Ти робиш все по макету клієнта — Стейкхолдер: «Як потворно»

Пояснимо на прикладі поширеної ситуації. До команди звертається стейкхолдер із чимось на кшталт наведеного нижче мокапу дашборду. Він хоче бачити тут дані для всіх продуктів одночасно. І для кожного з них — KPI, стовпчасті діаграми, кругові діаграми тощо. Можете самі переконатися, що це не найкраще рішення…

Мокап дашборду клієнта

Проблема полягає в тому, що горизонтальна протяжність дашборду доволі велика. В ньому зібрано занадто багато всього. Зазвичай аналітики одразу говорять про це стейкхолдеру. Однак часто клієнт наполягає реалізувати все саме за таким макетом. Після завершення розробки під час демонстрації дашборду скоріш за все замовник не буде задоволений побаченим і пояснить це приблизно так: «Я думав, що все буде не так горизонтально».

Що робити в такій ситуації:

  • насамперед розділити дашборди за продуктами: одна панель — один продукт;
  • потім необхідно змінити дизайн, де метрики розташовані більш продумано та наочно;
  • можна додати можливість перемикатися між продуктами, змінюючи значення фільтра;
  • для порівняння продуктів між собою можна скласти зведену таблицю зі значеннями показників.

Погляньте, як це може виглядати:

Варіант, який можна створити

Робіть інтерактивні дашборди

Дашборди мають бути зрозумілими і корисними для клієнтів. А візуально гарні дашборди ще й виглядають цікавіше. Інтерактивність дозволить зробити роботу з даними більш ефективною. Яким чином?

Дашборди будуть корисними — «Користуєтеся дашбордами?» — «Нє, лишень дивимося» — «Гарнезно»

  • Жвавість ухваленно рішень. Саме інтерактивний аналіз допомагає користувачам відповідати на деякі критичні бізнес-питання на основі нових даних. Усього за кілька кліків на них можна поглянути з іншого ракурсу. Тому коти з цього відомого мему завжди знатимуть про ціну на сьогоднішню рибу 🙂
  • Уникнення зайвих звітів. Замість створення десяти статичних слайдів у PowerPoint вам потрібен лише один інструмент з інтерактивними функціями для швидкої адаптації зображення. Хоча не виключено, що ви стикатиметесь із клієнтами, яким треба експортувати дашборди саме у презентації PowerPoint.
  • Менше IT-залучення. Дозволяючи користувачам виконувати власний аналіз даних, компанія може заощадити час та інші ресурси. У свою чергу ІТ-фахівці зможуть зосередитись на власних невідкладних і стратегічних завданнях.
  • Швидкість. При використанні традиційних електронних таблиць чи презентацій PowerPoint дані треба вставляти вручну і так само оновлювати. Сучасні інструменти в дашбордах значно полегшують життя, оновлюючи дані в режимі реального часу. А це збільшує швидкість отримання необхідних відповідей.
  • Продуктивність. Обсяг даних для збору та аналізу постійно зростає. Тому статичні таблиці з мільйонами рядків та стовпців вже не працюють. А от інтерактивні інструменти BI дозволяють користувачам самостійно взаємодіяти з даними та використовувати технології, які можуть підвищити рівень їх продуктивності.

Перейдемо до втілення інтерактивності на прикладі одного дашборду. Спробуйте такі популярні функції:

  • Dashboard Chart Filter / Click-To-Filter. Ви можете натискати на деякі елементи даних і таким чином відфільтровувати їх. Наприклад, тут натискаємо на Австралію, і всі KPI та інші показники відфільтровуються. Не потрібні 20 додаткових фільтрів на дашборд. Так ви можете заощадити простір та зробити взаємодію з вашою панеллю зручною і зрозумілою.

  • Drill-Throughs / Cross Tab Filters. Це фільтри деталізації та перехресних вкладок, які дозволяють користувачам дивитися на дані з різних точок зору. Наприклад, розширити значення KPI до більш детального перегляду та розрізу, як на прикладі нижче. Завдяки цьому ви перейдете до іншого візуалу з тим самим набором фільтрів. Фільтри ж перехресних вкладок корисні для багатосторінкових дашбордів. Припустимо, у вашому звіті десять сторінок, і на кожній з них є шість фільтрів. Через це користувачі гаятимуть час на встановлення одних і тих самих значень для кожної сторінки. А так ви синхронізуєте значення фільтрів і допоможете їм зекономити зусилля.

  • Drilldowns. За допомогою деталізацій можна додати ієрархії у відображенні даних. Так ви зможете перейти від інформації по кварталу до місяців або днів, з категорій до підкатегорій, з каналів до країн, пов’язаних з цими каналами:

  • Custom Chart Tooltips. Це підказки спеціальної діаграми. Зазвичай в best practices рекомендують використовувати всі їх можливості, щоб показати додаткові важливі моменти про ваші дані. Таким чином інформація стає більш значущою. Ви можете розмістити текстові описи та додати інші візуали.

Навчайте користувачів працювати з BI-інструментами

Уявіть, що раніше ваші користувачі працювали лише з деякими таблицями Excel чи слайдами та діаграмами PowerPoint. Тепер вони почали використовувати інструмент BI, наприклад, Power BI або Tableau. На цьому етапі їм не потрібні всі можливі функції. По суті для своїх цілей їм було б добре мати лише цифру, яку ви отримали зі звітів.

«Модні тулзи з чартами» — «Цифра»

Спершу функції дашбордів можуть приголомшити користувача. Тому будьте готові витратити чимало часу, щоб пояснити їм усі можливості інструментів. Головною метою ваших QA-сесій має стати показ переваг цих тулзів. Ви повинні, так би мовити, «продати» їм цей інструмент BI.

Також можна створювати посібники на допомогу користувачам. Знайомлячи їх з інструментами BI-аналітики, ви підвищуєте продуктивність їхньої роботи. Безумовно, багато в чому тут залежить від мотивації людей. Однак готовність інвестувати в них свої час та знання має бути в політиці компанії.

Як покращити командну роботу над дашбордом

Чимало аналітиків хочуть самостійно працювати над дашбордами, але на практиці ви частіше будете співпрацювати з кількома фахівцями. Щоб робота виконувалась ефективно і всі бути задоволенні процесом та спільним результатом, наведу кілька життєвих порад.

Я самостійно працюватиму над дашбордами — Я: «Мої дашборди» — Мій тіммейт: «Маєш на увазі “наші”»?

Перша рекомендація — визначте правила щодо назв для папок, заголовків дашбордів, обчислень тощо. Якщо провести паралель із деякими методами розробки програмного забезпечення, ми могли б організувати сервери Power BI або Tableau в онлайні з папками dev, test та production. Це допоможе якісно проводити перевірку та розгортати проєкт у правильному середовищі, а потім переконатися, що все в порядку. Це також допомагає ділитися знання, особливо якщо в команді є новачок. Завдяки чітким назвам усіх елементів кожен впевнено працюватиме з готовими дашбордами і новими даними.

Також можете спробувати й інші методи програмної інженерії:

  • Системи контролю версій (Git). Якщо в проєкті лише два аналітики, то вам зручніше надіслати одне одному файли через месенджер. У разі зростання команди варто правильно побудувати процес від самого початку. Завдяки системам контролю версій ви можете бачити всі зміни в проєкті в будь-який момент, а також легко повертатися до попередньої версії.
  • Коментарі. З ними ви можете побачити коментарі, методи чи нові функції, реалізовані на дашбордах. Також корисно уникати «останньої останньої останньої» версії звіту 🙂
  • Чистий код. Для деяких інструментів BI існує багато тулзів із відкритим кодом. Вони допоможуть із форматуванням та очищенням коду.
  • Автоматизація CI/CD. Наприклад, у Power BI ви можете автоматизувати конвеєр розгортання за допомогою API та Azure DevOps.

Інструменти BI для Data-аналітика

Одразу скажу: ідеального повнофункціонального інструмента не існує. Інколи під час роботи з якоюсь маловідомою тулзою ви не можете навіть змінити кольори категорій. Хоча й добре відомі інструменти мають слабкі сторони.

Наприклад, в Tableau практично немає ETL. Для цього потрібно використовувати окрему програму Tableau Prep. Або ж Looker, один із найдорожчих інструментів BI. В ньому ви не можете змінити спливаючі підказки. Отже, різні інструменти BI служать для різних цілей. Їхній вибір залежить від конкретних задач та умов проєкту.

Ідеальний функціональний BI-інструмент (якого не існує) — Маловідома тулза, де ти не можеш навіть змінити кольори

Ще одне марне сподівання початківців: достатньо опанувати один інструмент, щоб стати профі. Однак у різних проєктах ви можете зіткнутися з різними тулзами для BI. Коли добре розбираєтесь у принципах їх роботи, то швидко опануєте будь-який новий інструмент. Переважно всі вони мають одну логіку — на основі SQL та функцій перетягування.

Що ж робити, коли ваш інструмент BI не дозволяє досягти бажаного результату?

  • Шукайте обхідні прийоми. Під час конференції експерти наводять таку ситуацію: після публікації дашборду на сервері Power BI в одному з оновлень сервера кнопка збереження вимкнулась. Це призвело б до того, що неможливо було б налаштувати автоматичне оновлення дашбордів на сервері. Після певних досліджень команда знайшла рішення: замінити стан кнопки, увімкнувши її за допомогою html.
  • Спілкуйтеся зі спільнотою юзерів BI інструментів. До них завжди можна звернутися за допомогою в разі потреби. Деякі з інструментів надають ще й додаткову платну підтримку. Наприклад, в Tableau є преміальна підтримка. З нею помітно прискорюються обробка проблем та отримання відповідей. Адже працівники служби підтримки більше занурені в завдання клієнтів й оперативно допомагають вирішувати проблеми.
  • Подавайте запити на новий функціонал. Якщо ви працюєте з не дуже відомим інструментом BI, інколи є можливість поспілкуватися з його розробниками. Для великих проєктів розробники тулзів можуть навіть влаштовувати сесії з аналітиками. Під час таких обговорень ви можете дізнатися про нові функції або редагування наявних. На рахунок добре відомих інструментів BI (як той же Power BI), то тут ви можете викласти свою ідею на їх форумі, де такі ж користувачі можуть проголосувати за неї. Тоді, можливо, у майбутньому розробники помітять вашу пропозицію і додадуть нову функцію в наступній версії продукту.
  • Крім того, фахівці очікують, що помилки в інструментах будуть зрозумілими і матимуть чіткі кроки для їх вирішення. Проте іноді ви отримуєте не детальне пояснення, а лише номер помилки. Наприклад, в інструменті Pyramid BI є лише код з числа і букви. Тому інколи виправити помилку дуже складно, оскільки немає жодної документації про цей інструмент, і раніше ніхто не стикався з подібною ситуацією. У такому випадку можна звернутися за порадою до колег по проєкту або до IT-спільноти. Крім цього можете відтворити всі свої дії крок за кроком, аби з’ясувати, де саме щось пішло не так.

Помилки у тулзах завжди будуть зрозумілими — «Ну добре. Бережи свої секрети!»

Наостанок — ще один мем, щоб ви посміхнулись. Як ви називаєте цей інструмент BI? Досвідчені аналітики можуть згадати багато версій: Таблу, Таблю, Табля і врешті — Табло.

Посміхніться! 🙂

Пошуткували, а тепер завершимо на серйозній ноті. Ось ще кілька корисних порад від експертів NIX для роботи у Data-проєктах:

  • Знаходьте час для створення всіх видів документації даних. Поліпшуйте собі життя таким чином. Якщо треба, скористайтеся зовнішніми інструментами і постійно оновлюйте документацію.
  • Працюйте над інтерактивністю своїх дашбордів. Використовуйте всі можливі функції, але робіть це мудро — крок за кроком.
  • Слідкуйте за новими можливостями інструментів BI, з якими часто працюєте. За необхідності звертайтеся за допомогою до служби підтримки та частіше спілкуйтесь з іншими фахівцями у вашій команді.
Оленка Пилипчак
Теги: big data

Останні статті

Айтівець Міноборони США понабирав кредитів і хотів продати рф секретну інформацію

32-річний розробник безпеки інформаційних систем Агентства національної безпеки Джарех Себастьян Далке отримав 22 роки в'язниці…

30.04.2024

Простий та дешевий. Українська Flytech запустила масове виробництво розвідувальних БПЛА ARES

Українська компанія Flytech представила розвідувальний безпілотний літальний апарат ARES. Основні його переваги — недорога ціна…

30.04.2024

Запрошуємо взяти участь у премії TechComms Award. Розкажіть про свій потужний PR-проєкт у сфері IT

MC.today разом з Асоціацією IT Ukraine і сервісом моніторингу та аналітики згадок у ЗМІ та…

30.04.2024

«Йдеться про потенціал мобілізації»: Україна не планує примусово повертати українців із ЄС

Україна не буде примусово повертати чоловіків призовного віку з-за кордону. Про це повідомила у Брюсселі…

30.04.2024

В ЗСУ з’явився жіночий підрозділ БПЛА — і вже можна проходити конкурсний відбір

В Збройних Силах України з'явився жіночий підрозділ з БПЛА. І вже проводиться конкурсний відбір до…

30.04.2024

GitHub на наступному тижні випустить Copilot Workplace — ШІ-помічника для розробників

GitHub анонсував Copilot Workspace, середовище розробки з використанням «агентів на базі Copilot». За задумкою, вони…

30.04.2024