ru:https://highload.today/blogs/karera-v-data-science-ukr/ ua:https://highload.today/uk/blogs/karera-v-data-science-ukr/
logo
Кар'єра      06/12/2021

Як почати кар’єру в Data Science: п’ять реальних історій

Александра Богуславская BLOG

СЕО & Founder Data Science UA

Привіт! Мене звати Олександра Богуславська, я СЕО та Founder у Data Science UA. Протягом п’яти років наша компанія побудувала сильне ком’юніті у цій сфері: організовує конференції та курси, активно розбудовує напрями консалтингу та R&D, відкриває AI R&D центри в Україні для партнерів із Європи та США.

Я поспілкувалася із найкращими спеціалістами у сфері Data Science і сьогодні хочу розповісти про те, що необхідно знати тим, хто тільки починає свій шлях у цьому напрямку. 

Data Science та наука

Розповідає Олександр Романко, Adjunct Professor у Торонтському університеті, Українському католицькому університеті, Київській школі економіки.

Найперший крок — стажування

Моя перша робота в цій сфері — стажування в компанії IBM, де я і залишився працювати. Крім технічних навичок важливими були бізнесові навички (навіть для того, щоб переконати компанію взяти мене на стажування). Робота була пов’язана із прикладними дослідженнями. Компанія хотіла, щоб апліканти мали мінімум магістерський ступінь (а ще краще — PhD) в галузях, пов’язаних з математикою, статистикою, комп’ютерними науками або аналітикою даних. З технічних навичок головними були розуміння математики та алгоритмів, а також програмування.

Ресурси, що прокачують навички

Мені подобаються як курси в університетах, так і онлайн-курси. Раджу портали Coursera, EdX, Udemy, Udacity, DataCamp. Мітапи і короткострокові курси також сильно допомагають. Ну і куди ж без книг та статей, адже багато робіт в Data Science пов’язані з прикладними дослідженнями.

Чого не вистачає колегам?

Зазвичай колегам не вистачає як технічних (хард), так і бізнесових (софт) навичок.

Тому навчання протягом життя — наше все. І спробуйте в кожному проекті побачити те, що називають big picture.

Чому варто приділити найбільше часу тим, хто тільки починає свій шлях у Data Science?

Має сенс спочатку розібратися, чи це дійсно та сфера, яка вас драйвить. Якщо ні — займіться чимось іншим. Якщо так — рекомендую не нехтувати софт-скілами і на початку кар’єри приділити увагу сторітелінгу, вмінню пояснити, що ви робите, командній роботі, комунікаційним навичкам, вмінню робити презентації. А далі розібратися, яких технічних навичок вам не вистачає — і заповнювати прогалини. 

Рекомендації початківцям

Якщо вас драйвить аналітика, то не полініться й зробіть аналітику особисто для себе. Наприклад, які навички слід прокачати аби отримати високу заробітну плату в цій галузі? Також зберіть невелике портфоліо проектів, над якими ви працювали, і вмійте про них розповісти.

Курс Fullstack Web Development.
Стань універсальним розробником, який може створювати веб-рішення з нуля.
Приєднатися

Нетворкайтеся і волонтерте на різних подіях — це дасть вам можливість знаходити нові роботи. Підіть до школи або університету і розкажіть про професію дата-сайєнтиста.

Історія Research Engineer

Розповідає Філіпп Кофман, Research Engineer у Squad.

Мій перший крок — освіта

Найбільше мені допомогла освіта, отримана на бакалавраті Харківського мехмату, та практичні курси у Школі аналізу даних. Вміння швидко розбиратися у складних математичних конструкціях та базові прикладні навички дозволили класно стартувати на роботі. Особливий вклад дали курси з математичного аналізу, лінійної алгебри, теорії ймовірності, статистики та методів оптимізації. Вони заклали міцний фундамент.

Алгоритми та структури даних найкраще відточилися на олімпіадах. Ця активність навчила швидко думати, орієнтуватись у технічних ввідних, а також сприяла навичці перетворювати неформальні ідеї на суворі формули та програми. По суті, міст між теорією та практикою.

Практичні курси з С++ та Python навчили мене базовим концепціям, як зробити код не лише робочим, а й застосовним. Навчили мінімальному необхідному інструментарію. Допомогли напрацювати портфоліо.

Ресурси, що прокачують навички

ArXiv — для вивчення напрацювань. Coursera та Stepik — для швидкого знайомства з будь-чим. Окрему роль відіграє відвідування технічних конференцій та живе спілкування зі спікерами.

Чого не вистачає колегам?

В цілому є проблеми із фундаментом. Так, розбираючись з чимось новим, доводиться витрачати велику кількість часу на вивчення супутнього математичного апарату. В іншому випадку знайомство з новим відбувається поверхнево. Окрема проблема — це обмеженість тільки дослідницькими завданнями. Звичайно, це твердження можна парирувати тим, що є спеціальні інженери для задач, пов’язаних з інтеграцією ML.

Проте на практиці, якщо займатися чимось серйозним, без інженерних навичок неможливо отримати хороші результати. Набагато простіше отримати добре навчену нейронну мережу, маючи пайплайн для швидких ітерацій.

Чому варто приділити найбільше часу тим, хто тільки починає свій шлях у Data Science?

Я б порекомендував звернути увагу на фундаментальну базу в області математичного аналізу, лінійної алгебри, теорії ймовірності, статистики, алгоритмів і інженерних навичок.

Рекомендації початківцям

В першу чергу, вчіться думати, транслювати неформальне в формальне і не бійтеся помилятися.

Історія комп’ютерної лінгвістки з Grammarly

Розповідає Мар’яна Романишин, комп’ютерна лінгвістка. Працює в галузі опрацювання природної мови (NLP) з 2011 року. З 2015 року — техлід команди комп’ютерних лінгвістів у компанії Grammarly. 

Як мені пощастило

Мені пощастило отримати першу роботу в NLP одразу після закінчення університету. Шведська компанія Brainglass шукала в Україні фахівців з опрацювання природної мови, щоб створити додаток для дистанційного вивчення англійської мови. Важливу роль тоді відіграло вміння програмувати, загальна технічна обізнаність та мій досвід викладання, що було релевантно для продукту. Однак найважливішим фактором було те, що на співбесіді я змогла згенерувати ідеї для продукту, зокрема як автоматично визначити складність тексту та як генерувати вправи для вивчення мови.

Ресурси, що прокачують навички

На початку кар’єри я проходила багато онлайн-курсів, читала профільні книги та виконувала завдання по них. Вправи на курсах та в книжках дозволили мені напрактикуватися з різноманітними задачами у сфері NLP, прокачати алгоритмічні навички та покращити програмування.

Зараз я стежу за новинками в NLP за допомогою конференцій, мітапів та профільних e-mail-розсилань. Так я дізнаюся про тренди, надихаюся цікавими рішеннями та формую професійне коло спілкування в Україні та за кордоном. Найбільш корисними для мене стали конференції COLING, ACL, EACL та AI Ukraine. Час від часу я також відвідую літні школи, останньою з яких була ESSLLI 2019 у Ризі.

Тим не менш, я найбільше прокачуюся, коли готую воркшопи, доповіді на конференції чи заняття для студентів.

Коли тема мене зацікавила і є можливість розповісти про неї світові, з’являється додаткова мотивація копати якомога глибше і експериментувати з рішеннями.

Чого не вистачає колегам?

Галузь опрацювання природної мови перебуває на перетині лінгвістики, штучного інтелекту та програмування. Саме тому задачі в NLP настільки цікаві.

Проте дослідникам часто бракує знань із лінгвістики, а лінгвістам — алгоритмів та вміння добре програмувати.

Онлайн-курс Pyton.
Опануйте PYTHON з нуля та майте проект у своєму портфоліо вже через 4 місяця.
Приєднатися

Чому варто приділити найбільше часу тим, хто тільки починає свій шлях у Data Science?

Зосередьтеся на практиці. Раджу розв’язувати задачі з книжок та курсів, робити pet-проекти, брати участь у змаганнях (shared tasks) чи долучатися до відкритих проектів. Новачки у NLP, наприклад, можуть написати свій класифікатор текстів за тематикою, правописник чи генератор віршів — будь-який проект такого штибу буде кориснішим, ніж читання статей та слухання лекцій на початковому етапі. І на співбесіді буде про що розповісти.

Рекомендації початківцям

Можу дати поради початківцям у NLP:

  • Забезпечити собі багато практики. З матеріалів: зовсім початківцям раджу пройти Natural Language Processing with Python, а тим, кому цей матеріал уже знайомий, раджу Speech and Language Processing.
  • Ретельно вивчати свої дані. Не лише дивитися статистичну інформацію по своїх даних, а реально дивитися на них очима 🙂
  • Освоїти методологію роботи над проектами. Є гарний блог Андрія Карпати, де він описує рецепт для тренування нейромереж, але багато порад стосується загального підходу до роботи.

Data Science та алгоритмічна торгівля

Розповідає Олександр Проскурін, Co-Founder and CIO at Principia Invest, Co-Founder at Hudson and Thames Quantitative Research.

Мій перший крок — освіта та занурення у специфіку

Так вийшло, що вакансія для першої роботи в сфері алгоритмічної торгівлі була опублікована на сайті факультету Інституту прикладного системного аналізу КПІ. З навичок, які допомогли — базова освіта (математичний аналіз, лінійна алгебра і статистика), так як це були головні вимоги від роботодавця. Однак фінальним критерієм для прийняття мене на роботу було розуміння специфіки роботи фінансових ринків і кількісних фінансів, які доводилося вивчати самостійно.

Ресурси, що прокачують навички

Глобально алгоритмічна торгівля складається з двох великих блоків: розуміння, як працюють фінансові ринки, і методи статистичного аналізу, і моделювання (включаючи ML). 

З приводу першого, слід почати з базових книг. Наприклад, якщо хочеш зрозуміти як працюють деривативиДоговір, за яким сторони отримують право або зобов'язуються виконати деякі дії щодо базового активу — береш книгу на 700 сторінок Options, Futures, and Other Derivatives і читаєш.

Якщо ж говорити про ML, то тут є три варіанти (і тут бажано йти за принципом «і-і», а не «або-або»). Академічна освіта, добре відомі зарубіжні книжки (наприклад Hastie), ну і, звичайно ж, онлайн-курси. 

Пам’ятаю, мій шлях в ML почався з курсу Andrew Ng на Coursera. Коли є база, необхідно розуміти, що відбуватиметься в індустрії. Завантажте програму RSS Feed і підпишіться на розсилку Quantocracy. Підпишіться на Twitter-акаунти найбільш відомих квантів і трейдерів (я відносно нещодавно відкрив для себе Twitter і був вражений тим, наскільки багато корисної інформації можна там отримати у стислому вигляді).

Ну і наукові статті: є відкриті наукові ресурси (SSRN, Arxiv), є платні. Якщо дозволяють кошти — купіть підписку на Journal of Financial Data Science, Journal of Portfolio Management and Research, Risk.net. 

Зазвичай у наукових статтях немає готових рішень або стратегій, однак регулярне читання дає поживу для роздумів, розуміння актуальних тенденцій і ідеї для поліпшення поточної стратегії (часом сама стаття може бути не дуже інформативною, але декілька пропозицій з неї може наштовхнути на власне дослідження).

Чого не вистачає колегам?

На жаль, прийнято вважати, алгоритм/модель — найголовніше, що є у трейдера. Як результат, всі намагаються «накинути» цілу армію нейронних мереж на нещасний датасет з денних цін закриття. Серце алгоритму — дані. Фінансові дані вкрай специфічні, і самого розуміння недостатньо багатьом фахівцям в індустрії. Потрібно розуміти мікроструктуру фінансових ринків — торгові сесії, як біржі і датапровайдери представляють дані, які найбільш поширені проблеми при роботі з центовими, фундаментальними та альтернативними даними. 80% часу, який витрачає Quantitative Researcher (ML Engineer в світі фінансів) — це аналіз і побудова необхідних структур даних. Якщо ви невірно склеїли ф’ючерсні контракти — ніяка нейронна мережа вам не допоможе.

Чому варто приділити найбільше часу фахівцям, які тільки починають свій шлях в Data Science?

Зверніть увагу на базу. Без міцного фундаменту неможливо побудувати довгострокову стратегію розвитку. Під «базою» я маю на увазі фундаметальну математичну освіту і розуміння, як працюють ключові алгоритми на низькому рівні. Не поспішайте імпортувати TensorFlow, Keras і Scikit-learnБезкоштовна програмна бібліотека машинного навчання для Python. Напишіть свою нейронну мережу, random forestАлгоритм машинного навчання, що полягає у використанні комітету вирішальних дерев, gradient boosted treeМетод машинного навчання, що використовується у завданнях регресії та класифікації з нуля. Це найкращий спосіб розібратися в роботі алгоритму.

Рекомендації початківцям

Починайте вивчати фінанси якомога раніше, але концентруйтеся на математичних дисциплінах і моделюванні. Найбільш успішний алгоритмічний фонд був побудований математиками, які пішли в фінанси, а не навпаки.

Зробити з хорошого математика трейдера значно легше, ніж виховати в трейдера математичні навички (якщо це взагалі можливо).

Data Science та консалтинг

Розповідає Вероніка Тамайо Флорес, Head of Consulting у Data Science UA.

Мій перший крок — освіта і бажання працювати

В першу чергу — освіта в IE Business School (Іспанія). Там я отримала технічні навички, розуміння принципів роботи з даними і саме бажання працювати над проектами в сфері Data Science. База залишається актуальною досі, хоча вже пройшло більше трьох років з моменту закінчення.

Думаю, що свою роль зіграв і досвід роботи з маркетингової аналітикою і роздробом.

Ресурси, що прокачують навички

Всього потроху: читаю книги і статті, беру участь у заходах і як доповідач, і як слухач.

Краще прокачування — це вчити інших. Тому викладаю практично скрізь, куди мене звуть.

Чого не вистачає колегам?

Якщо з технічними навичками все більш-менш, то ось бізнесових і софтових не вистачає багатьом. Часто технічні фахівці не розуміють, як працює бізнес в цілому або конкретні його сфери і напрямки, як в принципі можуть вирішуватися ті чи інші завдання, як спілкуватися з клієнтами і так далі.

Ще помічаю, що рівень володіння англійською мовою кульгає у багатьох. У випадку з розробкою, обов’язково як мінімум впевнено читати і розуміти англійську на слух, адже зараз це основна мова написання документації і навчання технічним навичкам.

Чому варто приділити найбільше часу тим, хто тільки починає свій шлях у Data Science?

Крім англійської, початківцям варто присвятити час поліпшенню критичного мислення і фундаментальним математичним знанням.

Рекомендації початківцям

Хоча попит на фахівців великий, це не гарантує працевлаштування для кожного. Програма мінімум для трейні- і джуніор-фахівців:

  • знати всі основні алгоритми навчання з вчителем і без вчителя;
  • мати базове розуміння принципів роботи нейромереж;
  • англійська — не нижче Intermediate;
  • хороше розуміння всіх стадій пайплайну машинного навчання;
  • три-чотири пройдених змагання на Kaggle (навчальні підійдуть) або GitHub з кодом різних вирішених завдань з поясненнями.

Від початківців я не очікую ідеального коду або нестандартних технічних рішень. Найголовніше — це процес мислення і підхід до вирішення завдань.

Приєднуйтесь до нашого комьюніті та давайте змінювати світ з АІ разом!

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Математика та статистика для Data Science.
Курс, на якому ви навчитеся проводити статистичний аналіз даних за допомогою Python та розвинете математичне мислення для розв'язання реальних завдань Data Science.
Більше про курс

Цей матеріал – не редакційний, це – особиста думка його автора. Редакція може не поділяти цю думку.

Топ-5 найпопулярніших блогерів лютого

Всего просмотровВсього переглядів
229
#1
Всего просмотровВсього переглядів
229
Всего просмотровВсього переглядів
209
#2
Всего просмотровВсього переглядів
209
QA в CodeGeeks Solutions
Всего просмотровВсього переглядів
156
#3
Всего просмотровВсього переглядів
156
Senior Project Manager at Nemesis
Всего просмотровВсього переглядів
99
#4
Всего просмотровВсього переглядів
99
Software Architect at Devlify
Всего просмотровВсього переглядів
95
#5
Всего просмотровВсього переглядів
95
Рейтинг блогерів

Найбільш обговорювані статті

Топ текстів

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: