Привет! Меня зовут Александра Богуславская, я СЕО и Founder в Data Science UA. В течение пяти лет наша компания построила сильное комьюнити в этой сфере: организовывает конференции и курсы, активно развивает направления консалтинга и R&D, открывает AI R&D-центры в Украине для партнеров из Европы и США.
Я пообщалась с лучшими специалистами в сфере Data Science и сегодня хочу рассказать, что необходимо знать тем, кто только начинает свой путь в этом направлении.
Data Science и наука
Рассказывает Александр Романко, Adjunct Professor в Торонтском университете, Украинском католическом университете, Киевской школе экономики.
Самый первый шаг — стажировка
Моя первая работа в этой сфере — стажировка в компании IBM, где я и остался работать. Помимо технических навыков важными были навыки бизнеса (даже для того, чтобы убедить компанию взять меня на стажировку). Работа была связана с прикладными исследованиями. Компания хотела, чтобы аппликанты имели минимум магистерскую степень (а еще лучше — PhD) в отраслях, связанных с математикой, статистикой, компьютерными науками или аналитикой данных. По техническим навыкам главными были понимание математики и алгоритмов, а также программирование.
Ресурсы, прокачивающие навыки
Мне нравятся как курсы в университетах, так и онлайн-курсы. Советую порталы Coursera, EdX, Udemy, Udacity, DataCamp. Митапы и краткосрочные курсы тоже сильно помогают. Ну и куда без книг и статей, ведь многие работы в Data Science связаны с прикладными исследованиями.
Чего не хватает коллегам?
Обычно коллегам не хватает как технических (хард), так и бизнесовых (софт) навыков.
Поэтому обучение на протяжении жизни — наше все. И попробуйте в каждом проекте увидеть, что называют big picture.
Чему стоит уделить больше времени тем, кто только начинает свой путь в Data Science?
Имеет смысл сначала разобраться, действительно ли это та сфера, которая вас драйвит. Если нет — займитесь чем-нибудь другим. Если да — рекомендую не пренебрегать софт-скиллами и в начале карьеры уделить внимание сторителлингу, умению объяснить, что вы делаете, командной работе, коммуникационным навыкам, умению делать презентации. А дальше разобраться, каких технических навыков вам не хватает — и заполнять пробелы.
Рекомендации начинающим
Если вас драйвит аналитика, то не поленитесь и сделайте аналитику лично для себя. Например, какие навыки нужно прокачать, чтобы получить высокую зарплату в этой области? Также соберите небольшое портфолио проектов, над которыми вы работали, и умейте рассказать о них.
Нетворкайте и волонтерьте на разных событиях — это даст вам возможность находить новые работы. Пойдите в школу или университет и расскажите о профессии дата-сайентиста.
История Research Engineer
Рассказывает Филипп Кофман, Research Engineer в Squad.
Мой первый шаг — образование
Больше всего мне помогло образование, полученное на бакалавриате Харьковского мехмата, и практические курсы в Школе анализа данных. Умение быстро разбираться в сложных математических конструкциях и базовые прикладные навыки помогли классно стартовать на работе. Особый вклад дали курсы математического анализа, линейной алгебры, теории вероятности, статистики и методов оптимизации. Они заложили крепкий фундамент.
Алгоритмы и структуры данных лучше отточились на олимпиадах. Эта активность научила быстро думать, ориентироваться в технических вводных, а также поспособствовала навыку превращать неформальные идеи в строгие формулы и программы. В сущности, это мост между теорией и практикой.
Практические курсы по С++ и Python научили меня базовым концепциям, как сделать код не только рабочим, но и применимым. Научили минимальному необходимому инструментарию. Помогли разработать портфолио.
Ресурсы, прокачивающие навыки
ArXiv — для изучения наработок. Coursera и Stepik – для быстрого знакомства с чем-либо. Отдельную роль играет посещение технических конференций и живое общение со спикерами.
Чего не хватает коллегам?
В целом есть проблемы с фундаментом. Так, разбираясь с чем-то новым, приходится тратить большое количество времени на изучение сопутствующего математического аппарата. В противном случае знакомство с новым происходит поверхностно. Отдельная проблема — это ограниченность только исследовательскими задачами. Конечно, это утверждение можно парировать тем, что есть специальные инженеры для задач, связанных с интеграцией ML.
Но на практике, если заниматься чем-нибудь серьезным, без инженерных навыков невозможно получить нужные результаты. Гораздо проще получить хорошо обученную нейронную сеть, имея пайплайн для быстрых итераций.
Чему стоит уделить больше времени тем, кто только начинает свой путь в Data Science?
Я бы рекомендовал обратить внимание на фундаментальную базу в области математического анализа, линейной алгебры, теории вероятности, статистики, алгоритмов и инженерных навыков.
Рекомендации начинающим
В первую очередь учитесь думать, транслировать неформальное в формальное и не бойтесь ошибаться.
История компьютерной лингвистки из Grammarly
Рассказывает Марьяна Романышин, компьютерная лингвистка. Работает в области обработки естественного языка (NLP) с 2011 года. С 2015 года — техлид команды компьютерных лингвистов в компании Grammarly.
Как мне повезло
Мне удалось получить первую работу в NLP сразу после окончания университета. Шведская компания Brainglass искала в Украине специалистов по обработке природного языка, чтобы создать приложение для дистанционного изучения английского языка. Важную роль тогда сыграло умение программировать, общая техническая осведомленность и опыт преподавания, что было релевантно для продукта. Но важнейшим фактором было то, что на собеседовании я смогла сгенерировать идеи для продукта, в частности, как автоматически определить сложность текста и как генерировать упражнения для изучения языка.
Ресурсы, прокачивающие навыки
В начале карьеры я проходила много онлайн-курсов, читала профильные книги и выполняла задания по ним. Упражнения на курсах и в книгах позволили мне напрактиковаться с разнообразными задачами в области NLP, прокачать алгоритмические навыки и улучшить программирование.
Сейчас я слежу за новинками в NLP с помощью конференций, митапов и профильных e-mail-рассылок. Так я узнаю тренды, вдохновляюсь интересными решениями и формирую профессиональный круг общения в Украине и за рубежом. Наиболее полезными для меня стали конференции COLING, ACL, EACL и AI Ukraine. Время от времени я посещаю летние школы, последней из которых была ESSLLI 2019 в Риге.
Тем не менее, я больше прокачиваюсь, когда готовлю воркшопы, доклады на конференции или занятия для студентов.
Когда тема меня заинтересовала и есть возможность рассказать о ней миру, появляется дополнительная мотивация копать как можно глубже и экспериментировать с решениями.
Чего не хватает коллегам?
Область обработки естественного языка находится на пересечении лингвистики, искусственного интеллекта и программирования. Именно поэтому задачи у NLP настолько интересны.
Но исследователям часто не хватает знаний по лингвистике, а лингвистам — алгоритмов и умения хорошо программировать.
Чему стоит уделить больше времени тем, кто только начинает свой путь в Data Science?
Сосредоточьтесь на практике. Советую решать задачи по книгам и курсам, создавать pet-проекты, участвовать в соревнованиях (shared tasks) или приобщаться к открытым проектам. Новички в NLP, например, могут написать свой классификатор текстов по тематике или генератор стихов — любой проект такого рода будет более полезным, чем чтение статей и слушание лекций на начальном этапе. И на собеседовании будет о чем рассказать.
Рекомендации начинающим
Могу дать советы начинающим в NLP:
- Обеспечить много практики. Из материалов: совсем начинающим советую пройти Natural Language Processing with Python, а тем, кому этот материал уже знаком, советую Speech and Language Processing.
- Тщательно изучать свои данные. Не только смотреть статистическую информацию по своим данным, но реально смотреть на них глазами 🙂
- Освоить методологию работы над проектами. Есть хороший блог Андрея Карпаты, где он описывает рецепт для тренировки нейросетей, но многие советы касаются общего подхода к работе.
Data Science и алгоритмическая торговля
Рассказывает Александр Проскурин, Co-Founder и CIO в Principia Invest, Co-Founder в Hudson and Thames Quantitative Research.
Мой первый шаг — образование и погружение в специфику
Так получилось, что вакансия для первой работы в сфере алгоритмической торговли была опубликована на сайте факультета Института прикладного системного анализа КПИ. По навыкам, которые помогли — базовое образование (математический анализ, линейная алгебра и статистика), так как это были главные требования от работодателя. Но финальным критерием для принятия меня на работу было понимание специфики работы финансовых рынков и количественных финансов, которые приходилось изучать самостоятельно.
Ресурсы, прокачивающие навыки
Глобально алгоритмическая торговля состоит из двух крупных блоков: понимание, как работают финансовые рынки, и методы статистического анализа и моделирование (включая ML).
По поводу первого начнем с базовых книг. Например, если хочешь понять, как работают деривативыДоговор, по которому стороны получают право или обязуются выполнить некоторые действия по базовому активу — берешь книгу на 700 страниц Options, Futures, and Other Derivatives и читаешь.
Если же говорить о ML, то здесь есть три варианта (и здесь желательно следовать принципу «и-и», а не «или-или»). Академическое образование, хорошо известные зарубежные книги (например Hastie), ну и, конечно же, онлайн-курсы.
Помню мой путь в ML начался с курса Andrew Ng на Coursera. Когда есть база, необходимо понимать, что происходит в индустрии. Загрузите приложение RSS Feed и подпишитесь на рассылку Quantocracy. Подпишитесь на Twitter-аккаунты наиболее известных квантов и трейдеров (я относительно недавно открыл для себя Twitter и был поражен тем, насколько много полезной информации можно там получить в сжатом виде).
Да и научные статьи: есть открытые научные ресурсы (SSRN, Arxiv), есть платные. Если позволяют средства — купите подписку на Journal of Financial Data Science, Journal of Portfolio Management and Research, Risk.net.
Обычно в научных статьях нет готовых решений или стратегий, но регулярное чтение дает пищу для размышлений, понимание актуальных тенденций и идеи для улучшения текущей стратегии (иногда сама статья может быть не очень информативной, но пара предложений по ней может натолкнуть на собственное исследование).
Чего не хватает коллегам?
К сожалению, принято считать, что алгоритм/модель — самое главное, что есть у трейдера. Как результат, все пытаются «набросить» целую армию нейронных сетей на несчастный датасет по дневным ценам закрытия. Сердце алгоритма — данные. Финансовые данные крайне специфичны, и самого понимания недостаточно для многих специалистов в индустрии. Нужно понимать микроструктуру финансовых рынков — торговые сессии, как биржи и дата-провайдеры представляют данные, наиболее распространенные проблемы при работе с центовыми, фундаментальными и альтернативными данными.
80% времени, которое тратит Quantitative Researcher (ML Engineer в мире финансов) — это анализ и построение необходимых структур данных. Если вы неправильно склеили фьючерсные контракты — никакая нейронная сеть вам не поможет.
Чему стоит уделить больше времени специалистам, которые только начинают свой путь в Data Science?
Обратите внимание на базу. Без крепкого фундамента невозможно построить долгосрочную стратегию развития. Под «базой» я имею в виду фундаментальное математическое образование и понимание, как работают ключевые алгоритмы на низком уровне. Не спешите импортировать TensorFlow, Keras и Scikit-learnБесплатная программная библиотека машинного обучения для Python. Напишите свою нейронную сеть, random forestАлгоритм машинного обучения, заключающийся в использовании комитета решающих деревьев, gradient boosted treeМетод машинного обучения, используемый в задачах регрессии и классификации с нуля. Это самый лучший способ разобраться в работе алгоритма.
Рекомендации начинающим
Начинайте изучать финансы как можно раньше, но сконцентрируйтесь на математических дисциплинах и моделировании. Самый успешный алгоритмический фонд был построен математиками, которые ушли в финансовую сферу, а не наоборот.
Сделать из хорошего математика трейдера гораздо легче, чем воспитать у трейдера математические навыки (если это вообще возможно).
Data Science и консалтинг
Рассказывает Вероника Тамайо Флорес, Head of Consulting в Data Science UA.
Мой первый шаг — образование и желание работать
В первую очередь — образование в IE Business School (Испания). Там я получила технические навыки, понимание принципов работы с данными и само желание работать над проектами в сфере Data Science. База остается актуальна до сих пор, хотя уже прошло более трех лет с момента окончания.
Думаю, что свою роль сыграл и опыт работы с маркетинговой аналитикой и розницей.
Ресурсы, прокачивающие навыки
Всего понемногу: читаю книги и статьи, участвую в мероприятиях и как докладчик, и как слушатель.
Лучшая прокачка — это учить других. Поэтому преподаю практически везде, куда меня зовут.
Чего не хватает коллегам?
Если с техническими навыками все более-менее, то вот бизнес- и софт-скиллов не хватает многим. Зачастую технические специалисты не понимают, как работает бизнес в целом или конкретные его сферы и направления, как в принципе могут решаться те или иные задачи, как общаться с клиентами и так далее.
Еще замечаю, что уровень владения английским языком хромает у многих. В случае с разработкой обязательно как минимум уверенно читать и понимать английский на слух, ведь сейчас это основная речь написания документации и обучения техническим навыкам.
Чему стоит уделить больше времени тем, кто только начинает свой путь в Data Science?
Кроме английского, начинающим следует посвятить время улучшению критического мышления и фундаментальным математическим знаниям.
Рекомендации начинающим
Хотя спрос на специалистов велик, это не гарантирует трудоустройство для каждого. Программа минимум для трейни- и джуниор-специалистов:
- знать все главные методы обучения с учителем и без учителя;
- иметь базовое понимание принципов работы нейросетей;
- английский — не ниже Intermediate;
- хорошее понимание всех стадий пайплайного машинного обучения;
- три-четыре пройденных соревнования на Kaggle (учебные подойдут) или GitHub с кодом различных решенных задач с пояснениями.
От начинающих я не жду идеального кода или нестандартных технических решений. Самое главное — это процесс мышления и подход к решению задач.
Присоединяйтесь к нашему комьюнити и давайте менять мир с АI вместе!
Этот материал – не редакционный, это – личное мнение его автора. Редакция может не разделять это мнение.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: