Привет! Меня зовут Александра Богуславская, я СЕО и Founder в Data Science UA. В течение пяти лет наша компания построила сильное комьюнити в этой сфере: организовывает конференции и курсы, активно развивает направления консалтинга и R&D, открывает AI R&D-центры в Украине для партнеров из Европы и США.
Я пообщалась с лучшими специалистами в сфере Data Science и сегодня хочу рассказать, что необходимо знать тем, кто только начинает свой путь в этом направлении.
Рассказывает Александр Романко, Adjunct Professor в Торонтском университете, Украинском католическом университете, Киевской школе экономики.
Моя первая работа в этой сфере — стажировка в компании IBM, где я и остался работать. Помимо технических навыков важными были навыки бизнеса (даже для того, чтобы убедить компанию взять меня на стажировку). Работа была связана с прикладными исследованиями. Компания хотела, чтобы аппликанты имели минимум магистерскую степень (а еще лучше — PhD) в отраслях, связанных с математикой, статистикой, компьютерными науками или аналитикой данных. По техническим навыкам главными были понимание математики и алгоритмов, а также программирование.
Мне нравятся как курсы в университетах, так и онлайн-курсы. Советую порталы Coursera, EdX, Udemy, Udacity, DataCamp. Митапы и краткосрочные курсы тоже сильно помогают. Ну и куда без книг и статей, ведь многие работы в Data Science связаны с прикладными исследованиями.
Обычно коллегам не хватает как технических (хард), так и бизнесовых (софт) навыков.
Поэтому обучение на протяжении жизни — наше все. И попробуйте в каждом проекте увидеть, что называют big picture.
Имеет смысл сначала разобраться, действительно ли это та сфера, которая вас драйвит. Если нет — займитесь чем-нибудь другим. Если да — рекомендую не пренебрегать софт-скиллами и в начале карьеры уделить внимание сторителлингу, умению объяснить, что вы делаете, командной работе, коммуникационным навыкам, умению делать презентации. А дальше разобраться, каких технических навыков вам не хватает — и заполнять пробелы.
Если вас драйвит аналитика, то не поленитесь и сделайте аналитику лично для себя. Например, какие навыки нужно прокачать, чтобы получить высокую зарплату в этой области? Также соберите небольшое портфолио проектов, над которыми вы работали, и умейте рассказать о них.
Нетворкайте и волонтерьте на разных событиях — это даст вам возможность находить новые работы. Пойдите в школу или университет и расскажите о профессии дата-сайентиста.
Рассказывает Филипп Кофман, Research Engineer в Squad.
Больше всего мне помогло образование, полученное на бакалавриате Харьковского мехмата, и практические курсы в Школе анализа данных. Умение быстро разбираться в сложных математических конструкциях и базовые прикладные навыки помогли классно стартовать на работе. Особый вклад дали курсы математического анализа, линейной алгебры, теории вероятности, статистики и методов оптимизации. Они заложили крепкий фундамент.
Алгоритмы и структуры данных лучше отточились на олимпиадах. Эта активность научила быстро думать, ориентироваться в технических вводных, а также поспособствовала навыку превращать неформальные идеи в строгие формулы и программы. В сущности, это мост между теорией и практикой.
Практические курсы по С++ и Python научили меня базовым концепциям, как сделать код не только рабочим, но и применимым. Научили минимальному необходимому инструментарию. Помогли разработать портфолио.
ArXiv — для изучения наработок. Coursera и Stepik – для быстрого знакомства с чем-либо. Отдельную роль играет посещение технических конференций и живое общение со спикерами.
В целом есть проблемы с фундаментом. Так, разбираясь с чем-то новым, приходится тратить большое количество времени на изучение сопутствующего математического аппарата. В противном случае знакомство с новым происходит поверхностно. Отдельная проблема — это ограниченность только исследовательскими задачами. Конечно, это утверждение можно парировать тем, что есть специальные инженеры для задач, связанных с интеграцией ML.
Но на практике, если заниматься чем-нибудь серьезным, без инженерных навыков невозможно получить нужные результаты. Гораздо проще получить хорошо обученную нейронную сеть, имея пайплайн для быстрых итераций.
Я бы рекомендовал обратить внимание на фундаментальную базу в области математического анализа, линейной алгебры, теории вероятности, статистики, алгоритмов и инженерных навыков.
В первую очередь учитесь думать, транслировать неформальное в формальное и не бойтесь ошибаться.
Рассказывает Марьяна Романышин, компьютерная лингвистка. Работает в области обработки естественного языка (NLP) с 2011 года. С 2015 года — техлид команды компьютерных лингвистов в компании Grammarly.
Мне удалось получить первую работу в NLP сразу после окончания университета. Шведская компания Brainglass искала в Украине специалистов по обработке природного языка, чтобы создать приложение для дистанционного изучения английского языка. Важную роль тогда сыграло умение программировать, общая техническая осведомленность и опыт преподавания, что было релевантно для продукта. Но важнейшим фактором было то, что на собеседовании я смогла сгенерировать идеи для продукта, в частности, как автоматически определить сложность текста и как генерировать упражнения для изучения языка.
В начале карьеры я проходила много онлайн-курсов, читала профильные книги и выполняла задания по ним. Упражнения на курсах и в книгах позволили мне напрактиковаться с разнообразными задачами в области NLP, прокачать алгоритмические навыки и улучшить программирование.
Сейчас я слежу за новинками в NLP с помощью конференций, митапов и профильных e-mail-рассылок. Так я узнаю тренды, вдохновляюсь интересными решениями и формирую профессиональный круг общения в Украине и за рубежом. Наиболее полезными для меня стали конференции COLING, ACL, EACL и AI Ukraine. Время от времени я посещаю летние школы, последней из которых была ESSLLI 2019 в Риге.
Тем не менее, я больше прокачиваюсь, когда готовлю воркшопы, доклады на конференции или занятия для студентов.
Когда тема меня заинтересовала и есть возможность рассказать о ней миру, появляется дополнительная мотивация копать как можно глубже и экспериментировать с решениями.
Область обработки естественного языка находится на пересечении лингвистики, искусственного интеллекта и программирования. Именно поэтому задачи у NLP настолько интересны.
Но исследователям часто не хватает знаний по лингвистике, а лингвистам — алгоритмов и умения хорошо программировать.
Сосредоточьтесь на практике. Советую решать задачи по книгам и курсам, создавать pet-проекты, участвовать в соревнованиях (shared tasks) или приобщаться к открытым проектам. Новички в NLP, например, могут написать свой классификатор текстов по тематике или генератор стихов — любой проект такого рода будет более полезным, чем чтение статей и слушание лекций на начальном этапе. И на собеседовании будет о чем рассказать.
Могу дать советы начинающим в NLP:
Рассказывает Александр Проскурин, Co-Founder и CIO в Principia Invest, Co-Founder в Hudson and Thames Quantitative Research.
Так получилось, что вакансия для первой работы в сфере алгоритмической торговли была опубликована на сайте факультета Института прикладного системного анализа КПИ. По навыкам, которые помогли — базовое образование (математический анализ, линейная алгебра и статистика), так как это были главные требования от работодателя. Но финальным критерием для принятия меня на работу было понимание специфики работы финансовых рынков и количественных финансов, которые приходилось изучать самостоятельно.
Глобально алгоритмическая торговля состоит из двух крупных блоков: понимание, как работают финансовые рынки, и методы статистического анализа и моделирование (включая ML).
По поводу первого начнем с базовых книг. Например, если хочешь понять, как работают деривативы
Если же говорить о ML, то здесь есть три варианта (и здесь желательно следовать принципу «и-и», а не «или-или»). Академическое образование, хорошо известные зарубежные книги (например Hastie), ну и, конечно же, онлайн-курсы.
Помню мой путь в ML начался с курса Andrew Ng на Coursera. Когда есть база, необходимо понимать, что происходит в индустрии. Загрузите приложение RSS Feed и подпишитесь на рассылку Quantocracy. Подпишитесь на Twitter-аккаунты наиболее известных квантов и трейдеров (я относительно недавно открыл для себя Twitter и был поражен тем, насколько много полезной информации можно там получить в сжатом виде).
Да и научные статьи: есть открытые научные ресурсы (SSRN, Arxiv), есть платные. Если позволяют средства — купите подписку на Journal of Financial Data Science, Journal of Portfolio Management and Research, Risk.net.
Обычно в научных статьях нет готовых решений или стратегий, но регулярное чтение дает пищу для размышлений, понимание актуальных тенденций и идеи для улучшения текущей стратегии (иногда сама статья может быть не очень информативной, но пара предложений по ней может натолкнуть на собственное исследование).
К сожалению, принято считать, что алгоритм/модель — самое главное, что есть у трейдера. Как результат, все пытаются «набросить» целую армию нейронных сетей на несчастный датасет по дневным ценам закрытия. Сердце алгоритма — данные. Финансовые данные крайне специфичны, и самого понимания недостаточно для многих специалистов в индустрии. Нужно понимать микроструктуру финансовых рынков — торговые сессии, как биржи и дата-провайдеры представляют данные, наиболее распространенные проблемы при работе с центовыми, фундаментальными и альтернативными данными.
80% времени, которое тратит Quantitative Researcher (ML Engineer в мире финансов) — это анализ и построение необходимых структур данных. Если вы неправильно склеили фьючерсные контракты — никакая нейронная сеть вам не поможет.
Обратите внимание на базу. Без крепкого фундамента невозможно построить долгосрочную стратегию развития. Под «базой» я имею в виду фундаментальное математическое образование и понимание, как работают ключевые алгоритмы на низком уровне. Не спешите импортировать TensorFlow, Keras и Scikit-learn
Начинайте изучать финансы как можно раньше, но сконцентрируйтесь на математических дисциплинах и моделировании. Самый успешный алгоритмический фонд был построен математиками, которые ушли в финансовую сферу, а не наоборот.
Сделать из хорошего математика трейдера гораздо легче, чем воспитать у трейдера математические навыки (если это вообще возможно).
Рассказывает Вероника Тамайо Флорес, Head of Consulting в Data Science UA.
В первую очередь — образование в IE Business School (Испания). Там я получила технические навыки, понимание принципов работы с данными и само желание работать над проектами в сфере Data Science. База остается актуальна до сих пор, хотя уже прошло более трех лет с момента окончания.
Думаю, что свою роль сыграл и опыт работы с маркетинговой аналитикой и розницей.
Всего понемногу: читаю книги и статьи, участвую в мероприятиях и как докладчик, и как слушатель.
Лучшая прокачка — это учить других. Поэтому преподаю практически везде, куда меня зовут.
Если с техническими навыками все более-менее, то вот бизнес- и софт-скиллов не хватает многим. Зачастую технические специалисты не понимают, как работает бизнес в целом или конкретные его сферы и направления, как в принципе могут решаться те или иные задачи, как общаться с клиентами и так далее.
Еще замечаю, что уровень владения английским языком хромает у многих. В случае с разработкой обязательно как минимум уверенно читать и понимать английский на слух, ведь сейчас это основная речь написания документации и обучения техническим навыкам.
Кроме английского, начинающим следует посвятить время улучшению критического мышления и фундаментальным математическим знаниям.
Хотя спрос на специалистов велик, это не гарантирует трудоустройство для каждого. Программа минимум для трейни- и джуниор-специалистов:
От начинающих я не жду идеального кода или нестандартных технических решений. Самое главное — это процесс мышления и подход к решению задач.
Присоединяйтесь к нашему комьюнити и давайте менять мир с АI вместе!
В благословенные офисные времена, когда не было большой войны и коронавируса, люди гораздо больше общались…
Вот две истории из собственного опыта, с тех пор, когда только начинал делать свою карьеру…
«Ты же программист». За свою жизнь я много раз слышал эту фразу. От всех. Кто…
Отличные новости! Если вы пропустили, GitHub Copilot — это уже не отдельный продукт, а набор…
Несколько месяцев назад мы с командой Promodo (агентство инвестировало в продукт более $100 000) запустили…
Пару дней назад прочитал сообщение о том, что хорошие курсы могут стать альтернативой классическому образованию.…