Лучшие книги по Data Science: топ-8 пособий, чтобы прокачаться в науке о данных
По данным DOU, одни из самых высоких зарплат в украинском IT сейчас — в Data Science. В топе по спросу — тоже дата-сайентисты. И один из самых высоких приростов по доходам за последние полгода — сюрприз-сюрприз — тоже у них.
Так что, если вы еще не заинтересовались наукой о данных, может, пора начать? А если уже «в теме» — то всегда можно углубиться еще. Тем более что в этой подборке Highload — лучшие книги по Data Science для специалистов всех уровней.
‘Data Science from Scratch: First Principles with Python’, Joel Grus
Переиздание 2019 года, обновленное для Python 3.6. Автор — исследователь ИИ-института Allen Institute for AI и бывший инженер Google.
В этой книге рассматриваются основы линейной алгебры, статистики и теории вероятностей, а также то, как и когда они используются в науке о данных на примерах на Python. Кроме того, даны основы машинного обучения и самых востребованных Data Science моделей, включая нейронные сети.
В отзывах отмечают, что автор фокусируется именно на фундаментальных принципах, а не изучении библиотек Python.
Количество страниц: 406
‘Data Science for Beginners: 4 books in 1’, Andrew Park
Эта книга тоже для новичков, но фокус здесь больше на инструментах. Пособие включает сразу четыре книги:
- Python for Beginners. Основы языка, от установки и переменных до работы с файлами. Есть упражнения и примеры кода.
- Python for Data Analysis. Основы Python-библиотек, которые используются для обработки данных: PyTorch, Pandas и другие.
- Python Machine Learning. Как работать с машинным обучением на Python. Здесь же: нейронные сети.
- Python Data Science. Углубленное изучение алгоритмов Data Science и примеры реальных приложений.
Количество страниц: 350
‘Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython’, Wes McKinney
Книга от автора Python-библиотеки Pandas, хотя в пособии рассматривается не только она, но и NumPy и IPython. Здесь показаны примеры использования этих инструментов для обработки и анализа данных, а также их визуализации.
Все примеры и файлы данных, с которыми работает автор книги, доступны на GitHub.
У пособия два издания: последнее, 2017 года, актуально для Python 3.6.
Количество страниц: 550
‘R for Data Science: Import, Tidy, Transform, Visualize, and Model Data’, Hadley Wickham, Garrett Grolemund
Data Science — это не только о Python. Это подтверждается тем фактом, что эта книга находится в топ-6 лучших книг по обработке данных на Amazon и занимает второе место в категории Mathematical & Statistical Software.
Оба автора пособия активно участвуют в разработке языка R. В этой книге они рассказывают, как работать с RStudio и tidyverse — соответственно IDE и набором пакетов R для Data Science.
Пособие подходит даже для тех, кто никогда не программировал.
Количество страниц: 520
‘Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python’, Peter Bruce, Andrew Bruce, Peter Gedeck
Это книга для тех, кто уже выучил основы Python и R и теперь хочет прокачиваться в отдельных областях Data Science. В фокусе — статистика. По мнению авторов, это ключевая часть науки о данных, но при этом очень мало дата-сайентистов изучают ее отдельно.
В пособии описывается, как получать качественные наборы данных, анализировать их и работать даже с немаркированными данными. Также рассмотрены статистические методы машинного обучения.
Примеры кода сначала пишутся на R, а потом дублируются на Python.
Количество страниц: 368
‘Data Science on AWS: Implementing End-to-End, Continuous AI and Machine Learning Pipelines’, Chris Fregly, Antje Barth
Реальные Data Science проекты важно не только успешно разрабатывать, но и деплоить. Эта книга — как раз практическое пособие по тому, как работать с Amazon Web Services. Авторы учат быстро и эффективно работать в облаке. Среди рассматриваемых тем:
- автоматизированное машинное обучение с помощью SageMaker Autopilot;
- использование NLP на основе BERT;
- потоковая аналитика с помощью Amazon Kinesis и Managed Streaming для Apache Kafka;
- обеспечение безопасности проектов.
Количество страниц: 524
‘How to Lead in Data Science’, Jike Chong, Yue Cathy Chang
Ваша цель — дорасти до лида команды Data Science? Эта книга для вас. Авторы — экс-управляющие командами данных в LinkedIn — делятся советами по управлениями небольшим количеством людей и даже построению стратегий для целой компании.
Книга совсем свежая — 2021 года. В отзывах отмечают, что это отличное пособие по построению карьеры, даже если вы еще в самом начале пути как дата-сайентист.
Количество страниц: 512
‘Ace the Data Science Interview’, Nick Singh, Kevin Huo
Последняя книга в этой подборке — бестселлер на Amazon, который также поможет построить вам карьеру в Data Science. В ней собран 201 вопрос, который задают на собеседованиях в FAANG.
Авторы — бывшие сотрудники Facebook. В книге они делятся не только вопросами, но и подробными ответами, с объяснением самых важных концепций и решений.
Количество страниц: 301
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: