El objetivo está desatendido
El autor lleva sin comentar el objetivo 4 años 10 meses 11 días
Spark: The Definitive Guide
Работаю в команде поддержки проекта, написанного много лет назад при помощи Hadoop. Много чего узнал за это время, но пришло час двигаться дальше. Моя основная цель - поставить этот проект на рельсы Spark.
Это книга будет отправной точкой в повышении своей компетенции.
Criterio del fin
Проработать книгу Spark: The Definitive Guide.
-
I. Gentle Overview of Big Data and Spark
-
What Is Apache Spark?
-
A Gentle Introduction to Spark
-
A Tour of Spark’s Toolset
-
-
II. Structured APIs—DataFrames, SQL, and Datasets
-
Structured API Overview
-
Basic Structured Operations
-
Working with Different Types of Data
-
Aggregations
-
Joins
-
Data Sources
-
Spark SQL
-
Datasets
-
-
III. Low-Level APIs
-
Resilient Distributed Datasets (RDDs)
-
Advanced RDDs
-
Distributed Shared Variables
-
-
IV. Production Applications
-
How Spark Runs on a Cluster
-
Developing Spark Applications
-
Deploying Spark
-
Monitoring and Debugging
-
Performance Tuning
-
-
V. Streaming
-
Stream Processing Fundamentals
-
Structured Streaming Basics
-
Event-Time and Stateful Processing
-
Structured Streaming in Production
-
-
VI. Advanced Analytics and Machine Learning
-
Advanced Analytics and Machine Learning Overview
-
Preprocessing and Feature Engineering
-
Classification
-
Regression
-
Recommendation
-
Unsupervised Learning
-
Graph Analytics
-
Deep Learning
-
-
VII. Ecosystem
-
Language Specifics: Python (PySpark) and R (SparkR and sparklyr)
-
Ecosystem and Community
-
- 817
- 07 junio 2020, 17:13
Equipo
Objetivos parecidos
Diario del objetivo

Spark - проект, устроенный сложнее внутри, чем Hadoop, а в использовании намного проще и эффективнее. Этим он и интересен для меня.
Когда на работе возникла задача создать в Spark SQL табличку, залить туда данные и с помощью какого-нибудь BI Tool подключиться и построить репорты, я даже примерно не мог оценить, сколько времени это займет и какое количество литературы мне предстоит поднять и страничек на stackoverflow посетить.
Но в действительности все оказалось проще - запустил Spark SQL, выполнил две команды, запустил odbc server, подключился через odbc driver из BI Tool. Все!
Изучение Spark и его экосистемы пугало до прочтении этих вводных глав - всю сложность спрятана внутри, а тебе даются простые и понятные рычаги управления этой машиной. А эта книга - понятное и дружелюбное руководство к ней.
Вообщем я воодушевлен дальнейшим погружением в Spark. К тому же я для себя как-то отметил, что изучение и использование Spark - это своеобрзная черта для меня между Junior Big Data и Middle Big Data (к тому же, на данный момент эта технология является стандартом на рынке), которую хотелось бы перейти к концу этого года.

За вчера и сегодня разобрался с общими концепция Spark.
Поставил ubuntu, позапускал примеры.
Не так сложно, как казалось, когда в тиме ребята обсуждали некоторые фичи.
И в общем у меня вырисовался план работы на лето, что нужно подтянуть, на что обратить внимание.
Puede publicar
su objetivo aquí
Podemos ayudarle a lograrlo!
310 000
ideas afines
instrumentos
para un logro emocionante