Data Engineering on Google Cloud platform

4.3 (66)
Онлайн-курс
Data Engineering on Google Cloud platform
Payment
Обучение платное
Language
Not set
Duration
10 часов курса
Курс от Udemy
Data Engineering on Google Cloud platform
Чему вы научились?
Pyspark for ETL/Batch Processing on GCP using Bigquery as data warehousing component
Automate and orchestrate SparkSql batch jobs using Apache Airflow and Google Workflows
Sqoop for Data ingestion from CloudSql and using Airflow to automate the batch ETL
Difference between Event-time data transformations and process-time transformations
Pyspark Structured Streaming - Real Time Data streaming and transformations
Save real time streaming raw data as external hive tables on Dataproc and perform ad-hoc queries using HiveSql
Run Hive-SparkSql jobs on Dataproc and automate micro-batching and transformations using Airflow
Pyspark Structured Streaming - Handling Late Data using watermarking and Event-time data processing
Using different file formats - AVRO and Parquet . Different scenarios in which to use the file formats
О курсе

Google Cloud platform is catching up and a lot of companies have already started moving their infrastructure to GCP . This course provides the most practical solutions to real world use cases in terms of data engineering on Cloud . This course is designed keeping in mind end to end lifecycle of a typical Big data ETL project both batch processing and real time streaming and analytics .

Considering the most important components of any batch processing or streaming jobs , this course covers

  • Writing ETL jobs using Pyspark  from scratch
  • Storage components on GCP (GCS & Dataproc HDFS) 
  • Loading Data into Data-warehousing tool on GCP (BigQuery)
  • Handling/Writing Data Orchestration and dependencies using Apache Airflow(Google Composer) in Python from scratch
  • Batch Data ingestion using Sqoop , CloudSql and Apache Airflow
  • Real Time data streaming and analytics using the latest API , Spark Structured Streaming with Python
  • Micro batching using PySpark streaming & Hive on Dataproc
  • The coding tutorials and the problem statements in this course are extremely comprehensive and will surely give one enough confidence to take up new challenges in the Big Data / Hadoop Ecosystem on cloud and start approaching problem statements & job interviews without inhibition .

    Most importantly , this course makes use of Linux Ubuntu 18.02 as a local operating system.Though most of the codes are run and triggered on Cloud , this course expects one to be experienced enough to be able to set up Google SDKs , python and a GCP Account by themselves on their local machines because the local operating system does not matter in order to succeed in this course .

    P.S : 88BA1461141F3A2A6E2D for half price .

    Требования
    • Basic Python Skills
    • Comfortable with basic Linux/Bash commands
    • Basic understanding of spark (python) and how hadoop works
    • A Google cloud compute account / if not sign up for a free trial account
    • Comfortable with setting up Google SDKs regardless of the operating system
    • Should have the desire to learn and eagerness to explore more about the relevant topics
    Лекторы
    Siddharth Raghunath
    Siddharth Raghunath
    Data Engineer / Cloud Data Engineer / Passionate Techie
    Платформа
    /storage/img/providers/udemy.svg
    Курсы Udemy подойдут для профессионального развития. Платформа устроена таким образом, что эксперты сами запускают курсы. Все материалы передаются в пожизненный доступ. На этой платформе можно найти курс, без преувеличений, на любую тему – начиная от тьюториала по какой-то камере и заканчивая теоретическим курсом по управлению финансовыми рисками. Язык и формат обучения устанавливается преподавателем, поэтому стоит внимательно изучить информацию о курсе перед покупкой.
    Рейтинг
    4.3
    (22)
    (24)
    (16)
    (3)
    (1)
    Комментарии (66)
    Как и любой другой веб-сайт, konevy использует файлы cookie. Эти файлы используются для хранения информации, включая предпочтения посетителей и страницы веб-сайта, которые он/она посещал. Информация используется для того, чтобы подстроить содержимое нашей страницы под тип браузера пользователя и другие параметры и таким образом улучшить его пользовательский опыт. Для получения более подробной информации о файлах cookie, пожалуйста, прочтите статью «Что такое файлы cookie»