OpenWebinars

Curso de Implementación de una Data Pipeline con AWS EMR y PySpark

Aprende a implementar un pipeline de datos robusto y seguro sobre una arquitectura de AWS, utilizando PySpark para realizar las agregaciones necesarias y Athena para exportar datos.


Icono de la tecnología

La metodología y plataforma de formación que se adapta al tamaño y ritmo de tu empresa.

Curso impartido por

Avatar:Valery Calderón Briz

Valery Calderón Briz

Experta Data Engineer

Contenido de la formación

5 Secciones · 15 Lecciones · 1 h. y 41 min. en total

Introducción

3 min.

EMR: Conceptos y configuración inicial

31 min.

Administrando el cluster de EMR

39 min.

Cargando los datos a Athena

24 min.

Conclusiones

2 min.

Habilidades que obtendrás

  • Crear un cluster de EMR.
  • Optimizar la clusterización de EMR.
  • Transformar datos con PySpark.
  • Implementar un flujo automatizado de datos.
  • Securizar el entorno EMR.
  • Cargar datos a AWS Athena.

Requisitos mínimos

Es recomendable tener conocimientos sobre Data Lakes, Data Warehouse y Python.

Valoración de nuestros alumnos

4.1
13 valoraciones
  • 5
  • 4
  • 3
  • 2
  • 1
Está bien
Antonio Guzman

Completa tu formación con estos contenidos

FORMACIÓN EMPRESARIAL

Descubre cómo OpenWebinars puede ser el socio estratégico en el desarrollo profesional de tu equipo

Más de 340.000 profesionales de distintas industrias han encontrado en nuestra metodología y contenidos la clave para su transformación digital. Únete a líderes del sector que ya han elevado la formación de sus equipos con nosotros.

CetelemLogo
TelefonicaLogo
VassLogo
AccentureLogo
IbermaticaLogo
MapfreLogo
OpenWebinars

/ business

La formación que tu equipo merece, los resultados que tu empresa necesita

Asesoría Personalizada

Una relación continua de asesoramiento con especialistas dedicados a maximizar el impacto formativo en tu equipo.

Herramientas Avanzadas

Dashboards intuitivos y un LMS que se integra sin fisuras con tu infraestructura actual a través de SSO.

Itinerarios Personalizados

Diseñamos un mapa de las rutas formativas de tus equipos que se alinea con los objetivos estratégicos y operativos de tu empresa.

Especialistas de la Industria

Los profesores de OpenWebinars son líderes en sus campos, brindando conocimientos prácticos que transforman la teoría en habilidades aplicables.

Formación On-Demand

Accede a un catálogo de contenidos que evoluciona al ritmo de la tecnología, disponible 24/7, para que nunca dejes de avanzar.

Desarrollo Profesional Continuo

Más de 1.650 cursos especializados y actualizados, diseñados para mantener a tu empresa a la delantera de la innovación tecnológica.

Experimenta cómo nuestra metodología ya ha potenciado a más de 340.000 profesionales en diversas industrias.
Elige el Plan de OpenWebinars que impulse tu transformación
La metodología, contenidos y plataforma de formación que se adapta al tamaño y ritmo de tu empresa, sea una gran Corporación, una Startup o una Empresa en crecimiento
OpenWebinars Business Soluciones escalables y personalizadas para tu empresa
Acceso 24/7 a 1.650 cursos especializados y actualizados
Automatizaciones y planificador de licencias
Itinerarios personalizados que se adaptan a tus metas empresariales
Creación de informes avanzados y personalizados
Dashboards intuitivos para gestionar la formación y analizar progresos
Customer Success dedicados a maximizar el impacto en tu equipo
Gestor de contenido propio (LMS): Total control en el contenido formativo
Personalización de la experiencia: Integración visual que refleja tu marca
Implementación de SSO: Integración perfecta con tus sistemas internos
Acceso a API: Conecta OpenWebinars con tus propias apps y flujos de trabajo

Preguntas frecuentes

Resuelve tus dudas o contacta con nosotros para más información.

Efectivamente, una vez superada cada formación, podrás descargarte el diploma acreditativo de cada una de ellas. Añádelas a tu CV y mejora tu perfil para las empresas. También podrás obtener un diploma de nivel superior al superar todas las formaciones de la ruta.

En OpenWebinars las formaciones no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestros planes.

En OpenWebinars no vendemos formaciones.

Tenemos diferentes tipos de suscripciones, que te dará acceso completo a todas las formaciones de la plataforma y a las nuevas que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para ti. Consúltanos aquí.

becasBannerImg
+90.000 ESTUDIANTES CADA AÑO

Becas OpenWebinars

Para Centros de FP y Universidades de España

Colaboramos con más de 800 centros de Formación Profesional en España para dotar a los estudiantes IT de los recursos necesarios para afrontar el mercado laboral con las máximas garantías.

logoBecas

En este curso exploramos los conceptos relacionados con la ejecución de cargas de trabajo en un clúster de AWS EMR optimizado, y utilizaremos PySpark para realizar las agregaciones necesarias, logrando implementar un pipeline de datos una arquitectura de AWS.

Es una formación adecuada tanto para perfiles de desarrollo de software avanzados con conocimientos previos en procesamiento de datos, como para perfiles intermedios o avanzados en ingeniería de datos o ciencia de datos que quieren aprender a automatizar procesos utilizando las herramientas de la nube de AWS.

Para completar el curso de forma adecuada, comprendiendo todo lo que se explica en el mismo, es necesario tener conocimientos a nivel intermedio de la consola de AWS, además de conocimientos avanzados en bases de datos y SQL, en Python, y también sobre conceptos de flujos de datos en Data Lake y Data Warehouse.

Comenzamos el curso con una introducción a AWS EMR, explicando los conceptos fundamentales de la herramienta, cómo configurarla inicialmente y cómo levantar un clúster y un ecosistema de EMR desde cero. Además, se introducirá PySpark, que también se utilizará a lo largo de esta formación.

Seguidamente entramos en el bloque dedicado a la administración del clúster EMR que se había creado previamente, desde la configuración de la seguridad del mismo hasta cómo lanzar una aplicación y un job con EMR Serverless y la monitorización con EMR Jobs.

Finalmente, en el último apartado del curso, se abordará el uso de Athena para complementar nuestro ecosistema de EMR, que en este caso se utilizará para cargar datos. Aquí aprenderás las características de esta aplicación, cómo cargar los datos y también veremos algunos diseños de casos reales en los que se utilizó AWS EMR.