OpenWebinars

Preprocesando datos del NYT con una canalización de Data Fusion en GCP

Si trabajas con Google Cloud Platform y quieres aprender a procesar datos utilizando Dataflow, en esta formación te enseñamos de forma práctica.


Icono de la tecnología

La metodología y plataforma de formación que se adapta al tamaño y ritmo de tu empresa.

Cuéntanos tu caso

Curso impartido por

Avatar:Jorge López Blasco

Jorge López Blasco

Experto en Cloud Computing, Machine Learning y Big Data.

Contenido de la formación

3 Secciones · 4 Lecciones · 37 min. en total

Introducción

12 min.

Preprocesar datos del NYT con canalización de Data Fusion en GCP

21 min.

Conclusiones

3 min.

Habilidades que obtendrás

  • Crear una instancia de Data Fusion.
  • Implemente una canalización de muestra que ejecute algunas transformaciones en un archivo JSON y filtre los resultados coincidentes en BigQuery.

Requisitos mínimos

Para un mejor aprovechamiento de esta formación, es recomendable estar familiarizado con una variedad de servicios de Google Cloud como BigQuery y Cloud Storage, así como tener una comprensión básica de los conceptos y términos relacionados con el proceso de ingesta de datos.

Valoración de nuestros alumnos

4
1 valoraciones
  • 5
  • 4
  • 3
  • 2
  • 1

Completa tu formación con estos contenidos

Preguntas frecuentes

Resuelve tus dudas o contacta con nosotros para más información.

Cuéntanos tu caso
Efectivamente, una vez superada cada formación, podrás descargarte el diploma acreditativo de cada una de ellas. Añádelas a tu CV y mejora tu perfil para las empresas. También podrás obtener un diploma de nivel superior al superar todas las formaciones de la ruta.

En OpenWebinars no vendemos formaciones.

Tenemos diferentes tipos de suscripciones, que te dará acceso completo a todas las formaciones de la plataforma y a las nuevas que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para ti. Consúltanos aquí.

En OpenWebinars las formaciones no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestros planes.

Para realizar esta formación vamos a utilizar un conjunto de datos en tiempo real simulado a partir de un conjunto de datos históricos. Este conjunto de datos históricos que se utilizarán proceden del sitio web de la oficina de Estadísticas de Transporte de EE.UU., que proporciona información histórica sobre los vuelos locales en ese país.

Para mostrar cómo realizar el procesamiento de datos con Dataflow, utilizaremos Python y Google Cloud Dataflow para el procesamiento de esos datos simulados de un conjunto de archivos de texto y, después usaremos BigQuery para almacenar y analizar los datos resultantes.

Es muy recomendable tener conocimientos previos en cloud computing y en los servicios de Google Cloud, sobre todo en Vertex AI. También se debe tener una comprensión básica de los conceptos y términos relacionados con el Machine Learning y el manejo de datos en tiempo real, además de tener nociones básicas en el lenguaje de programación Python.

En el transcurso del laboratorio aprenderás a leer y escribir en cloud, a procesar datos con Dataflow supervisando el trabajo de esta herramienta, además de inspeccionar los datos ya procesados.

Todo ello se aprenderá mediante el desarrollo práctico de la configuración de una aplicación de Python para crear un flujo de datos en tiempo real simulado a partir de datos históricos, la utilización de Apache Beam de manera local para probar Dataflow localmente, el uso de Apache Beam para procesar datos con Dataflow y así crear un conjunto de datos en tiempo real simulados, y también la consulta de los flujos de datos en tiempo real simulados con BigQuery.