Topics about Data Sciences and BI
Foto de Usuario
frankhuaricacha

Ranking Troomes
Mensajes: 45
Registrado: 08 Ene 2020, 20:46

PySpark

Mensaje por frankhuaricacha » 29 Feb 2020, 23:09

PySpark es un gran lenguaje para realizar análisis de datos exploratorios a escala, construir tuberías de aprendizaje automático y crear ETL para una plataforma de datos. Si ya está familiarizado con Python y bibliotecas como Pandas, entonces PySpark es un excelente lenguaje para aprender a fin de crear análisis y canalizaciones más escalables. El objetivo de esta publicación es mostrar cómo ponerse en marcha con PySpark y realizar tareas comunes.

Spark Dataframes
El tipo de datos clave utilizado en PySpark es el marco de datos de Spark. Este objeto puede considerarse como una tabla distribuida a través de un clúster y tiene una funcionalidad similar a los marcos de datos en R y Pandas. Si desea realizar un cálculo distribuido utilizando PySpark, deberá realizar operaciones en los marcos de datos de Spark y no en otros tipos de datos de Python.
También es posible usar los marcos de datos de Pandas cuando se usa Spark, llamando a Pandas () en un marco de datos de Spark, que devuelve un objeto de pandas. Sin embargo, esta función generalmente debe evitarse, excepto cuando se trabaja con marcos de datos pequeños, ya que extrae todo el objeto en la memoria en un solo nodo.

link: https://towardsdatascience.com/a-brief- ... 4284701873


Responder