Pandas es una librería de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el Excel de Python. Es un software libre distribuido bajo la licencia BSD.[1] El nombre deriva del término "datos de panel", término de econometría que designa datos que combinan una dimensión temporal con otra dimensión transversal.[2]
Características de la biblioteca
Tipo de datos DataFrame para manipulación de datos con indexación integrada.
Herramientas para leer y escribir datos entre estructuras de dato en-memoria y formatos de archivo variados.
Alineación de dato y manejo integrado de datos faltantes.
Reestructuración y segmentación de conjuntos de datos.
Segmentación vertical basada en etiquetas, indexación elegante, y segmentación horizontal de grandes conjuntos de datos.
Inserción y eliminación de columnas en estructuras de datos.
Agrupación predefinida en la biblioteca lo que permite realizar cadenas de operaciones dividir-aplicar-combinar sobre conjuntos de datos.
Mezcla y unión de datos.
Indexación jerárquica de ejes para trabajar con datos de altas dimensiones en estructuras de datos de menor dimensión.
Funcionalidad de series de tiempo: generación de rangos de fechas y conversión de frecuencias, desplazamiento de ventanas estadísticas y de regresiones lineales, desplazamiento de fechas y retrasos.[3]
La biblioteca ha sido altamente optimizada en cuanto a rendimiento, con caminos de código crítico escritos en Cython o en C.[4]
Historia
Su principal desarrollador, Wes McKinney, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en AQR Capital por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativo en datos financieros.[5] Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto. Otro empleado de AQR, Chang Ella, se unió en 2012 al esfuerzo de desarrollo de la biblioteca.[cita requerida]
2012: Es publicada la primera edición de Python for Data Analysis
2015: pandas se convierte en un proyecto esponsorizado por NumFOCUS
2018: Primer sprint presencial de desarrolladores del núcleo
Ejemplos
Curvas
importpandasaspdimportmatplotlib.pyplotaspltimportnumpyasnpdf=pd.DataFrame(np.random.randn(100,5),columns=list('ABCDE'))df=df.cumsum()# Return cumulative sum over a DataFrame or Series axisdf.plot()plt.show()