Cargando #datos para su #almacenamiento y posterior #análisis con la librería #pandas de #Python

Antes de proceder a cq #AnálisisDeDatos, lo primero de todo es acceder a los datos. Para ello en #pandas lo que tenemos es que pasar esos datos del formato que sea a un objeto #DataFrame con su índice y resto de columnas. A partir de ahí ya limpiaremos esos datos y los prepararemos para su posterior visualización y análisis.

Tenemos que tener en cuenta que en #Python es sencillo en cuanto a su sintaxis pero es extremadamente lento para trabajar con datos, sobre todo las copias en memoria, por muy rápida que sea la CPU.

pandas1 está basado en Python con la libreria #Numpy (numérica) para esa eficiencia on datos, y pandas2 en #ApacheArrows. En cq caso, pandas está bien para trabajar con datos CSV, excell, json, SAP, etc. pero no así por ejemplo para el procesamiento del lenguaje natural o el trabajo con imágenes.

Por tanto, tenemos en primer lugar que #CargarDatos y así lo tenemos es que basarnos en la #EntradaYSalida de datos mediante pandas.

Pandas tiene varias funciones para leer datos y convertirlos en objetos DataFrame. Las más importantes son: read_csv (usa la coma como delimitador preestablecido: “comma separated values”), read_excell, read_clipboard (portapapeles), read_hdf, read_html, read_json, read_parquet (Apache), read_pickle (binarios), read_sas, read_spss, read_sql (SQLAlchemy), read_sql_table, read_xml, etc.

Con pandas se usan varios centinelas cuando no hay datos NULL, NA, NaN (Not a Number) para valores ausentes. Por ejemplo read_csv utiliza más de 50 parámetros diferentes.

A modo de ejemplo, si tenemos un fichero CSV (“comma separated values”) que se puede visualizar con el comando cat del shell de UNIX:

Y con read_csv antes cargamos “import pandas as pd” con lo que pd.read_csv (parametros …):


También podemos hacer el proceso contrario de pasar del objeto DataFrame a un fichero CSV con to_csv:

Otra opción sería mostrar los datos por consola con “import sys” con to_csv (sys.stdout, …)


Un último ejemplo con otro formato -> datos JSON (JavaScript Object Notation) para pasar al objeto DataFrame:

pablogarguez

@pablogarguez es actualmente #Investigador y Profesor Titular de Ingeniería Informática de la Escuela Politécnica en la Universidad de Extremadura en Cáceres. Ha sido Director General de Agenda Digital de la Consejería de Economía, Ciencia y Agenda Digital de la Junta de Extremadura, desde septiembre de 2019 a agosto de 2023. Fue Director de la Escuela Politécnica de Cáceres (School of Technology) de la Universidad de Extremadura durante 3 años (2017-2019), con titulaciones de grado, máster y doctorado en los campos de Ingeniería Civil, Edificación, Informática y Telecomunicaciones. Su trayectoria docente comienza en 1997 básicamente en asignaturas de Programación y de Bases de Datos. Su actividad investigadora se ha centrado en el Reconocimiento de Patrones y la Ciberseguridad. Fruto de esta labor de investigación, resaltar que es coautor de más de veinte artículos publicados en revistas internacionales indexadas en JCR, con un índice H de 12 en cuanto a las citas conseguidas por estos artículos. Actualmente tiene 3 sexenios de investigación a nivel nacional, y el último de ellos es un sexenio vivo (activo). También posee un sexenio de transferencia en la única convocatoria abierta hasta ahora por el Ministerio (2019).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *