Acceso a un DataFrame
Es fundamental conocer la estructura de un DataFrame para su adecuado manejo:
Para todos los ejemplos subsiguientes continuamos utilizando el conjunto de datos de empresas tecnológicas cargado previamente:
Figura 18: Componentes de un DataFrame
Acceso a filas
Si queremos acceder a las filas de un conjunto de datos mediante la posición (índice numérico) del registro usamos el atributo iloc:
Si queremos acceder a las filas de un conjunto de datos mediante la etiqueta del registro usamos el atributo loc:
Acceso a columnas
El acceso a columnas se realiza directamente utilizando corchetes, como si fuera un diccionario:
Se pueden seleccionar varias columnas a la vez pasando una lista:
Esta misma sintaxis permite la reordenación de las columnas de un DataFrame, si asignamos el resultado a la misma (u otra) variable:
Acceso a filas y columnas
Si mezclamos los dos accesos anteriores podemos seleccionar datos de forma muy precisa. Como siempre, partimos del «dataset» de empresas tecnológicas:
Acceso al primer valor del número de empleados/as. Formas equivalentes de hacerlo:
Acceso a ciudad y país de las empresas Sony, Panasonic y Lenovo:
Acceso a la última columna del DataFrame:
Acceso a las tres últimas filas (empresas) y a las dos primeras columnas:
Acceso a las filas que van desde «Apple» a «Huawei» y a las columnas que van desde «Revenue» hasta «City»:
Truco: Es posible usar «slicing» (troceado) en el acceso a registros y columnas.
Selección condicional
Es posible aplicar ciertas condiciones en la selección de los datos para obtener el subconjunto que estemos buscando. Veremos distintas aproximaciones a esta técnica.
Supongamos que queremos seleccionar aquellas empresas con base en Estados Unidos. Si aplicamos la condición sobre la columna obtendremos una serie de tipo «booleano» en la que se indica para qué registros se cumple la condición (incluyendo el índice):
Si aplicamos esta «máscara» al conjunto original de datos, obtendremos las empresas que estamos buscando:
También es posible aplicar condiciones compuestas. Supongamos que necesitamos selecionar aquellas empresas con más de 100000 millones de dólares de ingresos y más de 100000 empleados/as:
Los operadores lógicos que se pueden utilizar para combinar condiciones de selección son los siguientes:
Imaginemos ahora que estamos buscando aquellas empresas establecidas en California o Tokyo. Una posible aproximación sería utilizar una condición compuesta, pero existe la función isin() que nos permite comprobar si un valor está dentro de una lista de opciones:
Ejercicio
Obtenga los siguientes subconjuntos del «dataset» democan: