import pandas as pd # importar librerías
from matplotlib import pyplot as plt

plt.style.use('ggplot')

instacart_orders = pd.read_csv('/datasets/instacart_orders.csv', sep=';') 
products = pd.read_csv('/datasets/products.csv', sep=';')
aisles = pd.read_csv('/datasets/aisles.csv', sep=';')
departments = pd.read_csv('/datasets/departments.csv', sep=';')
order_products = pd.read_csv('/datasets/order_products.csv', sep=';') # leer conjuntos de datos en los DataFrames

instacart_orders.info() # mostrar información del DataFrame
instacart_orders.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478967 entries, 0 to 478966
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478967 non-null  int64  
 1   user_id                 478967 non-null  int64  
 2   order_number            478967 non-null  int64  
 3   order_dow               478967 non-null  int64  
 4   order_hour_of_day       478967 non-null  int64  
 5   days_since_prior_order  450148 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB

products.info() # mostrar información del DataFrame
products.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49694 entries, 0 to 49693
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     49694 non-null  int64 
 1   product_name   48436 non-null  object
 2   aisle_id       49694 non-null  int64 
 3   department_id  49694 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 1.5+ MB

aisles.info() # mostrar información del DataFrame
aisles.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134 entries, 0 to 133
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   aisle_id  134 non-null    int64 
 1   aisle     134 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.2+ KB

departments.info() # mostrar información del DataFrame
departments.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   department_id  21 non-null     int64 
 1   department     21 non-null     object
dtypes: int64(1), object(1)
memory usage: 464.0+ bytes

order_products.info(show_counts=True) # mostrar información del DataFrame
order_products.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4545007 entries, 0 to 4545006
Data columns (total 4 columns):
 #   Column             Non-Null Count    Dtype  
---  ------             --------------    -----  
 0   order_id           4545007 non-null  int64  
 1   product_id         4545007 non-null  int64  
 2   add_to_cart_order  4544171 non-null  float64
 3   reordered          4545007 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 138.7 MB

print(instacart_orders.duplicated().sum()) # Revisa si hay pedidos duplicados
print()
instacart_orders[instacart_orders.duplicated()]

15

len(instacart_orders[(instacart_orders['order_dow'] == 3) & (instacart_orders['order_hour_of_day'] == 2)]) #Se filtra el DataFrame por los pedidos realizados el miercoles a las 2

121

instacart_orders.drop_duplicates(inplace=True) # Eliminar los pedidos duplicados
print(instacart_orders.duplicated().sum()) # Verificar nuevamente si hay filas duplicadas

0

instacart_orders[instacart_orders.duplicated('order_id')] # Verificar si hay IDs duplicados de pedidos
print(instacart_orders['order_id'].duplicated().sum())

0

print(products.duplicated().sum()) # Verificar si hay filas totalmente duplicadas

0

products['product_name'] = products['product_name'].str.lower() # Revisar únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)
print()
print(products['product_name'].duplicated().sum())

1361

print(products['product_name'].dropna().duplicated().sum()) # Revisar si hay nombres duplicados de productos no faltantes
print()
print(products['product_id'].duplicated().sum())

104

0

print(departments.duplicated().sum()) # Revisar si hay filas totalmente duplicadas

0

print(departments['department_id'].duplicated().sum()) # Revisar únicamente si hay IDs duplicadas de departamento

0

print(aisles.duplicated().sum()) # Revisar si hay filas totalmente duplicadas

0

print(aisles['aisle_id'].duplicated().sum()) # Revisar únicamente si hay IDs duplicadas de pasillos

0

print(order_products.duplicated().sum()) # Revisa si hay filas totalmente duplicadas

0

isna = products[products['product_name'].isna()] # Encuentra los valores ausentes en la columna 'product_name'
print(products['product_name'].isna().sum())
isna.head()

1258

products_in = products[products['product_name'].isna()] #  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?
print(len(products_in.query('aisle_id == 100')))

1258

print(len(products_in.query('department_id == 21'))) # ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?

1258

print(departments.query('department_id == 21')) # Usar las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.
print()
print(aisles.query('aisle_id == 100'))

    department_id department
20             21    missing

    aisle_id    aisle
99       100  missing

products['product_name'].fillna('Unknown', inplace=True) # Completa los nombres de productos ausentes con 'Unknown'
print()
print(products['product_name'].isna().sum())

0

orders_isna = instacart_orders[instacart_orders['days_since_prior_order'].isna()] # Encuentra los valores ausentes
orders_isna.head()

print(len(orders_isna))
print(len(instacart_orders.query('order_number == 1'))) # ¿Hay algún valor ausente que no sea el primer pedido del cliente?

28817
28817

print(order_products['add_to_cart_order'].isna().sum()) # Encuentra los valores ausentes

836

print(order_products['add_to_cart_order'].max()) # ¿Cuáles son los valores mínimos y máximos en esta columna?
print(order_products['add_to_cart_order'].min())

64.0
1.0

order_products_addisna = order_products[order_products['add_to_cart_order'].isna()] # Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'
id_nan = order_products_addisna['order_id']

id_in_op = order_products.query('order_id in @id_nan') # ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
print(id_in_op['order_id'].value_counts().min()) # Cuenta el número de 'product_id' en cada pedido y revisa el valor mínimo del conteo.

65

order_products['add_to_cart_order'].fillna(999, inplace=True) # Remplazar los valores ausentes en la columna 'add_to_cart' con 999 y convierte la columna al tipo entero.
order_products['add_to_cart_order'] = order_products['add_to_cart_order'].astype('int')
print(order_products['add_to_cart_order'].isna().sum())

0

print(instacart_orders['order_hour_of_day'].describe())

count    478952.000000
mean         13.447034
std           4.224567
min           0.000000
25%          10.000000
50%          13.000000
75%          16.000000
max          23.000000
Name: order_hour_of_day, dtype: float64

print(instacart_orders['order_dow'].describe())

count    478952.000000
mean          2.775051
std           2.045901
min           0.000000
25%           1.000000
50%           3.000000
75%           5.000000
max           6.000000
Name: order_dow, dtype: float64

io_plot = instacart_orders['order_hour_of_day'].value_counts(sort=False)
io_plot.plot(kind='bar', ylabel='Pedidos', xlabel='Hora del día', title='Pedidos por hora del día', rot=0);

od_plot = instacart_orders['order_dow'].value_counts(sort=False)
od_plot.plot(kind='bar', ylabel='Pedidos', xlabel='Día de la semana', title='Distribución semanal de pedidos', rot=0);

instacart_orders['days_since_prior_order'].plot(kind='hist', grid='on', bins=30, xlim=[0, 30], title='Días de espera para hacer otro pedido')
plt.xlabel('Días')
plt.ylabel('Pedidos');

wed_io = instacart_orders[instacart_orders['order_dow'] == 3]
wed_plot = wed_io['order_hour_of_day'].value_counts(sort=False)
sat_io = instacart_orders[instacart_orders['order_dow'] == 6]
sat_plot = sat_io['order_hour_of_day'].value_counts(sort=False)
concat = pd.concat([sat_plot,wed_plot],axis='columns')
concat.plot(kind='bar', ylabel='Pedidos', xlabel='Hora', title='Distribución horaria de pedidos realizados los sábados y los miércoles', grid='on', rot=0)
plt.legend(['Sábado','Miércoles']);

on_io = instacart_orders.groupby('user_id')['order_id'].count()
on_io.plot(kind='hist', xlim=[0,16], bins=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16], grid='on', title='Distribución del número de pedidos por cliente')
plt.xlabel('Pedidos')
plt.ylabel('Clientes');

popular = products.merge(order_products,on='product_id')
popular = popular.groupby(['product_name','product_id'])['product_id'].count()
popular = popular.sort_values(ascending=False)
popular = popular.head(20)
popular.plot(kind='bar', xlabel='Producto', ylabel='Ventas totales', title='Los 20 productos más vendidos', rot=85);

apo = order_products.groupby('order_id')['product_id'].count()
apo.plot(kind='hist', grid='on', xlim=[0,40], title='Distribución de artículos por pedido', bins=[0,5,10,15,20,25,30,35,40])
plt.xlabel('Artículos')
plt.ylabel('Pedidos');

reor = order_products[(order_products['reordered'] == 1)]
popular_reor = products.merge(reor,on='product_id')
popular_reor = popular_reor.groupby(['product_name','product_id'])['product_id'].count()
popular_reor = popular_reor.sort_values(ascending=False)
popular_reor = popular_reor.head(20)
popular_reor.plot(title='Los 20 principales artículos que vuelven a pedirse con mayor frecuencia', kind='bar', xlabel='Producto', ylabel='Veces que se volvió a pedir', rot=85);

propor = order_products.merge(products,on='product_id')
propor = propor.groupby(['product_name','product_id'])['reordered'].mean().reset_index()
propor.head()

client_prop = order_products.merge(instacart_orders,on='order_id')
client_prop = client_prop.groupby(by='user_id')['reordered'].mean().reset_index()
client_prop.head()

first_order = order_products.merge(products,on='product_id')
first_order = first_order[first_order['add_to_cart_order'] == 1]
first_order = first_order.groupby(['product_name','product_id'])['product_name'].count()
first_order = first_order.sort_values(ascending=False)
first_order = first_order.head(20)
first_order.plot(title='Los 20 principales artículos que las personas ponen primero en sus carritos', kind='bar', xlabel='Producto', ylabel='Veces que fue puesto primero en un carrito', rot=85);

	aisle_id	aisle
0	1	prepared soups salads
1	2	specialty cheeses
2	3	energy granola bars
3	4	instant foods
4	5	marinades meat preparation

	department_id	department
0	1	frozen
1	2	other
2	3	bakery
3	4	produce
4	5	alcohol

	order_id	product_id	add_to_cart_order	reordered
0	2141543	11440	17.0	0
1	567889	1560	1.0	1
2	2261212	26683	1.0	1
3	491251	8670	35.0	1
4	2571142	1940	5.0	1

	order_id	user_id	order_number	order_dow	order_hour_of_day	days_since_prior_order
145574	794638	50898	24	3	2	2.0
223105	2160484	107525	16	3	2	30.0
230807	1918001	188546	14	3	2	16.0
266232	1782114	106752	1	3	2	NaN
273805	1112182	202304	84	3	2	6.0
284038	2845099	31189	11	3	2	7.0
311713	1021560	53767	3	3	2	9.0
321100	408114	68324	4	3	2	18.0
323900	1919531	191501	32	3	2	7.0
345917	2232988	82565	1	3	2	NaN
371905	391768	57671	19	3	2	10.0
394347	467134	63189	21	3	2	2.0
411408	1286742	183220	48	3	2	4.0
415163	2282673	86751	49	3	2	2.0
441599	2125197	14050	48	3	2	3.0

	order_id	user_id	order_number	order_dow	order_hour_of_day	days_since_prior_order
28	133707	182261	1	3	10	NaN
96	787445	25685	1	6	18	NaN
100	294410	111449	1	0	19	NaN
103	2869915	123958	1	4	16	NaN
104	2521921	42286	1	3	18	NaN

Tabla de contenidos

Introducción¶

Diccionario de datos¶

Paso 1. Descripción de los datos¶

Conclusiones¶

Paso 2. Preprocesamiento de los datos¶

Encontrar y eliminar valores duplicados¶

`orders` data frame¶

`products` data frame¶

`departments` data frame¶

`aisles` data frame¶

`order_products` data frame¶

Encuentra y elimina los valores ausentes¶

`products` data frame¶

`orders` data frame¶

`order_products` data frame¶

Conclusiones¶

Paso 3. Análisis de los datos¶

Análisis básico¶

Verificar que los valores sean sensibles¶

Para cada hora del día, ¿cuántas personas hacen órdenes?¶

¿Qué día de la semana compran víveres las personas?¶

¿Cuánto tiempo esperan las personas hasta hacer otro pedido?¶

Análisis Intermedio¶

Diferencia entre miércoles y sábados para `'order_hour_of_day'`¶

¿Cuál es la distribución para el número de pedidos por cliente?¶

¿Cuáles son los 20 productos más populares?¶

Análisis avanzado¶

¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?¶

¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia?¶

Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?¶

Para cada cliente, ¿qué proporción de sus productos ya los había pedido?¶

¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?¶

Conclusion general del proyecto:¶

	order_id	user_id	order_number	order_dow	order_hour_of_day	days_since_prior_order
0	1515936	183418	11	6	13	30.0
1	1690866	163593	5	5	12	9.0
2	1454967	39980	4	5	19	2.0
3	1768857	82516	56	0	20	10.0
4	3007858	196724	2	4	12	17.0

	product_id	product_name	aisle_id	department_id
0	1	Chocolate Sandwich Cookies	61	19
1	2	All-Seasons Salt	104	13
2	3	Robust Golden Unsweetened Oolong Tea	94	7
3	4	Smart Ones Classic Favorites Mini Rigatoni Wit...	38	1
4	5	Green Chile Anytime Sauce	5	13

	product_id	product_name	aisle_id	department_id
37	38	NaN	100	21
71	72	NaN	100	21
109	110	NaN	100	21
296	297	NaN	100	21
416	417	NaN	100	21

	product_name	product_id	reordered
0	#2 coffee filters	25773	0.254545
1	#2 cone white coffee filters	2158	0.000000
2	#2 mechanical pencils	26685	0.000000
3	#4 natural brown coffee filters	26381	0.358974
4	& go! hazelnut spread + pretzel sticks	20604	0.466667

	product_id	product_name	aisle_id	department_id
37	38	NaN	100	21
71	72	NaN	100	21
109	110	NaN	100	21
296	297	NaN	100	21
416	417	NaN	100	21

Tabla de contenidos

Introducción¶

Diccionario de datos¶

Paso 1. Descripción de los datos¶

Conclusiones¶

Paso 2. Preprocesamiento de los datos¶

Encontrar y eliminar valores duplicados¶

orders data frame¶

products data frame¶

departments data frame¶

aisles data frame¶

order_products data frame¶

Encuentra y elimina los valores ausentes¶

products data frame¶

orders data frame¶

order_products data frame¶

Conclusiones¶

Paso 3. Análisis de los datos¶

Análisis básico¶

Verificar que los valores sean sensibles¶

Para cada hora del día, ¿cuántas personas hacen órdenes?¶

¿Qué día de la semana compran víveres las personas?¶

¿Cuánto tiempo esperan las personas hasta hacer otro pedido?¶

Análisis Intermedio¶

Diferencia entre miércoles y sábados para 'order_hour_of_day'¶

¿Cuál es la distribución para el número de pedidos por cliente?¶

¿Cuáles son los 20 productos más populares?¶

Análisis avanzado¶

¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?¶

¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia?¶

Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?¶

Para cada cliente, ¿qué proporción de sus productos ya los había pedido?¶

¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?¶

Conclusion general del proyecto:¶

`orders` data frame¶

`products` data frame¶

`departments` data frame¶

`aisles` data frame¶

`order_products` data frame¶

`products` data frame¶

`orders` data frame¶

`order_products` data frame¶

Diferencia entre miércoles y sábados para `'order_hour_of_day'`¶

	product_id	product_name	aisle_id	department_id
37	38	NaN	100	21
71	72	NaN	100	21
109	110	NaN	100	21
296	297	NaN	100	21
416	417	NaN	100	21