import pandas as pd
import math as mt
import numpy as np
from scipy import stats as st
from plotly import graph_objects as go
from matplotlib import pyplot as plt
import seaborn as sns

df = pd.read_csv('/datasets/logs_exp_us.csv', sep='\t')

df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244126 entries, 0 to 244125
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   EventName       244126 non-null  object
 1   DeviceIDHash    244126 non-null  int64 
 2   EventTimestamp  244126 non-null  int64 
 3   ExpId           244126 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 7.5+ MB

df.columns = ['event', 'device_id', 'ts', 'group']

df['date'] = pd.to_datetime(df['ts'], unit='s').dt.strftime('%Y-%m-%d')
df['hour'] = pd.to_datetime(df['ts'], unit='s').dt.strftime('%H:%M')
df.head()

print(df.duplicated().sum())
df[df.duplicated()].head()

413

df.drop_duplicates(inplace=True)

len(df)

243713

df['device_id'].nunique()

7551

print(df.groupby('device_id')['event'].count().mean().round(0))
sns.displot(df.groupby('device_id')['event'].count())
plt.xlabel('Eventos por usuario')
plt.ylabel('Cantidad de usuarios');

32.0

print(df.groupby('device_id')['event'].count().mode())
print()
sns.histplot(df.groupby('device_id')['event'].count())
plt.xlim(0, 100)
plt.grid(True)
plt.xlabel('Eventos por usuario')
plt.ylabel('Cantidad de usuarios');

0    5
dtype: int64

print(df['date'].min())
print(df['date'].max())

2019-07-25
2019-08-07

sns.set(style='white')
sns.histplot(data=df, x='date')
plt.grid(True)
plt.xticks(rotation=80)
plt.xlabel('Fecha')
plt.ylabel('Registros');

new_df = df[df['date'] >= '2019-08-01']

print('Total de eventos:' ,len(df))
print('Eventos perdidos:' ,len(df) - len(new_df))
print('Eventos perdidos:' ,((len(df) - len(new_df)) / len(df))*100, '%')
print()
print('Total de clientes:', df['device_id'].nunique())
print('Clientes perdidos:' ,df['device_id'].nunique() - new_df['device_id'].nunique())
print('Clientes perdidos:' ,(df['device_id'].nunique() - new_df['device_id'].nunique()) / df['device_id'].nunique(), '%')

Total de eventos: 243713
Eventos perdidos: 2826
Eventos perdidos: 1.159560630741897 %

Total de clientes: 7551
Clientes perdidos: 17
Clientes perdidos: 0.0022513574361011784 %

ax = new_df['group'].value_counts().plot(kind='bar', rot=0, grid=True, xlabel='Grupo', ylabel='Cantidad de registros', title='Registros por grupo')
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

ax = new_df['event'].value_counts().plot(kind='bar', rot=75, grid=True, xlabel='Evento', ylabel='Cantidad de registros', title='Tipos de eventos registrados')
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

bar = new_df.groupby(['event', 'group'])['device_id'].count().reset_index()
sns.barplot(data=bar, x='event', y='device_id', hue='group', order=['MainScreenAppear', 'OffersScreenAppear', 'CartScreenAppear', 'PaymentScreenSuccessful', 'Tutorial'])
plt.xticks(rotation=75)
plt.title('Número de eventos registrados (división por grupos)')
plt.grid(True)

ax = new_df.groupby('event')['device_id'].nunique().sort_values(ascending=False).plot(kind='bar', rot=75, grid=True, xlabel='Evento', ylabel='Cantidad de usuarios', title='Usuarios registrados por evento')
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

bar = new_df.groupby(['event', 'group'])['device_id'].nunique().reset_index()
sns.barplot(data=bar, x='event', y='device_id', hue='group', order=['MainScreenAppear', 'OffersScreenAppear', 'CartScreenAppear', 'PaymentScreenSuccessful', 'Tutorial'])
plt.xticks(rotation=75)
plt.title('Usuarios registrados por evento (división por grupos)')
plt.grid(True)

new_df.query('event == "Tutorial"')

new_df.query('device_id == 3737462046622621720')

new_df.query('device_id == 1309234519709630135')

new_df['device_id'].nunique()

7534

fig = go.Figure(go.Funnel(
    y = ["MainScreenAppear", "OffersScreenAppear", "CartScreenAppear", "PaymentScreenSuccessful"],
    x = [7419, 4593, 3734, 3539],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

g246 = new_df[new_df['group'] == 246].groupby('event')['device_id'].nunique().sort_values(ascending=False).reset_index()
g247 = new_df[new_df['group'] == 247].groupby('event')['device_id'].nunique().sort_values(ascending=False).reset_index()
g248 = new_df[new_df['group'] == 248].groupby('event')['device_id'].nunique().sort_values(ascending=False).reset_index()
g246

fig = go.Figure()

fig.add_trace(go.Funnel(
    name = '246',
    meta = g246,
    y = g246['event'],
    x = g246['device_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

fig.add_trace(go.Funnel(
    name = '247',
    meta = g247,
    y = g247['event'],
    x = g247['device_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

fig.add_trace(go.Funnel(
    name = '248',
    meta = g248,
    y = g248['event'],
    x = g248['device_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

plt.close()

ax = new_df.groupby('group')['device_id'].nunique().sort_values(ascending=False).plot(kind='bar', rot=0, grid=True, xlabel='Grupo', ylabel='Cantidad de usuarios', title='Usuarios registrados por grupo')
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

conversions = new_df[['device_id', 'group']].drop_duplicates() #Se crea una matriz de id de dispositivo y grupos, para evitar duplicados
converted = pd.DataFrame(data={"device_id": new_df[new_df["event"] == "PaymentScreenSuccessful"]["device_id"].unique(), "converted": 1}) #Se crea un dataframe donde cada usuario que hizo al menos una compra tiene un booleano de 1
conversions = conversions.merge(converted, on="device_id", how="left")
conversions["converted"] = conversions["converted"].fillna(0)
conversions.head()

alpha = .05 #  nivel de significación

purchases = np.array([len(conversions.query('group == 246 and converted == 1')), len(conversions.query('group == 247 and converted == 1'))])
leads = np.array([len(conversions.query('group == 246')), len(conversions.query('group == 247'))])

print(purchases)
print(leads)

p1 = purchases[0]/leads[0]
p2 = purchases[1]/leads[1]
p_combined = ((purchases[0] + purchases[1]) / (leads[0] + leads[1]))
difference = p1 - p2

print('246:', format(p1, '.2%'), '%  ','247:',format(p2, '.2%'), '%.')

z_value = difference / mt.sqrt(p_combined * (1 - p_combined) * (1/leads[0] + 1/leads[1]))

distr = st.norm(0, 1) 

p_value = (1 - distr.cdf(abs(z_value))) * 2 

print('p-value: ', p_value)

if (p_value < alpha):
    print("Rechazar la hipótesis nula: hay una diferencia significativa entre las proporciones")
else:
    print("No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes")

[1200 1158]
[2484 2513]
246: 48.31% %   247: 46.08% %.
p-value:  0.11456679313141849
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

def prop_test(group_1, group_2, event):
    
    conversions = new_df[['device_id', 'group']].drop_duplicates()
    converted = pd.DataFrame(data={"device_id": new_df[new_df["event"] == event]["device_id"].unique(), "converted": 1})
    conversions = conversions.merge(converted, on="device_id", how="left")
    conversions["converted"] = conversions["converted"].fillna(0)
    
    purchases = np.array([len(conversions[(conversions['group'] == group_1) & (conversions['converted'] == 1)]), 
                          len(conversions[(conversions['group'] == group_2) & (conversions['converted'] == 1)])])
                          
    leads = np.array([len(conversions[conversions['group'] == group_1]), 
                      len(conversions[conversions['group'] == group_2])])
    
    print(event, ':',purchases)
    print('Total :',leads)
    
    alpha = .05 / 5 #Corrección de Bonferroni
    
    p1 = purchases[0]/leads[0]
    p2 = purchases[1]/leads[1]
    p_combined = ((purchases[0] + purchases[1]) / (leads[0] + leads[1]))
    difference = p1 - p2
    
    print(group_1, ':', format(p1, '.2%'), '%  ', group_2, ':', format(p2, '.2%'), '%.')

    z_value = difference / mt.sqrt(p_combined * (1 - p_combined) * (1/leads[0] + 1/leads[1]))

    distr = st.norm(0, 1) 

    p_value = (1 - distr.cdf(abs(z_value))) * 2
    
    print('p-value: ', p_value)

    if (p_value < alpha):
        print("Rechazar la hipótesis nula: hay una diferencia significativa entre las proporciones")
    else:
        print("No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes")

prop_test(246, 247, 'MainScreenAppear')
print()
prop_test(246, 247, 'OffersScreenAppear')
print()
prop_test(246, 247, 'CartScreenAppear')
print()
prop_test(246, 247, 'PaymentScreenSuccessful')
print()
prop_test(246, 247, 'Tutorial')

MainScreenAppear : [2450 2476]
Total : [2484 2513]
246 : 98.63% %   247 : 98.53% %.
p-value:  0.7570597232046099
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

OffersScreenAppear : [1542 1520]
Total : [2484 2513]
246 : 62.08% %   247 : 60.49% %.
p-value:  0.2480954578522181
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

CartScreenAppear : [1266 1238]
Total : [2484 2513]
246 : 50.97% %   247 : 49.26% %.
p-value:  0.22883372237997213
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

PaymentScreenSuccessful : [1200 1158]
Total : [2484 2513]
246 : 48.31% %   247 : 46.08% %.
p-value:  0.11456679313141849
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

Tutorial : [278 283]
Total : [2484 2513]
246 : 11.19% %   247 : 11.26% %.
p-value:  0.9376996189257114
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test(246, 248, 'MainScreenAppear')
print()
prop_test(247, 248, 'MainScreenAppear')

MainScreenAppear : [2450 2493]
Total : [2484 2537]
246 : 98.63% %   248 : 98.27% %.
p-value:  0.2949721933554552
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

MainScreenAppear : [2476 2493]
Total : [2513 2537]
247 : 98.53% %   248 : 98.27% %.
p-value:  0.4587053616621515
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test(246, 248, 'OffersScreenAppear')
print()
prop_test(247, 248, 'OffersScreenAppear')

OffersScreenAppear : [1542 1531]
Total : [2484 2537]
246 : 62.08% %   248 : 60.35% %.
p-value:  0.20836205402738917
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

OffersScreenAppear : [1520 1531]
Total : [2513 2537]
247 : 60.49% %   248 : 60.35% %.
p-value:  0.9197817830592261
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test(246, 248, 'CartScreenAppear')
print()
prop_test(247, 248, 'CartScreenAppear')

CartScreenAppear : [1266 1230]
Total : [2484 2537]
246 : 50.97% %   248 : 48.48% %.
p-value:  0.07842923237520116
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

CartScreenAppear : [1238 1230]
Total : [2513 2537]
247 : 49.26% %   248 : 48.48% %.
p-value:  0.5786197879539783
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test(246, 248, 'PaymentScreenSuccessful')
print()
prop_test(247, 248, 'PaymentScreenSuccessful')

PaymentScreenSuccessful : [1200 1181]
Total : [2484 2537]
246 : 48.31% %   248 : 46.55% %.
p-value:  0.2122553275697796
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

PaymentScreenSuccessful : [1158 1181]
Total : [2513 2537]
247 : 46.08% %   248 : 46.55% %.
p-value:  0.7373415053803964
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test(246, 248, 'Tutorial')
print()
prop_test(247, 248, 'Tutorial')

Tutorial : [278 279]
Total : [2484 2537]
246 : 11.19% %   248 : 11.00% %.
p-value:  0.8264294010087645
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

Tutorial : [283 279]
Total : [2513 2537]
247 : 11.26% %   248 : 11.00% %.
p-value:  0.765323922474501
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

print('Probabilidad de falso positivo sin corrección:' ,format(1 - (1 - 0.05)**5, '.2%'))
print()
print('Probabilidad de falso positivo con corrección:',format(1 - (1 - (0.05 / 5))**5, '.2%'))

Probabilidad de falso positivo sin corrección: 22.62%

Probabilidad de falso positivo con corrección: 4.90%

	event	device_id	ts	group	date	hour
453	MainScreenAppear	5613408041324010552	1564474784	248	2019-07-30	08:19
2350	CartScreenAppear	1694940645335807244	1564609899	248	2019-07-31	21:51
3573	MainScreenAppear	434103746454591587	1564628377	248	2019-08-01	02:59
4076	MainScreenAppear	3761373764179762633	1564631266	247	2019-08-01	03:47
4803	MainScreenAppear	2835328739789306622	1564634641	248	2019-08-01	04:44

	event	device_id	ts	group	date	hour
2828	Tutorial	3737462046622621720	1564618048	246	2019-08-01	00:07
2841	Tutorial	3737462046622621720	1564618338	246	2019-08-01	00:12
3353	Tutorial	5587388800188073787	1564625981	247	2019-08-01	02:19
3433	Tutorial	2988069914968447512	1564626904	246	2019-08-01	02:35
3590	Tutorial	1884616937397676465	1564628471	247	2019-08-01	03:01
...	...	...	...	...	...	...
241781	Tutorial	1309234519709630135	1565204899	247	2019-08-07	19:08
241869	Tutorial	5523029501947287934	1565205070	247	2019-08-07	19:11
242673	Tutorial	4069063897900929368	1565206705	248	2019-08-07	19:38
242695	Tutorial	5862484110925354625	1565206785	247	2019-08-07	19:39
243542	Tutorial	5365227480683749189	1565209432	248	2019-08-07	20:23

Tabla de contenidos

Introducción¶

Descripción de datos¶

Pauta de trabajo¶

Pre-análisis de datos¶

Importación de librerías¶

Carga de datos¶

Previsualización de datos¶

Optimización de datos¶

Análisis de datos¶

Estudiar y comprobar los datos¶

¿Cuántos eventos hay en los registros?¶

¿Cuántos usuarios y usuarias hay en los registros?¶

¿Cuál es el promedio de eventos por usuario?¶

¿Qué periodo de tiempo cubren los datos?¶

¿Hay una cantidad suficiente de registros por grupo?¶

Estudiar el embudo de eventos¶

¿Qué eventos hay en los registros? y ¿Cuál su frecuencia de suceso?¶

¿Cual la cantidad de usuarios y usuarias que realizaron cada una de las acciones registradas?¶

¿En qué orden ocurrieron las acciones?¶

¿Cual es la proporción de usuarios y usuarias que pasan de una etapa a la siguiente?¶

Estudiar los resultados del experimento¶

¿Cuántos usuarios y usuarias hay en cada grupo?¶

¿Hay una diferencia estadísticamente significativa entre los grupos de control?¶

¿Qué conclusiones se pueden sacar del experimento?¶

¿El nivel de significación ha sido el correcto?¶

Conclusiones¶

Estudio y comprobación de los datos¶

Embudo de eventos¶

Experimento¶

	EventName	DeviceIDHash	EventTimestamp	ExpId
0	MainScreenAppear	4575588528974610257	1564029816	246
1	MainScreenAppear	7416695313311560658	1564053102	246
2	PaymentScreenSuccessful	3518123091307005509	1564054127	248
3	CartScreenAppear	3518123091307005509	1564054127	248
4	PaymentScreenSuccessful	6217807653094995999	1564055322	248

	event	device_id
0	MainScreenAppear	2450
1	OffersScreenAppear	1542
2	CartScreenAppear	1266
3	PaymentScreenSuccessful	1200
4	Tutorial	278

	device_id	group	converted
0	3737462046622621720	246	1.0
1	1433840883824088890	247	0.0
2	4899590676214355127	247	1.0
3	1182179323890311443	246	0.0
4	4613461174774205834	248	1.0