import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st 
import math as mt
import datetime as dt
from plotly import graph_objects as go

pm_events = pd.read_csv('/datasets/ab_project_marketing_events_us.csv', parse_dates=['start_dt', 'finish_dt'])
new_users = pd.read_csv('/datasets/final_ab_new_users_upd_us.csv', parse_dates=['first_date'], dtype={'region' : 'category', 'device' : 'category'})
ab_events = pd.read_csv('/datasets/final_ab_events_upd_us.csv', parse_dates=['event_dt'], dtype={'event_name' : 'category'})
ab_participants = pd.read_csv('/datasets/final_ab_participants_upd_us.csv')

pm_events.info()
pm_events

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   name       14 non-null     object        
 1   regions    14 non-null     object        
 2   start_dt   14 non-null     datetime64[ns]
 3   finish_dt  14 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 576.0+ bytes

new_users.info()
new_users.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58703 entries, 0 to 58702
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   user_id     58703 non-null  object        
 1   first_date  58703 non-null  datetime64[ns]
 2   region      58703 non-null  category      
 3   device      58703 non-null  category      
dtypes: category(2), datetime64[ns](1), object(1)
memory usage: 1.0+ MB

ab_events.info()
ab_events.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 423761 entries, 0 to 423760
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   user_id     423761 non-null  object        
 1   event_dt    423761 non-null  datetime64[ns]
 2   event_name  423761 non-null  category      
 3   details     60314 non-null   float64       
dtypes: category(1), datetime64[ns](1), float64(1), object(1)
memory usage: 10.1+ MB

ab_participants.info()
ab_participants.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14525 entries, 0 to 14524
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  14525 non-null  object
 1   group    14525 non-null  object
 2   ab_test  14525 non-null  object
dtypes: object(3)
memory usage: 340.6+ KB

print(pm_events.duplicated().sum())
print(new_users.duplicated().sum())
print(ab_events.duplicated().sum())
print(ab_participants.duplicated().sum())

0
0
0
0

print(new_users['region'].value_counts())
print()
print(new_users['device'].value_counts())

EU           43396
N.America     9051
CIS           3130
APAC          3126
Name: region, dtype: int64

Android    26159
PC         14845
iPhone     11902
Mac         5797
Name: device, dtype: int64

ab_events['event_name'].value_counts()

login           182465
product_page    120862
purchase         60314
product_cart     60120
Name: event_name, dtype: int64

events = ab_events.merge(ab_participants, on='user_id')
events = events.merge(new_users, on='user_id')
events.head()

events = events[(events['ab_test'] == 'recommender_system_test') & (events['region'] == 'EU')]
events['days_since_reg'] = (events['event_dt'] - events['first_date']).dt.days
events = events[events['days_since_reg'] <= 14]
events.head()

funnel = events.groupby('event_name')['user_id'].nunique().sort_values(ascending=False).reset_index()
funnel

fig = go.Figure(go.Funnel(
    meta = funnel,
    y = funnel['event_name'],
    x = funnel['user_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

plt.close()

A = events[events['group'] == 'A'].groupby('event_name')['user_id'].nunique().sort_values(ascending=False).reset_index()
B = events[events['group'] == 'B'].groupby('event_name')['user_id'].nunique().sort_values(ascending=False).reset_index()

fig = go.Figure()

fig.add_trace(go.Funnel(
    name = 'A',
    meta = A,
    y = A['event_name'],
    x = A['user_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

fig.add_trace(go.Funnel(
    name = 'B',
    meta = B,
    y = B['event_name'],
    x = B['user_id'],
    textposition = "inside",
    textinfo = "value+percent previous+percent initial"
    ))

plt.close()

print('Eventos por usuario grupo A:', format(events[events['group'] == 'A'].groupby('user_id')['event_name'].count().mean(), '.2f'))
print('Eventos por usuario grupo B:', format(events[events['group'] == 'B'].groupby('user_id')['event_name'].count().mean(), '.2f'))

Eventos por usuario grupo A: 6.67
Eventos por usuario grupo B: 5.45

print('Total participantes registrados:', events['user_id'].nunique())

Total participantes registrados: 3481

ax = events.groupby('group')['user_id'].count().plot(kind='bar', rot=0, title='Cantidad de eventos por grupo', grid='on');
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

ax = events.groupby('group')['user_id'].nunique().plot(kind='bar', rot=0, title='Cantidad de participantes por grupo', grid='on');
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

len(pd.Series(list(set(events[events['group'] == 'A']['user_id']) &
                   set(events[events['group'] == 'B']['user_id'])), dtype='float64'))

0

events['date'] = events['event_dt'].dt.date
ax = events.groupby('date')['event_name'].count().plot(kind='bar', rot=90, grid='on', title='Número de eventos registrados por día');
for p in ax.patches:
    ax.annotate(str(int(p.get_height())), (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 5), textcoords='offset points', fontsize=8, color='blue');

ax = events[events['group'] == 'A'].groupby('date')['event_name'].count().plot(rot=90, grid='on', style='-o')
events[events['group'] == 'B'].groupby('date')['event_name'].count().plot(rot=90, grid='on', style='-o')
plt.title('Número de eventos registrados por día (división por grupos)')
plt.legend(['A', 'B']);

def prop_test(event):
    
    conversions = events[['user_id', 'group']].drop_duplicates()
    converted = pd.DataFrame(data={"user_id": events[events["event_name"] == event]["user_id"].unique(), "converted": 1})
    conversions = conversions.merge(converted, on="user_id", how="left")
    conversions["converted"] = conversions["converted"].fillna(0)
    
    purchases = np.array([len(conversions[(conversions['group'] == 'A') & (conversions['converted'] == 1)]), 
                          len(conversions[(conversions['group'] == 'B') & (conversions['converted'] == 1)])])
                          
    leads = np.array([len(conversions[conversions['group'] == 'A']), 
                      len(conversions[conversions['group'] == 'B'])])
    
    print(event, ':', purchases)
    print('Total :', leads)
    
    alpha = .05/3 #Corrección de Bonferroni
    
    p1 = purchases[0]/leads[0]
    p2 = purchases[1]/leads[1]
    p_combined = ((purchases[0] + purchases[1]) / (leads[0] + leads[1]))
    difference = p1 - p2
    
    print('A:', format(p1, '.2%'), '%  ', 'B:',format(p2, '.2%'), '%.')

    z_value = difference / mt.sqrt(p_combined * (1 - p_combined) * (1/leads[0] + 1/leads[1]))

    distr = st.norm(0, 1) 

    p_value = (1 - distr.cdf(abs(z_value))) * 2
    
    print('p-value: ', p_value)

    if (p_value < alpha):
        print("Rechazar la hipótesis nula: hay una diferencia significativa entre las proporciones")
    else:
        print("No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes")

prop_test('product_page')

product_page : [1685  493]
Total : [2604  877]
A: 64.71% %   B: 56.21% %.
p-value:  6.942739359416805e-06
Rechazar la hipótesis nula: hay una diferencia significativa entre las proporciones

prop_test('product_cart')

product_cart : [782 244]
Total : [2604  877]
A: 30.03% %   B: 27.82% %.
p-value:  0.21469192029582396
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

prop_test('purchase')

purchase : [833 249]
Total : [2604  877]
A: 31.99% %   B: 28.39% %.
p-value:  0.04652482738393027
No se pudo rechazar la hipótesis nula: no hay razón para pensar que las proporciones son diferentes

	name	regions	start_dt	finish_dt
0	Christmas&New Year Promo	EU, N.America	2020-12-25	2021-01-03
1	St. Valentine's Day Giveaway	EU, CIS, APAC, N.America	2020-02-14	2020-02-16
2	St. Patric's Day Promo	EU, N.America	2020-03-17	2020-03-19
3	Easter Promo	EU, CIS, APAC, N.America	2020-04-12	2020-04-19
4	4th of July Promo	N.America	2020-07-04	2020-07-11
5	Black Friday Ads Campaign	EU, CIS, APAC, N.America	2020-11-26	2020-12-01
6	Chinese New Year Promo	APAC	2020-01-25	2020-02-07
7	Labor day (May 1st) Ads Campaign	EU, CIS, APAC	2020-05-01	2020-05-03
8	International Women's Day Promo	EU, CIS, APAC	2020-03-08	2020-03-10
9	Victory Day CIS (May 9th) Event	CIS	2020-05-09	2020-05-11
10	CIS New Year Gift Lottery	CIS	2020-12-30	2021-01-07
11	Dragon Boat Festival Giveaway	APAC	2020-06-25	2020-07-01
12	Single's Day Gift Promo	APAC	2020-11-11	2020-11-12
13	Chinese Moon Festival	APAC	2020-10-01	2020-10-07

	user_id	event_dt	event_name	details
0	E1BDDCE0DAFA2679	2020-12-07 20:22:03	purchase	99.99
1	7B6452F081F49504	2020-12-07 09:22:53	purchase	9.99
2	9CD9F34546DF254C	2020-12-07 12:59:29	purchase	4.99
3	96F27A054B191457	2020-12-07 04:02:40	purchase	4.99
4	1FD7660FDF94CA1F	2020-12-07 10:15:09	purchase	4.99

	user_id	event_dt	event_name	details	group	ab_test	first_date	region	device
0	96F27A054B191457	2020-12-07 04:02:40	purchase	4.99	B	interface_eu_test	2020-12-07	EU	iPhone
1	96F27A054B191457	2020-12-08 09:43:14	purchase	4.99	B	interface_eu_test	2020-12-07	EU	iPhone
2	96F27A054B191457	2020-12-09 00:44:10	purchase	4.99	B	interface_eu_test	2020-12-07	EU	iPhone
3	96F27A054B191457	2020-12-26 00:33:57	purchase	9.99	B	interface_eu_test	2020-12-07	EU	iPhone
4	96F27A054B191457	2020-12-07 04:02:41	product_page	NaN	B	interface_eu_test	2020-12-07	EU	iPhone

Tabla de contenidos

Introducción¶

Descripción de los datos¶

Pauta de trabajo¶

Preanálisis¶

Importación de librerías¶

Carga de datos¶

Previsualización de datos¶

Trabajar valores duplicados¶

Análisis exploratorio de datos¶

Estudiar la conversión en las diferentes etapas del embudo¶

¿El número de eventos por usuario está distribuido equitativamente entre las muestras?¶

¿Hay usuarios que están presentes en ambas muestras?¶

¿Cómo se distribuye el número de eventos entre los días?¶

¿Hay alguna peculiaridad en los datos que hay que tener en cuenta antes de iniciar la prueba A/B?¶

Evaluar los resultados de la prueba A/B¶

Utilizar una prueba z para comprobar la diferencia estadística entre las proporciones.¶

¿Qué se puede concluir sobre los resultados de la prueba A/B?¶

Conclusiones¶

Hallazgos sobre el registro de los datos¶

Recomendaciones para el futuro¶

Resolución final del experimento¶

	user_id	first_date	region	device
0	D72A72121175D8BE	2020-12-07	EU	PC
1	F1C668619DFE6E65	2020-12-07	N.America	Android
2	2E1BF1D4C37EA01F	2020-12-07	EU	PC
3	50734A22C0C63768	2020-12-07	EU	iPhone
4	E1BDDCE0DAFA2679	2020-12-07	N.America	iPhone

	user_id	group	ab_test
0	D1ABA3E2887B6A73	A	recommender_system_test
1	A7A3664BD6242119	A	recommender_system_test
2	DABC14FDDFADD29E	A	recommender_system_test
3	04988C5DF189632E	A	recommender_system_test
4	4FF2998A348C484F	A	recommender_system_test

	user_id	event_dt	event_name	details	group	ab_test	first_date	region	device	days_since_reg
12	831887FE7F2D6CBA	2020-12-07 06:50:29	purchase	4.99	A	recommender_system_test	2020-12-07	EU	Android	0
13	831887FE7F2D6CBA	2020-12-09 02:19:17	purchase	99.99	A	recommender_system_test	2020-12-07	EU	Android	2
14	831887FE7F2D6CBA	2020-12-07 06:50:30	product_cart	NaN	A	recommender_system_test	2020-12-07	EU	Android	0
15	831887FE7F2D6CBA	2020-12-08 10:52:27	product_cart	NaN	A	recommender_system_test	2020-12-07	EU	Android	1
16	831887FE7F2D6CBA	2020-12-09 02:19:17	product_cart	NaN	A	recommender_system_test	2020-12-07	EU	Android	2