import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from scipy import stats as st 
import seaborn as sns
import math as mt # Cargar todas las librerías

plt.style.use('ggplot') #Dar estética a los gráficos

calls = pd.read_csv('/datasets/megaline_calls.csv') # Cargar los archivos de datos en diferentes DataFrames
internet = pd.read_csv('/datasets/megaline_internet.csv')
messages = pd.read_csv('/datasets/megaline_messages.csv')
plans = pd.read_csv('/datasets/megaline_plans.csv')
users = pd.read_csv('/datasets/megaline_users.csv')

plans.info() # Imprimir la información general/resumida sobre el DataFrame de las tarifas
plans # Imprimir una muestra de los datos para las tarifas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   messages_included      2 non-null      int64  
 1   mb_per_month_included  2 non-null      int64  
 2   minutes_included       2 non-null      int64  
 3   usd_monthly_pay        2 non-null      int64  
 4   usd_per_gb             2 non-null      int64  
 5   usd_per_message        2 non-null      float64
 6   usd_per_minute         2 non-null      float64
 7   plan_name              2 non-null      object 
dtypes: float64(2), int64(5), object(1)
memory usage: 256.0+ bytes

users.info() # Imprimir la información general/resumida sobre el DataFrame de usuarios
users.head() # Imprimir una muestra de datos para usuarios

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   first_name  500 non-null    object
 2   last_name   500 non-null    object
 3   age         500 non-null    int64 
 4   city        500 non-null    object
 5   reg_date    500 non-null    object
 6   plan        500 non-null    object
 7   churn_date  34 non-null     object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB

print(users.duplicated().sum())
print()
print(len(users['city'].value_counts()))
print(len(users['city'].str.lower().value_counts()))

0

73
73

users['reg_date'] = pd.to_datetime(calls['call_date'], format='%Y-%m-%d')
print(users['reg_date'].dtype)

datetime64[ns]

calls.info() # Imprimir la información general/resumida sobre el DataFrame de las llamadas
calls.head() # Imprimir una muestra de datos para las llamadas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137735 entries, 0 to 137734
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         137735 non-null  object 
 1   user_id    137735 non-null  int64  
 2   call_date  137735 non-null  object 
 3   duration   137735 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.2+ MB

calls['call_date'] = pd.to_datetime(calls['call_date'], format='%Y-%m-%d')
print(calls['call_date'].dtype)

datetime64[ns]

print(len(calls[calls['duration'] == 0]))
print(len(calls))
percent = calls[calls['duration'] == 0]
print('El porcentaje de datos perdidos es de:', format((len(percent) / len(calls)), '.1%'))

26834
137735
El porcentaje de datos perdidos es de: 19.5%

calls = calls[calls['duration'] != 0]

def rminutes(row):
    
    duration = row['duration']
    return mt.ceil(duration)
        
calls['duration'] = calls.apply(rminutes, axis=1)
calls.head()

messages.info() # Imprimir la información general/resumida sobre el DataFrame de los mensajes
messages.head() # Imprimir una muestra de datos para los mensajes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76051 entries, 0 to 76050
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            76051 non-null  object
 1   user_id       76051 non-null  int64 
 2   message_date  76051 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.7+ MB

messages['message_date'] = pd.to_datetime(messages['message_date'], format='%Y-%m-%d')
print(messages['message_date'].dtype)

datetime64[ns]

internet.info() # Imprimir la información general/resumida sobre el DataFrame de internet
internet.head() # Imprimir una muestra de datos para el tráfico de internet

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104825 entries, 0 to 104824
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   id            104825 non-null  object        
 1   user_id       104825 non-null  int64         
 2   session_date  104825 non-null  datetime64[ns]
 3   mb_used       104825 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 3.2+ MB

internet['session_date'] = pd.to_datetime(internet['session_date'], format='%Y-%m-%d')
print(internet['session_date'].dtype)

datetime64[ns]

user_calls = calls.merge(users,on='user_id') # Cálculo el número de llamadas hechas por cada usuario al mes.
user_calls['month'] = user_calls['call_date'].dt.month
user_calls_m = user_calls.groupby(['user_id','month'])['id'].count()

user_calls_m.head()

user_id  month
1000     12       16
1001     8        22
         9        38
         10       47
         11       49
Name: id, dtype: int64

user_minutes_m = user_calls.groupby(['user_id','month'])['duration'].sum() # Cálculo la cantidad de minutos usados por cada usuario al mes.

user_messages_m = messages.merge(users, on='user_id') # Cálculo el número de mensajes enviados por cada usuario al mes.
user_messages_m['month'] = user_messages_m['message_date'].dt.month
user_messages_m = user_messages_m.groupby(['user_id','month'])['id'].count()

user_internet_m = internet.merge(users,on='user_id') # Cálcula el volumen del tráfico de Internet usado por cada usuario al mes.
user_internet_m['month'] = user_internet_m['session_date'].dt.month
user_internet_m = user_internet_m.groupby(['user_id','month'])['mb_used'].sum()

df_concat = pd.concat([user_calls_m, user_minutes_m, user_internet_m,user_messages_m], axis='columns') # Fusiona los datos de llamadas, minutos, mensajes e Internet con base en user_id y month
df_concat = df_concat.set_axis(['calls_num','minutes_incall','mb_used','message_num'],axis=1)
df_concat = df_concat.reset_index('month')

df_concat.head()

print(df_concat['mb_used'].isna().sum()) #Búsqueda de duplicados
df_concat['mb_used'] = df_concat['mb_used'].fillna(0) #Corrección de duplicados
print(df_concat['mb_used'].isna().sum())
df_concat['gb'] = df_concat['mb_used'] / 1024 #Creación de la columna 'gb'

def rinternet(row): #Mediante esta función se redondea hacia arriba el número de gigabytes mensuales
    
    gb = row['gb']
    return mt.ceil(gb)
        
df_concat['gb_used'] = df_concat.apply(rinternet, axis=1)
df_concat = df_concat.drop(columns=['mb_used','gb']) #Se eliminan las columnas sobrantes
df_concat = df_concat.reset_index()

df_concat.head()

16
0

user_plan = df_concat.merge(users,on='user_id') # Añade la información de la tarifa
user_plan = user_plan.drop(['first_name', 'last_name', 'age', 'city', 'reg_date', 'churn_date'],axis=1) #Eliminar info residual
user_plan = user_plan.set_axis(['user_id', 'month', 'calls_num', 'minutes_incall', 'message_num', 'gb_used', 'plan_name'],axis=1)

user_plan = user_plan.merge(plans, on='plan_name') #Se agrega la info detallada de cada plan

user_plan['message_num'].fillna(0, inplace=True) # Se reemplazan con 0 los valores ausentes generados en el concat anterior
user_plan['calls_num'].fillna(0, inplace=True)
user_plan['minutes_incall'].fillna(0, inplace=True)

user_plan.head()

def minutes(row): #Función para calcular el cobro de minutos
    
    plan_name = row['plan_name']
    minutes_incall = row['minutes_incall']
    
    if plan_name == 'surf':
        if minutes_incall > 500:
            return (minutes_incall-500)*0.03
        else:
            return 0
    if plan_name == 'ultimate':
        if minutes_incall > 3000:
            return (minutes_incall-3000)*0.01
        else:
            return 0
        
user_plan['extra_usd_min'] = user_plan.apply(minutes, axis=1)

def gb(row): #Función para calcular el cobro de uso de gigabytes mensual
    
    plan_name = row['plan_name']
    gb_used = row['gb_used']
    
    if plan_name == 'surf':
        if gb_used > 15:
            return (gb_used-15)*10
        else:
            return 0
    if plan_name == 'ultimate':
        if gb_used > 30:
            return (gb_used-30)*7
        else:
            return 0
        
user_plan['extra_usd_gb'] = user_plan.apply(gb, axis=1)

def messages(row): #Función para calcular el cobro por envío de mensajes
    
    plan_name = row['plan_name']
    message_num = row['message_num']
    
    if plan_name == 'surf':
        if message_num > 50:
            return (message_num-50)*0.03
        else:
            return 0
    if plan_name == 'ultimate':
        if message_num > 1000:
            return (message_num-1000)*0.01
        else:
            return 0
        
user_plan['extra_usd_message'] = user_plan.apply(messages, axis=1)
user_plan['total_income'] = user_plan['usd_monthly_pay'] + user_plan['extra_usd_min'] + user_plan['extra_usd_gb'] + user_plan['extra_usd_message']
user_plan.head()

sns.barplot(x='month', y='minutes_incall', data=user_plan, hue='plan_name').set_title('Promedio mensual de minutos hablados por plan')
plt.ylabel('Minutos usados')
plt.xlabel('Mes')
plt.legend(title='Plan');

sns.histplot(x='minutes_incall', hue='plan_name', data=user_plan).set_title('Distribución de gasto mensual de minutos por plan')
plt.ylabel('Usuarios')
plt.xlabel('Minutos hablados')
plt.legend(title='Plan', labels=['Surf', 'Ultimate']);

print('Plan surf:')
print(user_plan[user_plan['plan_name'] == 'surf']['minutes_incall'].describe()) # Calcula la media y la varianza de la duración mensual de llamadas.
print()
print('Plan ultimate:')
print(user_plan[user_plan['plan_name'] == 'ultimate']['minutes_incall'].describe())

Plan surf:
count    1573.000000
mean      428.749523
std       234.453150
min         0.000000
25%       272.000000
50%       425.000000
75%       576.000000
max      1510.000000
Name: minutes_incall, dtype: float64

Plan ultimate:
count     720.000000
mean      430.450000
std       240.508762
min         0.000000
25%       260.000000
50%       424.000000
75%       565.250000
max      1369.000000
Name: minutes_incall, dtype: float64

sns.boxplot(y='minutes_incall', x='plan_name', data=user_plan).set_title('Distribución de gasto mensual de minutos por plan')
plt.ylabel('Minutos usados')
plt.xlabel('Plan');

sns.barplot(x='month', y='message_num', data=user_plan, hue='plan_name').set_title('Promedio mensual de mensajes enviados por plan')
plt.ylabel('Mensajes enviados')
plt.xlabel('Mes')
plt.legend(title='Plan');

sns.histplot(x='message_num', hue='plan_name', data=user_plan).set_title('Distribución mensual de envío de mensajes por plan')
plt.ylabel('Usuarios')
plt.xlabel('Mensajes enviados')
plt.legend(title='Plan', labels=['Surf', 'Ultimate']);

print('Plan surf:')
print(user_plan[user_plan['plan_name'] == 'surf']['message_num'].describe()) 
print()
print('Plan ultimate:')
print(user_plan[user_plan['plan_name'] == 'ultimate']['message_num'].describe())

Plan surf:
count    1573.000000
mean       31.159568
std        33.566717
min         0.000000
25%         3.000000
50%        24.000000
75%        47.000000
max       266.000000
Name: message_num, dtype: float64

Plan ultimate:
count    720.000000
mean      37.551389
std       34.767179
min        0.000000
25%        7.000000
50%       30.000000
75%       61.000000
max      166.000000
Name: message_num, dtype: float64

sns.boxplot(y='message_num', x='plan_name', data=user_plan).set_title('Distribución mensual de envío de mensajes por plan')
plt.ylabel('Mensajes enviados')
plt.xlabel('Plan');

sns.barplot(x='month', y='gb_used', data=user_plan, hue='plan_name').set_title('Promedio mensual de gigabytes usados por plan')
plt.ylabel('Consumo promedio de internet (GB)')
plt.xlabel('Mes')
plt.legend(title='Plan');

sns.histplot(x='gb_used', hue='plan_name', data=user_plan).set_title('Distribución mensual de uso de internet por plan')
plt.ylabel('Usuarios')
plt.xlabel('Consumo de internet (GB)')
plt.xlim(0, 50)
plt.legend(title='Plan', labels=['Surf', 'Ultimate']);

print('Plan surf:')
print(user_plan[user_plan['plan_name'] == 'surf']['gb_used'].describe()) 
print()
print('Plan ultimate:')
print(user_plan[user_plan['plan_name'] == 'ultimate']['gb_used'].describe())

Plan surf:
count    1573.000000
mean       16.670693
std         7.847522
min         0.000000
25%        12.000000
50%        17.000000
75%        21.000000
max        70.000000
Name: gb_used, dtype: float64

Plan ultimate:
count    720.000000
mean      17.306944
std        7.670108
min        0.000000
25%       13.000000
50%       17.000000
75%       21.000000
max       46.000000
Name: gb_used, dtype: float64

sns.boxplot(y='gb_used', x='plan_name', data=user_plan).set_title('Distribución mensual consumo de internet por plan')
plt.ylabel('Consumo de internet (GB)')
plt.xlabel('Plan');

sns.barplot(x='month', y='total_income', data=user_plan, hue='plan_name').set_title('Promedio mensual de ingreso obtenido por plan')
plt.ylabel('Ingreso promedio mensual (USD)')
plt.xlabel('Mes')
plt.legend(title='Plan');

sns.barplot(x='month', y='total_income', data=user_plan, hue='plan_name', estimator=sum, ci=None).set_title('Ingreso total registrado por plan')
plt.ylabel('Ingreso total (USD)')
plt.xlabel('Mes')
plt.legend(title='Plan');

sns.histplot(x='total_income', hue='plan_name', data=user_plan).set_title('Distribución mensual de ingresos por plan')
plt.ylabel('Usuarios')
plt.xlabel('Ingresos mensuales por cliente (USD)')
plt.xlim(0, 200)
plt.legend(title='Plan', labels=['Surf', 'Ultimate']);

print('Plan surf:')
print(user_plan[user_plan['plan_name'] == 'surf']['total_income'].describe()) 
print()
print('Plan ultimate:')
print(user_plan[user_plan['plan_name'] == 'ultimate']['total_income'].describe())

Plan surf:
count    1573.000000
mean       60.706408
std        55.388042
min        20.000000
25%        20.000000
50%        40.360000
75%        80.360000
max       590.370000
Name: total_income, dtype: float64

Plan ultimate:
count    720.000000
mean      72.313889
std       11.395108
min       70.000000
25%       70.000000
50%       70.000000
75%       70.000000
max      182.000000
Name: total_income, dtype: float64

sns.boxplot(y='total_income', x='plan_name', data=user_plan).set_title('Distribución mensual de ingresos por plan')
plt.ylabel('Ingreso promedio por cliente (USD)')
plt.xlabel('Plan');

print('Plan Surf')
print(user_plan[user_plan['plan_name'] == 'surf']['total_income'].describe())
print()
print('Plan Ultimate')
print(user_plan[user_plan['plan_name'] == 'ultimate']['total_income'].describe())
print()

alpha = 0.05
results = st.mannwhitneyu(user_plan[user_plan['plan_name'] == 'surf']['total_income'],
                       user_plan[user_plan['plan_name'] == 'ultimate']['total_income']) # Prueba las hipótesis
print('valor p:', results.pvalue)

if results.pvalue < alpha:
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

Plan Surf
count    1573.000000
mean       60.706408
std        55.388042
min        20.000000
25%        20.000000
50%        40.360000
75%        80.360000
max       590.370000
Name: total_income, dtype: float64

Plan Ultimate
count    720.000000
mean      72.313889
std       11.395108
min       70.000000
25%       70.000000
50%       70.000000
75%       70.000000
max      182.000000
Name: total_income, dtype: float64

valor p: 1.912179587173433e-48
Rechazamos la hipótesis nula

hipo = user_plan.merge(users, on='user_id') # Prueba las hipótesis
hipony = hipo[hipo['city'] == 'New York-Newark-Jersey City, NY-NJ-PA MSA']['total_income']
print('NY-NJ')
print(hipony.describe())
print()
hipo_rest = hipo[hipo['city'] != 'New York-Newark-Jersey City, NY-NJ-PA MSA']['total_income']
print('El resto de las regiones')
print(hipo_rest.describe())
print()
alpha = 0.05
results = st.mannwhitneyu(hipony,hipo_rest) # Prueba las hipótesis
print('valor p:', results.pvalue)
if results.pvalue < alpha:
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

NY-NJ
count    377.000000
mean      59.921353
std       43.537865
min       20.000000
25%       20.000000
50%       51.770000
75%       72.460000
max      280.000000
Name: total_income, dtype: float64

El resto de las regiones
count    1916.000000
mean       65.222771
std        47.170414
min        20.000000
25%        24.927500
50%        70.000000
75%        70.000000
max       590.370000
Name: total_income, dtype: float64

valor p: 0.003927631468615441
Rechazamos la hipótesis nula

	user_id	first_name	last_name	age	city	reg_date	plan	churn_date
0	1000	Anamaria	Bauer	45	Atlanta-Sandy Springs-Roswell, GA MSA	2018-12-24	ultimate	NaN
1	1001	Mickey	Wilkerson	28	Seattle-Tacoma-Bellevue, WA MSA	2018-08-13	surf	NaN
2	1002	Carlee	Hoffman	36	Las Vegas-Henderson-Paradise, NV MSA	2018-10-21	surf	NaN
3	1003	Reynaldo	Jenkins	52	Tulsa, OK MSA	2018-01-28	surf	NaN
4	1004	Leonila	Thompson	40	Seattle-Tacoma-Bellevue, WA MSA	2018-05-23	surf	NaN

	id	user_id	call_date	duration
0	1000_93	1000	2018-12-27	8.52
1	1000_145	1000	2018-12-27	13.66
2	1000_247	1000	2018-12-27	14.48
3	1000_309	1000	2018-12-28	5.76
4	1000_380	1000	2018-12-30	4.22

	id	user_id	message_date
0	1000_125	1000	2018-12-27
1	1000_160	1000	2018-12-31
2	1000_223	1000	2018-12-31
3	1000_251	1000	2018-12-27
4	1000_255	1000	2018-12-26

	id	user_id	session_date	mb_used
0	1000_13	1000	2018-12-29	89.86
1	1000_204	1000	2018-12-31	0.00
2	1000_379	1000	2018-12-28	660.40
3	1000_413	1000	2018-12-26	270.99
4	1000_442	1000	2018-12-27	880.22

Tabla de contenidos

Introducción¶

Descripción de las tarifas¶

Diccionario de datos¶

Inicialización¶

Cargar datos¶

Preparar los datos¶

Tarifas¶

Usuarios/as¶

Llamadas¶

Mensajes¶

Internet¶

Agregar datos por usuario¶

Cálculo de ingresos¶

Estudio del comportamiento de usuario¶

Análisis de llamadas¶

Análisis de mensajes¶

Análisis de consumo de internet¶

Análisis de ingresos mensuales por cliente¶

Prueba de hipótesis estadísticas¶

Hipótesis 1¶

Hipótesis 2¶

Conclusión general¶

Resumen de hallazgos clave¶

Elecciones pre-procesamiento¶

Relevancia de los hallazgos y recomendaciones¶

	messages_included	mb_per_month_included	minutes_included	usd_monthly_pay	usd_per_gb	usd_per_message	usd_per_minute	plan_name
0	50	15360	500	20	10	0.03	0.03	surf
1	1000	30720	3000	70	7	0.01	0.01	ultimate

	month	calls_num	minutes_incall	mb_used	message_num
user_id
1000	12	16.0	124.0	1901.47	11.0
1001	8	22.0	182.0	6919.15	30.0
1001	9	38.0	315.0	13314.82	44.0
1001	10	47.0	393.0	22330.49	53.0
1001	11	49.0	426.0	18504.30	36.0