# Librerías de Python
import abc
import contextlib
import os
import warnings
from typing import Iterator

# Librerías de terceros
import numpy as np
import pandas as pd
import plotly.express as px
from IPython.display import display
from plotly import graph_objects as go
from plotly.subplots import make_subplots
from sklearn.base import BaseEstimator, OutlierMixin, clone
from sklearn.compose import make_column_transformer
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest
from sklearn.exceptions import NotFittedError
from sklearn.manifold import TSNE
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, RobustScaler
from sklearn.svm import OneClassSVM
from sklearn.utils import resample

with warnings.catch_warnings():  # Advertencia de Numba
    warnings.filterwarnings("ignore")
    import ydata_profiling


pd.options.plotting.backend = "plotly"


data_directory = "data/input/"
fuente_1 = pd.read_parquet(f"{data_directory}df_1.parquet")
fuente_2 = pd.read_parquet(f"{data_directory}df_2.parquet")
fuente_email_phone = pd.read_parquet(f"{data_directory}df_email_phone.parquet")


def exploracion_superficial(datos: pd.DataFrame) -> None:
    """Imprime información básica de un conjunto de datos."""
    print(f"Número de filas: {datos.shape[0]}")
    print(f"Número de columnas: {datos.shape[1]}")
    print("Cabecera:")
    display(datos.head())
    print("Información:")
    print(datos.info())


datasets = {
    "Fuente 1": fuente_1,
    "Fuente 2": fuente_2,
    "Fuente Email Phone": fuente_email_phone,
}
for nombre, data in datasets.items():
    print(f"Dataset: {nombre}")
    exploracion_superficial(data)
del datasets

Dataset: Fuente 1
Número de filas: 389782
Número de columnas: 29
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 389782 entries, 104446 to 193209
Data columns (total 29 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   id                            389782 non-null  int64  
 1   fraud_bool                    389782 non-null  int64  
 2   income                        389782 non-null  float64
 3   prev_address_months_count     389782 non-null  int64  
 4   current_address_months_count  389782 non-null  int64  
 5   customer_age                  389782 non-null  int64  
 6   days_since_request            389782 non-null  float64
 7   intended_balcon_amount        389782 non-null  float64
 8   payment_type                  389782 non-null  object 
 9   zip_count_4w                  389782 non-null  int64  
 10  velocity_6h                   389782 non-null  float64
 11  velocity_24h                  389782 non-null  float64
 12  velocity_4w                   389782 non-null  float64
 13  bank_branch_count_8w          389782 non-null  int64  
 14  employment_status             389782 non-null  object 
 15  credit_risk_score             389782 non-null  int64  
 16  housing_status                389782 non-null  object 
 17  bank_months_count             389782 non-null  int64  
 18  has_other_cards               389782 non-null  int64  
 19  proposed_credit_limit         389782 non-null  float64
 20  foreign_request               389782 non-null  int64  
 21  source                        389782 non-null  object 
 22  session_length_in_minutes     389782 non-null  float64
 23  device_os                     389782 non-null  object 
 24  keep_alive_session            389782 non-null  int64  
 25  device_fraud_count            389782 non-null  int64  
 26  month                         389782 non-null  int64  
 27  x1                            389782 non-null  float64
 28  x2                            389782 non-null  float64
dtypes: float64(10), int64(14), object(5)
memory usage: 89.2+ MB
None
Dataset: Fuente 2
Número de filas: 747410
Número de columnas: 29
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 747410 entries, 699954 to 384611
Data columns (total 29 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   id                            747410 non-null  int64  
 1   fraud_bool                    747410 non-null  int64  
 2   income                        747410 non-null  float64
 3   prev_address_months_count     747410 non-null  int64  
 4   current_address_months_count  747410 non-null  int64  
 5   customer_age                  747410 non-null  int64  
 6   days_since_request            747410 non-null  float64
 7   intended_balcon_amount        747410 non-null  float64
 8   payment_type                  747410 non-null  object 
 9   zip_count_4w                  747410 non-null  int64  
 10  velocity_6h                   747410 non-null  float64
 11  velocity_24h                  747410 non-null  float64
 12  velocity_4w                   747410 non-null  float64
 13  bank_branch_count_8w          747410 non-null  int64  
 14  employment_status             747410 non-null  object 
 15  credit_risk_score             747410 non-null  int64  
 16  housing_status                747410 non-null  object 
 17  bank_months_count             747410 non-null  int64  
 18  has_other_cards               747410 non-null  int64  
 19  proposed_credit_limit         747410 non-null  float64
 20  foreign_request               747410 non-null  int64  
 21  source                        747410 non-null  object 
 22  session_length_in_minutes     747410 non-null  float64
 23  device_os                     747410 non-null  object 
 24  keep_alive_session            747410 non-null  int64  
 25  device_fraud_count            747410 non-null  int64  
 26  month                         747410 non-null  int64  
 27  x1                            747410 non-null  float64
 28  x2                            747410 non-null  float64
dtypes: float64(10), int64(14), object(5)
memory usage: 171.1+ MB
None
Dataset: Fuente Email Phone
Número de filas: 934730
Número de columnas: 7
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 934730 entries, 987231 to 986114
Data columns (total 7 columns):
 #   Column                            Non-Null Count   Dtype  
---  ------                            --------------   -----  
 0   id                                934730 non-null  int64  
 1   name_email_similarity             934730 non-null  float64
 2   date_of_birth_distinct_emails_4w  934730 non-null  int64  
 3   email_is_free                     934730 non-null  int64  
 4   device_distinct_emails_8w         934730 non-null  int64  
 5   phone_home_valid                  934730 non-null  int64  
 6   phone_mobile_valid                934730 non-null  int64  
dtypes: float64(1), int64(6)
memory usage: 57.1 MB
None


datos_unidos = pd.concat([fuente_1, fuente_2])
exploracion_superficial(datos_unidos)
del fuente_1, fuente_2

Número de filas: 1137192
Número de columnas: 29
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1137192 entries, 104446 to 384611
Data columns (total 29 columns):
 #   Column                        Non-Null Count    Dtype  
---  ------                        --------------    -----  
 0   id                            1137192 non-null  int64  
 1   fraud_bool                    1137192 non-null  int64  
 2   income                        1137192 non-null  float64
 3   prev_address_months_count     1137192 non-null  int64  
 4   current_address_months_count  1137192 non-null  int64  
 5   customer_age                  1137192 non-null  int64  
 6   days_since_request            1137192 non-null  float64
 7   intended_balcon_amount        1137192 non-null  float64
 8   payment_type                  1137192 non-null  object 
 9   zip_count_4w                  1137192 non-null  int64  
 10  velocity_6h                   1137192 non-null  float64
 11  velocity_24h                  1137192 non-null  float64
 12  velocity_4w                   1137192 non-null  float64
 13  bank_branch_count_8w          1137192 non-null  int64  
 14  employment_status             1137192 non-null  object 
 15  credit_risk_score             1137192 non-null  int64  
 16  housing_status                1137192 non-null  object 
 17  bank_months_count             1137192 non-null  int64  
 18  has_other_cards               1137192 non-null  int64  
 19  proposed_credit_limit         1137192 non-null  float64
 20  foreign_request               1137192 non-null  int64  
 21  source                        1137192 non-null  object 
 22  session_length_in_minutes     1137192 non-null  float64
 23  device_os                     1137192 non-null  object 
 24  keep_alive_session            1137192 non-null  int64  
 25  device_fraud_count            1137192 non-null  int64  
 26  month                         1137192 non-null  int64  
 27  x1                            1137192 non-null  float64
 28  x2                            1137192 non-null  float64
dtypes: float64(10), int64(14), object(5)
memory usage: 260.3+ MB
None


df_sin_limpieza = pd.merge(datos_unidos, fuente_email_phone, how="outer")
exploracion_superficial(df_sin_limpieza)

Número de filas: 1198151
Número de columnas: 35
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1198151 entries, 0 to 1198150
Data columns (total 35 columns):
 #   Column                            Non-Null Count    Dtype  
---  ------                            --------------    -----  
 0   id                                1198151 non-null  int64  
 1   fraud_bool                        1137192 non-null  float64
 2   income                            1137192 non-null  float64
 3   prev_address_months_count         1137192 non-null  float64
 4   current_address_months_count      1137192 non-null  float64
 5   customer_age                      1137192 non-null  float64
 6   days_since_request                1137192 non-null  float64
 7   intended_balcon_amount            1137192 non-null  float64
 8   payment_type                      1137192 non-null  object 
 9   zip_count_4w                      1137192 non-null  float64
 10  velocity_6h                       1137192 non-null  float64
 11  velocity_24h                      1137192 non-null  float64
 12  velocity_4w                       1137192 non-null  float64
 13  bank_branch_count_8w              1137192 non-null  float64
 14  employment_status                 1137192 non-null  object 
 15  credit_risk_score                 1137192 non-null  float64
 16  housing_status                    1137192 non-null  object 
 17  bank_months_count                 1137192 non-null  float64
 18  has_other_cards                   1137192 non-null  float64
 19  proposed_credit_limit             1137192 non-null  float64
 20  foreign_request                   1137192 non-null  float64
 21  source                            1137192 non-null  object 
 22  session_length_in_minutes         1137192 non-null  float64
 23  device_os                         1137192 non-null  object 
 24  keep_alive_session                1137192 non-null  float64
 25  device_fraud_count                1137192 non-null  float64
 26  month                             1137192 non-null  float64
 27  x1                                1137192 non-null  float64
 28  x2                                1137192 non-null  float64
 29  name_email_similarity             1118424 non-null  float64
 30  date_of_birth_distinct_emails_4w  1118424 non-null  float64
 31  email_is_free                     1118424 non-null  float64
 32  device_distinct_emails_8w         1118424 non-null  float64
 33  phone_home_valid                  1118424 non-null  float64
 34  phone_mobile_valid                1118424 non-null  float64
dtypes: float64(29), int64(1), object(5)
memory usage: 329.1+ MB
None


df_sin_limpieza.isnull().sum().sort_values()

id                                      0
x2                                  60959
x1                                  60959
month                               60959
device_fraud_count                  60959
keep_alive_session                  60959
device_os                           60959
session_length_in_minutes           60959
source                              60959
foreign_request                     60959
proposed_credit_limit               60959
has_other_cards                     60959
housing_status                      60959
credit_risk_score                   60959
bank_months_count                   60959
bank_branch_count_8w                60959
fraud_bool                          60959
income                              60959
prev_address_months_count           60959
current_address_months_count        60959
employment_status                   60959
days_since_request                  60959
customer_age                        60959
payment_type                        60959
zip_count_4w                        60959
velocity_6h                         60959
velocity_24h                        60959
velocity_4w                         60959
intended_balcon_amount              60959
phone_home_valid                    79727
name_email_similarity               79727
date_of_birth_distinct_emails_4w    79727
email_is_free                       79727
device_distinct_emails_8w           79727
phone_mobile_valid                  79727
dtype: int64


pd.DataFrame(
    {
        tipo: pd.merge(datos_unidos, fuente_email_phone, how=tipo).isnull().sum()
        for tipo in ("inner", "left", "right", "outer")
    }
)


df_sin_limpieza.duplicated().sum()

202334


df_prelimpio = df_sin_limpieza.drop_duplicates()
df_prelimpio["id"].duplicated().sum()

0


df_limpio = (
    pd.merge(datos_unidos, fuente_email_phone, how="left")  # Elimina nulos df_1, df_2
    .drop(columns=["device_fraud_count"])  # Elimina columna constante
    .fillna(-1)  # Imputa con -1
    .drop_duplicates()  # Elimina filas duplicadas
)
exploracion_superficial(df_limpio)

Número de filas: 934858
Número de columnas: 34
Cabecera:

Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 934858 entries, 0 to 1137191
Data columns (total 34 columns):
 #   Column                            Non-Null Count   Dtype  
---  ------                            --------------   -----  
 0   id                                934858 non-null  int64  
 1   fraud_bool                        934858 non-null  int64  
 2   income                            934858 non-null  float64
 3   prev_address_months_count         934858 non-null  int64  
 4   current_address_months_count      934858 non-null  int64  
 5   customer_age                      934858 non-null  int64  
 6   days_since_request                934858 non-null  float64
 7   intended_balcon_amount            934858 non-null  float64
 8   payment_type                      934858 non-null  object 
 9   zip_count_4w                      934858 non-null  int64  
 10  velocity_6h                       934858 non-null  float64
 11  velocity_24h                      934858 non-null  float64
 12  velocity_4w                       934858 non-null  float64
 13  bank_branch_count_8w              934858 non-null  int64  
 14  employment_status                 934858 non-null  object 
 15  credit_risk_score                 934858 non-null  int64  
 16  housing_status                    934858 non-null  object 
 17  bank_months_count                 934858 non-null  int64  
 18  has_other_cards                   934858 non-null  int64  
 19  proposed_credit_limit             934858 non-null  float64
 20  foreign_request                   934858 non-null  int64  
 21  source                            934858 non-null  object 
 22  session_length_in_minutes         934858 non-null  float64
 23  device_os                         934858 non-null  object 
 24  keep_alive_session                934858 non-null  int64  
 25  month                             934858 non-null  int64  
 26  x1                                934858 non-null  float64
 27  x2                                934858 non-null  float64
 28  name_email_similarity             934858 non-null  float64
 29  date_of_birth_distinct_emails_4w  934858 non-null  float64
 30  email_is_free                     934858 non-null  float64
 31  device_distinct_emails_8w         934858 non-null  float64
 32  phone_home_valid                  934858 non-null  float64
 33  phone_mobile_valid                934858 non-null  float64
dtypes: float64(16), int64(13), object(5)
memory usage: 249.6+ MB
None


print(f"Columnas eliminadas: {df_sin_limpieza.shape[1] - df_limpio.shape[1]}")
print(f"Filas eliminadas: {df_sin_limpieza.shape[0] - df_limpio.shape[0]}")

Columnas eliminadas: 1
Filas eliminadas: 263293


df = df_limpio.copy()
df["segmentacion_etaria"] = pd.cut(
    df["customer_age"],
    bins=[-np.inf, 18, 26, 59, np.inf],
    labels=["Joven", "Adulto-Joven", "Adulto", "Persona Mayor"],
    right=False,
)
if not os.path.exists("data/interim/df.csv"):
    df.to_csv("data/interim/df.csv", index=False)


del df_limpio
del df_prelimpio
del datos_unidos
del fuente_email_phone
del df_sin_limpieza


@contextlib.contextmanager
def switch_to_backend(backend: str) -> Iterator[None]:
    """Cambia el backend de pandas a uno de los disponibles.
    Esto es necesario para que pandas-profiling pueda generar los gráficos.
    Ver: https://github.com/ydataai/ydata-profiling/issues/1071
    Al finalizar, vuelve al backend original.

    """
    old_backend = pd.options.plotting.backend
    pd.options.plotting.backend = backend
    yield
    pd.options.plotting.backend = old_backend


profile = ydata_profiling.ProfileReport(df, title="EDA")
filename = "output/reports/eda.html"
if not os.path.exists(filename):
    with switch_to_backend("matplotlib"):
        profile.to_file(filename)


### 3.1.2. Análisis Bivariado


corr = df.corr(numeric_only=True)
imcorr = px.imshow(corr, labels=dict(x="Variable", y="Variable", color="Correlación"))
imcorr.write_image("output/figures/corr.png")
imcorr.show()


corr_fraud = corr["fraud_bool"].sort_values(key=np.abs, ascending=False)
corr_fraud

fraud_bool                          1.000000
x2                                  0.119184
x1                                  0.118848
credit_risk_score                   0.068053
proposed_credit_limit               0.068014
keep_alive_session                 -0.048956
income                              0.041074
has_other_cards                    -0.037976
phone_home_valid                   -0.034738
intended_balcon_amount             -0.023751
current_address_months_count        0.023259
prev_address_months_count          -0.021881
email_is_free                       0.021614
customer_age                        0.018744
name_email_similarity              -0.017923
foreign_request                     0.016953
date_of_birth_distinct_emails_4w   -0.016801
bank_branch_count_8w               -0.013838
velocity_6h                        -0.013802
device_distinct_emails_8w           0.010829
zip_count_4w                        0.009522
session_length_in_minutes           0.006522
bank_months_count                  -0.006230
velocity_24h                       -0.004793
phone_mobile_valid                 -0.003900
days_since_request                  0.003182
month                               0.002910
velocity_4w                        -0.002587
id                                 -0.001376
Name: fraud_bool, dtype: float64


def muestreo(dataframe: pd.DataFrame, frac: float = 0.1) -> pd.DataFrame:
    """Obtiene un muestreo estratificado por la variable `fraud_bool`.

    Args:
        dataframe (pd.DataFrame): Dataframe a muestrear.
         Debe tener la columna `fraud_bool`.
        frac (float, optional): Fracción de datos a muestrear. Por defecto es 0.1.

    Returns:
        pd.DataFrame: Muestra estratificada.
    """
    return (
        dataframe.groupby("fraud_bool")
        .apply(lambda x: x.sample(frac=frac, random_state=0))
        .reset_index(drop=True)
    )


muestra = muestreo(df[["x1", "x2", "fraud_bool"]].copy())


fig = px.histogram(muestra, x="x1", color="fraud_bool", marginal="box")
fig.update_layout(barmode="overlay", title="Distribución de x1 agrupada por fraude")
fig.write_image("output/figures/x1.png")
fig.show()


fig = px.histogram(muestra, x="x2", color="fraud_bool", marginal="box")
fig.update_layout(barmode="overlay", title="Distribución de x2 agrupada por fraude")
fig.write_image("output/figures/x2.png")
fig.show()


fig = px.scatter(
    muestra, x="x1", y="x2", color="fraud_bool", marginal_x="box", marginal_y="box"
)
fig.update_layout(title="Distribución de x1 y x2 agrupada por fraude")
fig.write_image("output/figures/x1x2_by_fraud.png")
fig.show()


nominals = [
    "payment_type",
    "employment_status",
    "housing_status",
    "source",
    "device_os",
]
ordinals = ["segmentacion_etaria"]
excluded = ["id", "fraud_bool"]
numericals = list(set(df.columns).difference(nominals + ordinals + excluded))
categorical_transformer = make_column_transformer(
    (
        OneHotEncoder(
            sparse_output=False,
            drop="first",
            handle_unknown="infrequent_if_exist",
        ),
        nominals,
    ),
    (
        OrdinalEncoder(
            handle_unknown="use_encoded_value",
            unknown_value=-1,
        ),
        ordinals,
    ),
    remainder="passthrough",
)
transformer = make_column_transformer(
    (RobustScaler(), numericals),
    (
        make_pipeline(
            categorical_transformer,
            RobustScaler(),
        ),
        nominals + ordinals,
    ),
    remainder="passthrough",
)
transformer.set_output(transform="pandas")

ColumnTransformer(remainder='passthrough',
                  transformers=[('robustscaler', RobustScaler(),
                                 ['days_since_request', 'x2',
                                  'phone_home_valid', 'phone_mobile_valid',
                                  'current_address_months_count', 'velocity_6h',
                                  'credit_risk_score', 'foreign_request',
                                  'customer_age', 'name_email_similarity',
                                  'session_length_in_minutes', 'velocity_4w',
                                  'bank_branch_count_8w', 'has_othe...
                                                                                                 handle_unknown='infrequent_if_exist',
                                                                                                 sparse_output=False),
                                                                                   ['payment_type',
                                                                                    'employment_status',
                                                                                    'housing_status',
                                                                                    'source',
                                                                                    'device_os']),
                                                                                  ('ordinalencoder',
                                                                                   OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                  unknown_value=-1),
                                                                                   ['segmentacion_etaria'])])),
                                                 ('robustscaler',
                                                  RobustScaler())]),
                                 ['payment_type', 'employment_status',
                                  'housing_status', 'source', 'device_os',
                                  'segmentacion_etaria'])])

ColumnTransformer(remainder='passthrough',
                  transformers=[('robustscaler', RobustScaler(),
                                 ['days_since_request', 'x2',
                                  'phone_home_valid', 'phone_mobile_valid',
                                  'current_address_months_count', 'velocity_6h',
                                  'credit_risk_score', 'foreign_request',
                                  'customer_age', 'name_email_similarity',
                                  'session_length_in_minutes', 'velocity_4w',
                                  'bank_branch_count_8w', 'has_othe...
                                                                                                 handle_unknown='infrequent_if_exist',
                                                                                                 sparse_output=False),
                                                                                   ['payment_type',
                                                                                    'employment_status',
                                                                                    'housing_status',
                                                                                    'source',
                                                                                    'device_os']),
                                                                                  ('ordinalencoder',
                                                                                   OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                  unknown_value=-1),
                                                                                   ['segmentacion_etaria'])])),
                                                 ('robustscaler',
                                                  RobustScaler())]),
                                 ['payment_type', 'employment_status',
                                  'housing_status', 'source', 'device_os',
                                  'segmentacion_etaria'])])

['days_since_request', 'x2', 'phone_home_valid', 'phone_mobile_valid', 'current_address_months_count', 'velocity_6h', 'credit_risk_score', 'foreign_request', 'customer_age', 'name_email_similarity', 'session_length_in_minutes', 'velocity_4w', 'bank_branch_count_8w', 'has_other_cards', 'x1', 'bank_months_count', 'prev_address_months_count', 'intended_balcon_amount', 'device_distinct_emails_8w', 'keep_alive_session', 'proposed_credit_limit', 'date_of_birth_distinct_emails_4w', 'month', 'income', 'zip_count_4w', 'velocity_24h', 'email_is_free']

RobustScaler()

['payment_type', 'employment_status', 'housing_status', 'source', 'device_os', 'segmentacion_etaria']

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='infrequent_if_exist',
                                               sparse_output=False),
                                 ['payment_type', 'employment_status',
                                  'housing_status', 'source', 'device_os']),
                                ('ordinalencoder',
                                 OrdinalEncoder(handle_unknown='use_encoded_value',
                                                unknown_value=-1),
                                 ['segmentacion_etaria'])])

['payment_type', 'employment_status', 'housing_status', 'source', 'device_os']

OneHotEncoder(drop='first', handle_unknown='infrequent_if_exist',
              sparse_output=False)

['segmentacion_etaria']

OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)


muestra = resample(
    df,
    replace=False,
    n_samples=10_000,
    random_state=0,
    stratify=df[["fraud_bool", "segmentacion_etaria"]],
)


muestra.groupby("segmentacion_etaria").agg(
    {"fraud_bool": ["mean", "count"]}
).reset_index()


proyector = make_pipeline(
    transformer,
    PCA(
        n_components="mle",
        random_state=0,
        whiten=True,
    ),
    TSNE(
        random_state=0,
        perplexity=50.0,
        n_jobs=-2,
    ),
)
muestra_con_proyeccion = muestra.copy()
muestra_con_proyeccion[["x", "y"]] = proyector.fit_transform(
    muestra.drop(columns=excluded)
)


def plot_fraudes_por_segmentacion_etaria(agrupado, columna="fraud_bool"):
    fig = make_subplots(
        rows=2,
        cols=2,
        subplot_titles=list(agrupado.groups.keys()),
        shared_xaxes=True,
        shared_yaxes=True,
        vertical_spacing=0.05,
        horizontal_spacing=0.05,
    )
    for i, (segmento, grupo) in enumerate(agrupado):
        row, col = divmod(i, 2)
        fig.add_trace(
            go.Scatter(
                x=grupo["x"],
                y=grupo["y"],
                mode="markers",
                marker=dict(
                    color=grupo[columna],
                    colorscale="RdYlGn",
                ),
                name=segmento,
            ),
            row=row + 1,
            col=col + 1,
        )
    fig.update_layout(
        title=f"Proyección de los datos en 2D {columna}",
        template="plotly",
    )
    fig.write_image(f"output/figures/proyeccion_{columna}.png")
    fig.show()


agrupado = muestra_con_proyeccion.groupby("segmentacion_etaria")
plot_fraudes_por_segmentacion_etaria(agrupado)


class BaseOutlierEstimator(OutlierMixin, BaseEstimator, abc.ABC):
    """Base para estimadores de detección de anomalías."""

    @abc.abstractmethod
    def fit(self, X, y=None):
        """Entrena el modelo para encontrar anomalías.

        Parameters
        ----------
        X : array-like of shape (n_samples, n_features)
            Datos de entrenamiento.

        y: array-like of shape (n_samples,), default=None
            Solamente se incluye para respetar la interfaz de scikit-learn.

        Returns
        -------
        self : object
            Instancia del modelo.
        """
        return self

    @abc.abstractmethod
    def predict(self, X):
        """Predice si cada punto es una anomalía o no.

        Parameters
        ----------
        X : array-like of shape (n_samples, n_features)
            Datos de entrenamiento.

        Returns
        -------
        y : ndarray of shape (n_samples,)
            Etiquetas de cada punto. 1 si es una anomalía, 0 si no lo es.
        """


class AnomaliaPorRangoEtario(BaseOutlierEstimator):
    """Detector de anomalías por rango etario.
    Entrena un modelo por cada rango etario, y predice si un cliente es un fraude
    o no según el modelo correspondiente a su rango etario.

    Parameters
    ----------
    modelo_base : BaseOutlierEstimator
        Modelo base para detectar anomalías. Debe implementar `fit` y `predict`,
        como lo hacen OneClassSVM y IsolationForest, pero a diferencia de
        LocalOutlierFactor.

    Attributes
    ----------
    modelos_: dict[str, BaseOutlierEstimator]
        Modelos entrenados por rango etario.
    """

    def __init__(self, *, modelo_base: BaseOutlierEstimator):
        self.modelo_base = modelo_base
        self.modelos_ = None

    def fit(self, X, y=None):
        X_agrupado = X.groupby("segmentacion_etaria")
        self.modelos_ = {
            segmento: clone(self.modelo_base).fit(grupo)  # type: ignore
            for segmento, grupo in X_agrupado
        }
        return self

    def predict(self, X):
        if self.modelos_ is None:
            raise NotFittedError(
                f"El modelo {self} no ha sido entrenado. Debe llamar a `fit` antes."
            )
        y = pd.Series(np.empty(len(X), dtype=np.int64), index=X.index)
        X_agrupado = X.groupby("segmentacion_etaria")
        for modelo, (_, grupo) in zip(self.modelos_.values(), X_agrupado):
            # Pasando a la codificación (-1, 1) de IsolationForest y OneClassSVM
            # a la codificación (0, 1) de nuestro dataset
            y[grupo.index] = (modelo.predict(grupo) < 0).astype(np.int64)
        return y

    def get_pr_ratios(self, X, y):
        """
        Obtiene los ratios P y R

        Parameters
        ----------
        X: array-like of shape (n_samples, n_features)
            Datos a predecir.
        y: array-like of shape (n_samples,)
            Etiquetas reales.

        Returns
        -------
        p: float
            Cantidad de ejemplos predichos correctamente como fraude
            / cantidad total de datos predichos como fraude.
        r: float
            Cantidad de ejemplos predichos correctamente como fraude
            / cantidad total de ejemplos que eran realmente fraude.
        """
        y_pred = self.predict(X)

        tp = np.sum(y_pred & y)  # ejemplos predichos correctamente como fraude
        tot_fraud = np.sum(y)  # cantidad total de ejemplos que eran realmente fraude
        pred_fraud = np.sum(y_pred)  # cantidad total de datos predichos como fraude

        with warnings.catch_warnings():
            warnings.filterwarnings("ignore")
            p = tp / pred_fraud
            r = tp / tot_fraud
        return p, r


forest_base = make_pipeline(
    transformer,
    IsolationForest(random_state=0, n_jobs=-2)
)
svm_base = make_pipeline(
    transformer,
    OneClassSVM(kernel="sigmoid")
)
modelo_forest = AnomaliaPorRangoEtario(modelo_base=forest_base)
modelo_svm = AnomaliaPorRangoEtario(modelo_base=svm_base)
X = muestra.drop(columns=["fraud_bool"])
modelo_forest.fit(X)
modelo_svm.fit(X)

AnomaliaPorRangoEtario(modelo_base=Pipeline(steps=[('columntransformer',
                                                    ColumnTransformer(remainder='passthrough',
                                                                      transformers=[('robustscaler',
                                                                                     RobustScaler(),
                                                                                     ['days_since_request',
                                                                                      'x2',
                                                                                      'phone_home_valid',
                                                                                      'phone_mobile_valid',
                                                                                      'current_address_months_count',
                                                                                      'velocity_6h',
                                                                                      'credit_risk_score',
                                                                                      'foreign_request',
                                                                                      'customer_age',
                                                                                      'name_email_similarity',
                                                                                      's...
                                                                                                                                        'employment_status',
                                                                                                                                        'housing_status',
                                                                                                                                        'source',
                                                                                                                                        'device_os']),
                                                                                                                                      ('ordinalencoder',
                                                                                                                                       OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                                                                      unknown_value=-1),
                                                                                                                                       ['segmentacion_etaria'])])),
                                                                                                     ('robustscaler',
                                                                                                      RobustScaler())]),
                                                                                     ['payment_type',
                                                                                      'employment_status',
                                                                                      'housing_status',
                                                                                      'source',
                                                                                      'device_os',
                                                                                      'segmentacion_etaria'])])),
                                                   ('oneclasssvm',
                                                    OneClassSVM(kernel='sigmoid'))]))

AnomaliaPorRangoEtario(modelo_base=Pipeline(steps=[('columntransformer',
                                                    ColumnTransformer(remainder='passthrough',
                                                                      transformers=[('robustscaler',
                                                                                     RobustScaler(),
                                                                                     ['days_since_request',
                                                                                      'x2',
                                                                                      'phone_home_valid',
                                                                                      'phone_mobile_valid',
                                                                                      'current_address_months_count',
                                                                                      'velocity_6h',
                                                                                      'credit_risk_score',
                                                                                      'foreign_request',
                                                                                      'customer_age',
                                                                                      'name_email_similarity',
                                                                                      's...
                                                                                                                                        'employment_status',
                                                                                                                                        'housing_status',
                                                                                                                                        'source',
                                                                                                                                        'device_os']),
                                                                                                                                      ('ordinalencoder',
                                                                                                                                       OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                                                                      unknown_value=-1),
                                                                                                                                       ['segmentacion_etaria'])])),
                                                                                                     ('robustscaler',
                                                                                                      RobustScaler())]),
                                                                                     ['payment_type',
                                                                                      'employment_status',
                                                                                      'housing_status',
                                                                                      'source',
                                                                                      'device_os',
                                                                                      'segmentacion_etaria'])])),
                                                   ('oneclasssvm',
                                                    OneClassSVM(kernel='sigmoid'))]))

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('robustscaler',
                                                  RobustScaler(),
                                                  ['days_since_request', 'x2',
                                                   'phone_home_valid',
                                                   'phone_mobile_valid',
                                                   'current_address_months_count',
                                                   'velocity_6h',
                                                   'credit_risk_score',
                                                   'foreign_request',
                                                   'customer_age',
                                                   'name_email_similarity',
                                                   'session_length_in_minutes',
                                                   'velocity...
                                                                                                     'employment_status',
                                                                                                     'housing_status',
                                                                                                     'source',
                                                                                                     'device_os']),
                                                                                                   ('ordinalencoder',
                                                                                                    OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                                   unknown_value=-1),
                                                                                                    ['segmentacion_etaria'])])),
                                                                  ('robustscaler',
                                                                   RobustScaler())]),
                                                  ['payment_type',
                                                   'employment_status',
                                                   'housing_status', 'source',
                                                   'device_os',
                                                   'segmentacion_etaria'])])),
                ('oneclasssvm', OneClassSVM(kernel='sigmoid'))])

ColumnTransformer(remainder='passthrough',
                  transformers=[('robustscaler', RobustScaler(),
                                 ['days_since_request', 'x2',
                                  'phone_home_valid', 'phone_mobile_valid',
                                  'current_address_months_count', 'velocity_6h',
                                  'credit_risk_score', 'foreign_request',
                                  'customer_age', 'name_email_similarity',
                                  'session_length_in_minutes', 'velocity_4w',
                                  'bank_branch_count_8w', 'has_othe...
                                                                                                 handle_unknown='infrequent_if_exist',
                                                                                                 sparse_output=False),
                                                                                   ['payment_type',
                                                                                    'employment_status',
                                                                                    'housing_status',
                                                                                    'source',
                                                                                    'device_os']),
                                                                                  ('ordinalencoder',
                                                                                   OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                                                  unknown_value=-1),
                                                                                   ['segmentacion_etaria'])])),
                                                 ('robustscaler',
                                                  RobustScaler())]),
                                 ['payment_type', 'employment_status',
                                  'housing_status', 'source', 'device_os',
                                  'segmentacion_etaria'])])

['days_since_request', 'x2', 'phone_home_valid', 'phone_mobile_valid', 'current_address_months_count', 'velocity_6h', 'credit_risk_score', 'foreign_request', 'customer_age', 'name_email_similarity', 'session_length_in_minutes', 'velocity_4w', 'bank_branch_count_8w', 'has_other_cards', 'x1', 'bank_months_count', 'prev_address_months_count', 'intended_balcon_amount', 'device_distinct_emails_8w', 'keep_alive_session', 'proposed_credit_limit', 'date_of_birth_distinct_emails_4w', 'month', 'income', 'zip_count_4w', 'velocity_24h', 'email_is_free']

RobustScaler()

['payment_type', 'employment_status', 'housing_status', 'source', 'device_os', 'segmentacion_etaria']

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehotencoder',
                                 OneHotEncoder(drop='first',
                                               handle_unknown='infrequent_if_exist',
                                               sparse_output=False),
                                 ['payment_type', 'employment_status',
                                  'housing_status', 'source', 'device_os']),
                                ('ordinalencoder',
                                 OrdinalEncoder(handle_unknown='use_encoded_value',
                                                unknown_value=-1),
                                 ['segmentacion_etaria'])])

['payment_type', 'employment_status', 'housing_status', 'source', 'device_os']

OneHotEncoder(drop='first', handle_unknown='infrequent_if_exist',
              sparse_output=False)


muestra_con_proyeccion["fraud_pred_forest"] = modelo_forest.predict(X).values
muestra_con_proyeccion["fraud_pred_svm"] = modelo_svm.predict(X).values
muestra_con_proyeccion.head()


agrupado = muestra_con_proyeccion.groupby("segmentacion_etaria")
plot_fraudes_por_segmentacion_etaria(agrupado, "fraud_pred_forest")
plot_fraudes_por_segmentacion_etaria(agrupado, "fraud_pred_svm")


muestra_con_proyeccion[
    ["fraud_bool", "fraud_pred_forest", "fraud_pred_svm"]
].mean()

fraud_bool           0.011
fraud_pred_forest    0.095
fraud_pred_svm       0.500
dtype: float64


class DummyOutlierDetector(BaseOutlierEstimator):
    """Base para estimadores de detección de anomalías."""

    def __init__(self, *, random_state=None, fraud_ratio=0.1):
        self.random_state = 0
        self.fraud_ratio = fraud_ratio
        self._rng = np.random.default_rng()

    def fit(self, X, y=None):
        return super().fit(X, y)

    def predict(self, X):
        if self.fraud_ratio is None:
            raise NotFittedError(
                f"El modelo {self} no ha sido entrenado. Debe llamar a `fit` antes."
            )
        y = self._rng.random(len(X)) <= self.fraud_ratio
        return pd.Series(y, index=X.index)

modelo_dummy = AnomaliaPorRangoEtario(
    modelo_base=DummyOutlierDetector(random_state=0)
)
modelo_dummy.fit(X)

AnomaliaPorRangoEtario(modelo_base=DummyOutlierDetector(random_state=0))

AnomaliaPorRangoEtario(modelo_base=DummyOutlierDetector(random_state=0))

DummyOutlierDetector(random_state=0)

DummyOutlierDetector(random_state=0)


modelos = {
    "DummyOutlierDetector": modelo_dummy,
    "IsolationForest": modelo_forest,
    "OneClassSVM": modelo_svm,
}
y = muestra_con_proyeccion["fraud_bool"]
for base, modelo in modelos.items():
    print(f"Modelo: {base}")
    print(10*"-")
    p, r = modelo.get_pr_ratios(X, y)
    print(f"Ratio P: {p}")
    print(f"Ratio R: {r}")
    print()

Modelo: DummyOutlierDetector
----------
Ratio P: nan
Ratio R: 0.0

Modelo: IsolationForest
----------
Ratio P: 0.009473684210526316
Ratio R: 0.08181818181818182

Modelo: OneClassSVM
----------
Ratio P: 0.0118
Ratio R: 0.5363636363636364

	id	income	prev_address_months_count	current_address_months_count	customer_age	days_since_request	intended_balcon_amount	payment_type	zip_count_4w	...	proposed_credit_limit	source	session_length_in_minutes	device_os	keep_alive_session	month	x1	x2
104446	729517	0.7	-1	305	60	0.030059	-1.599455	AC	990	...	500.0	INTERNET	8.865992	windows	0	2	-0.245425	0.568811
269483	149585	0.8	-1	140	50	0.015659	3.951994	AA	1269	...	200.0	INTERNET	4.654872	linux	1	7	0.009336	-2.096682
4102	64486	0.9	-1	171	50	0.001409	28.159779	AB	4430	...	1500.0	INTERNET	3.720953	linux	1	1	2.229616	-0.005823
351767	825283	0.5	-1	85	30	0.027292	-1.310498	AB	1698	...	200.0	INTERNET	2.912670	windows	1	3	-0.193945	0.861207
126377	8308	0.9	-1	39	30	0.010945	-1.450972	AC	569	...	200.0	INTERNET	2.283680	other	1	3	-2.440650	0.354986

	id	income	prev_address_months_count	current_address_months_count	customer_age	days_since_request	intended_balcon_amount	payment_type	zip_count_4w	...	proposed_credit_limit	foreign_request	source	session_length_in_minutes	device_os	keep_alive_session	month	x1	x2
699954	303612	0.8	-1	21	40	0.010837	-0.853976	AD	239	...	200.0	0	INTERNET	48.127390	other	0	3	0.236931	0.077061
701206	568066	0.9	-1	70	50	0.711485	25.137456	AA	1873	...	200.0	0	INTERNET	8.792273	windows	1	3	0.571536	1.151563
270304	893344	0.7	-1	133	50	0.006856	-0.815330	AC	675	...	1000.0	0	INTERNET	15.916225	other	1	7	0.224252	-0.590459
346538	247688	0.8	-1	207	50	0.026194	-0.736615	AB	999	...	200.0	0	INTERNET	0.509942	linux	1	6	0.648528	-0.315911
147297	674478	0.8	-1	24	50	0.012646	10.744253	AA	3198	...	500.0	1	INTERNET	10.562945	other	0	6	0.041475	0.383332

	id	name_email_similarity	date_of_birth_distinct_emails_4w	device_distinct_emails_8w	phone_home_valid	phone_mobile_valid
987231	624588	0.555653	15	1	0	1
79954	620810	0.849718	2	1	0	0
567130	580633	0.110898	3	1	1	0
500891	6379	0.671250	15	1	0	1
55399	366511	0.772932	7	1	0	1

	id	income	prev_address_months_count	current_address_months_count	customer_age	days_since_request	intended_balcon_amount	payment_type	zip_count_4w	...	proposed_credit_limit	source	session_length_in_minutes	device_os	keep_alive_session	month	x1	x2
104446	729517	0.7	-1	305	60	0.030059	-1.599455	AC	990	...	500.0	INTERNET	8.865992	windows	0	2	-0.245425	0.568811
269483	149585	0.8	-1	140	50	0.015659	3.951994	AA	1269	...	200.0	INTERNET	4.654872	linux	1	7	0.009336	-2.096682
4102	64486	0.9	-1	171	50	0.001409	28.159779	AB	4430	...	1500.0	INTERNET	3.720953	linux	1	1	2.229616	-0.005823
351767	825283	0.5	-1	85	30	0.027292	-1.310498	AB	1698	...	200.0	INTERNET	2.912670	windows	1	3	-0.193945	0.861207
126377	8308	0.9	-1	39	30	0.010945	-1.450972	AC	569	...	200.0	INTERNET	2.283680	other	1	3	-2.440650	0.354986

	id	income	prev_address_months_count	current_address_months_count	customer_age	days_since_request	intended_balcon_amount	payment_type	zip_count_4w	...	month	x1	x2	name_email_similarity	date_of_birth_distinct_emails_4w	email_is_free	device_distinct_emails_8w	phone_home_valid	phone_mobile_valid
0	729517	0.7	-1.0	305.0	60.0	0.030059	-1.599455	AC	990.0	...	2.0	-0.245425	0.568811	0.883485	2.0	1.0	1.0	0.0	1.0
1	729517	0.7	-1.0	305.0	60.0	0.030059	-1.599455	AC	990.0	...	2.0	-0.245425	0.568811	0.883485	2.0	1.0	1.0	0.0	1.0
2	149585	0.8	-1.0	140.0	50.0	0.015659	3.951994	AA	1269.0	...	7.0	0.009336	-2.096682	0.113208	4.0	1.0	1.0	1.0	1.0
3	149585	0.8	-1.0	140.0	50.0	0.015659	3.951994	AA	1269.0	...	7.0	0.009336	-2.096682	0.113208	4.0	1.0	1.0	1.0	1.0
4	64486	0.9	-1.0	171.0	50.0	0.001409	28.159779	AB	4430.0	...	1.0	2.229616	-0.005823	0.792797	4.0	0.0	1.0	0.0	1.0

Proyecto: Innovación Tecnológica en Bodoque Bank¶

Cuerpo Docente:¶

Reglas¶

Motivación¶

Definición Formal del Problema¶

Proyecto¶

Equipo:¶

Link de repositorio de GitHub: `https://github.com/johnny-godoy/laboratorios-mds`¶

1. Introducción¶

1.1 Importación de librerías¶

1.X Configuraciones¶

2. Lectura y Manejo de Datos¶

2.1 Cargar datos en dataframes¶

2.2 Exploración inicial¶

2.3 Unir dataframes¶

2.4 Unir nuevas variables¶

2.5 Verificar nulos y duplicados, generar explicaciones sobre sus fuentes y proponer soluciones.¶

2.5.1 Nulos¶

2.5.2 Duplicados¶

2.5.3 Columnas constantes¶

2.6 Limpiar¶

2.7 Agregar rango etario¶

2.8 Eliminar variables innecesarias del runtime¶

3. Análisis Exploratorio de Datos¶

3.1 Análisis del EDA¶

3.1.1 Análisis de distribuciones univariadas¶

4. Preprocesamiento¶

4.1 Declarar `ColumnTransformer`¶

5. Visualización en Baja Dimensionalidad¶

5.1 Muestrear dataframe¶

5.2 Proyectar y agregar proyecciones al dataframe de muestreo¶

5.3 Visualizar según rangos etarios¶

6. Anomalías¶

6.1 Implementar detector de anomalías sobre dataframe de muestreo¶

6.2 Agregar resultados a dataframe de muestreo¶

6.3 Visualizar según rangos etarios¶

6.4 Calcular ratios y responder¶

	left	right	outer
id	0	0	0
fraud_bool	0	60959	60959
income	0	60959	60959
prev_address_months_count	0	60959	60959
current_address_months_count	0	60959	60959
customer_age	0	60959	60959
days_since_request	0	60959	60959
intended_balcon_amount	0	60959	60959
payment_type	0	60959	60959
zip_count_4w	0	60959	60959
velocity_6h	0	60959	60959
velocity_24h	0	60959	60959
velocity_4w	0	60959	60959
bank_branch_count_8w	0	60959	60959
employment_status	0	60959	60959
credit_risk_score	0	60959	60959
housing_status	0	60959	60959
bank_months_count	0	60959	60959
has_other_cards	0	60959	60959
proposed_credit_limit	0	60959	60959
foreign_request	0	60959	60959
source	0	60959	60959
session_length_in_minutes	0	60959	60959
device_os	0	60959	60959
keep_alive_session	0	60959	60959
device_fraud_count	0	60959	60959
month	0	60959	60959
x1	0	60959	60959
x2	0	60959	60959
name_email_similarity	79727	0	79727
date_of_birth_distinct_emails_4w	79727	0	79727
email_is_free	79727	0	79727
device_distinct_emails_8w	79727	0	79727
phone_home_valid	79727	0	79727
phone_mobile_valid	79727	0	79727

	segmentacion_etaria	fraud_bool
		mean	count
0	Joven	0.007692	130
1	Adulto-Joven	0.006127	1469
2	Adulto	0.011151	7174
3	Persona Mayor	0.016300	1227

	id	income	prev_address_months_count	current_address_months_count	customer_age	days_since_request	intended_balcon_amount	payment_type	zip_count_4w	...	date_of_birth_distinct_emails_4w	email_is_free	device_distinct_emails_8w	phone_home_valid	phone_mobile_valid	segmentacion_etaria	x	y	fraud_pred_svm
206800	766430	0.5	59	7	50	0.004772	-1.352772	AC	867	...	10.0	1.0	1.0	0.0	1.0	Adulto	-37.580669	9.187181	0
826623	70573	0.8	-1	83	20	0.009813	-0.629146	AB	2154	...	5.0	0.0	1.0	1.0	1.0	Adulto-Joven	0.561668	-8.586325	1
83700	803428	0.8	-1	127	40	0.019343	-1.226536	AD	1114	...	8.0	1.0	1.0	0.0	1.0	Adulto	9.339795	-29.421509	0
713880	707628	0.3	-1	141	50	0.023301	-0.525135	AB	711	...	4.0	0.0	1.0	1.0	0.0	Adulto	-21.276649	-21.966311	0
347218	245258	0.4	-1	54	50	0.028080	49.077796	AA	2807	...	5.0	1.0	1.0	1.0	1.0	Adulto	-1.008532	33.868965	1

Proyecto: Innovación Tecnológica en Bodoque Bank¶

Cuerpo Docente:¶

Reglas¶

Motivación¶

Definición Formal del Problema¶

Proyecto¶

Equipo:¶

Link de repositorio de GitHub: https://github.com/johnny-godoy/laboratorios-mds¶

1. Introducción¶

1.1 Importación de librerías¶

1.X Configuraciones¶

2. Lectura y Manejo de Datos¶

2.1 Cargar datos en dataframes¶

2.2 Exploración inicial¶

2.3 Unir dataframes¶

2.4 Unir nuevas variables¶

2.5 Verificar nulos y duplicados, generar explicaciones sobre sus fuentes y proponer soluciones.¶

2.5.1 Nulos¶

2.5.2 Duplicados¶

2.5.3 Columnas constantes¶

2.6 Limpiar¶

2.7 Agregar rango etario¶

2.8 Eliminar variables innecesarias del runtime¶

3. Análisis Exploratorio de Datos¶

3.1 Análisis del EDA¶

3.1.1 Análisis de distribuciones univariadas¶

4. Preprocesamiento¶

4.1 Declarar ColumnTransformer¶

5. Visualización en Baja Dimensionalidad¶

5.1 Muestrear dataframe¶

5.2 Proyectar y agregar proyecciones al dataframe de muestreo¶

5.3 Visualizar según rangos etarios¶

6. Anomalías¶

6.1 Implementar detector de anomalías sobre dataframe de muestreo¶

6.2 Agregar resultados a dataframe de muestreo¶

6.3 Visualizar según rangos etarios¶

6.4 Calcular ratios y responder¶

Link de repositorio de GitHub: `https://github.com/johnny-godoy/laboratorios-mds`¶

4.1 Declarar `ColumnTransformer`¶