ML Pipeline — Holiday Package Prediction

📦

Data collection

Kaggle dataset — 4,888 customer records, 20 features, binary target ProdTaken

Travel.csv 4,888 rows 20 features

🧹

Data cleaning

Median/mode imputation · Fix Fe Male → Female · Drop CustomerID

Median imputation Mode imputation Label fix

🔍

Exploratory data analysis

18% purchase rate · Passport strongest predictor (0.26) · Age ↔ Income (0.46)

df.hist() Heatmap Correlation

⚙

Feature engineering

TotalVisiting = NumberOfPersonVisiting + NumberOfChildrenVisiting

Feature creation Column drop

🔄

Preprocessing — ColumnTransformer

80/20 train-test split · OneHotEncoder (drop=first) · StandardScaler

OneHotEncoder StandardScaler 80/20 split

MODEL COMPARISON

Baseline models

Logistic Regression · Decision Tree · Gradient Boosting

not selected

Random Forest

Best accuracy 93% · Highest F1 score across all models

selected ✓

🎯

Hyperparameter tuning

RandomizedSearchCV · n_iter=100 · cv=3 · Best: n_estimators=1000, max_features=7

RandomizedSearchCV n_iter=100 cv=3

📊

Evaluation

Confusion matrix · Classification report · Feature importance · ROC-AUC

Confusion matrix Feature importance ROC-AUC

💾

Model export

Saved with joblib · holiday_package_classification_model.pkl + preprocessor.pkl

joblib .pkl deploy ready