Modeling 3

xAI와 SHAP란? - 협력 게임 이론

AI가 강조되고, 데이터를 기반으로한 BM 들이 더 많이 나오면서 xAI (Explainable AI) 중요성 또한 올라가고 있다. 사실 값만 잘 예측하면 되긴하지만, AI 자체에 소모되는 인프라 비용 등을 경영측에 설득하기 위해서, 그리고 해당 예측값이 DA 분야와 어떤 방식으로 결합할 수 있는지를 다른 부서 등에 설명 및 협업하려면 이런 '설명 가능한 AI'가 중요해지는 거라고 생각한다. 물론 관련 팀원 또한 해당 Feature Importance 같은 지표를 통해 모델을 직관적으로 개선하기도 더 쉽다. 따라서 일반적인 예측이나 분류작업에는 NN 모델보다는 Classical ML이 더 많이 채택되고 있다. 이런 XAI 중 가장 대중적으로 쓰이는 것이 SHAP (SHapley Additive exPl..

Boosting vs Bagging 의 차이점은 ? ( feat. XGBoost / Random Forest )

ML은 Linear Regression이나 K-means 등의 다양하면서 기초적인 알고리즘 등이 있지만 기본적으로 가장 많은 태스크를 차지하는 '예측/분류'에서 일반적으로 쓰이는 모델은 sklearn에 XGBoost나 LigtGBM 등일 것이다.이는 대표적인 MLOps의 프레임워크인 ML-Flow와 해당 프레임워크가 임베딩 되어있는 Databricks의 제작자인 현 스탠포드 교수인 Matei Zaharia (마테이 자하리아) 가 쓰는 AutoML에도 존재한다. 그만큼 가볍고 Robust한 모델이라는 방증일 것이며, 다양한 Kaggle 메인스트림 task에서도 수년 째 좋은 성적을 거두고 있다. 이는 기존의 Bagging 기법의 한계를 Boosting 기법이 어느정도 극복했기 때문이라고 생각한다. 하지만 ..

Classical ML vs. Deep Learning, 언제 무엇을 써야 할까?

2010년대 정부와 기업이 매일같이 외치던 '빅데이터'를 지나 해당 빅데이터를 기반으로 ML을 전사적으로 도입하는 사례가 많이 느는 것 같다. 개인적으로는 순수 IT기업에서는 비용과 리소스가 많이 드는 ML 모델링보다는 실시간 웹훅, 소켓이나 초/분단위 등의 alert를 기반으로 많은 문제를 해결 및 대응하고 있는 것 같은데, 물리적인 시간과 비용에 대한 계산이 없는 순수 IT기반의 BM이라면 해당 방법이 훨씬 더 합리적일 수 있다. 다만 물리적인 개입이 필요한 BM을 코어로 가지고 있는 기업들 (ex. 배민, 쿠팡 등 ) 은 예측이나 분류치를 기반으로 물류 기반 선제 행동을 해야하기 때문에 ML이 적극적으로 쓰여지고 있다. ML 모델은 과거 if-else 정도의 아주 간단한 tree 형태의 모델만 사용..