Data Analysis

베이지안 ( Bayesian ) 은 왜 필요할까

aiden0729

 

ML 모델은 이미 다양한 분야에서 광범위하게 사용하고 있다.

 

CPU, GPU가 발전하여 연산량을 받쳐주며 sklearn, pytorch 등의 다양한 라이브러리들이 손쉽게 해당 모델들을 구현하게 해준다.

 

Google의 Vertex AI나 Databricks의 AutoML 등을 사용하면 버튼 몇 번으로 모델이 엔드포인트로 배포되고 MLOps까지 손쉽게 구현해주기도 한다. 

 

 

 

 

이러한 모델들은 쿼리 기반의 인사이트가 주지 못하는 잠재요인(latent factor)를 알려주거나, 예측값들을 알려주거나 이상치를 탐지해주는 등의 역할을 수행하며 비즈니스에 도움이 된다. 

 

 

 

 하지만 실제 비즈니스를 진행할 때 해당 ML 모델 방식의 3가지 의문점이 존재할 수 있다.

 

1) 왜 해당 결과가 나온거지 ( Explainable ) ?

 

2) 예측값과 다른 행동을 할 확률은 ( Credibility )?

 

3) 예측과 다른 Input을 주었을 때 특정 Output이 나올 확률은 ( Counterfactual) ?

 

 

 

 

1번에 대해서는 SHAP 등을 사용하여 해석 및 Feature Importance 등으로 설명하고 있지만, 다소 부족한 추적 및 과정설명이 존재할 수 밖에 없다.

 

https://aiden0729.tistory.com/21

 

XAI와 SHAP란? - 협력 게임 이론

AI가 강조되고, 데이터를 기반으로한 BM 들이 더 많이 나오면서 XAI (Explainable AI) 중요성 또한 올라가고 있다. 사실 값만 잘 예측하면 되긴하지만, AI 자체에 소모되는 인프라 비용 등을 경영측에 설

aiden0729.tistory.com

 

 

그리고 문제는 2,3 번일 수 있는데 실제로 2,3번은 비즈니스가 진행 될 때 굉장히 중요한 요소이기도 하다. 분석 결과의 신뢰도뿐만 아니라 기존 유저에게 전과 다른 마케팅 혹은 이벤트 등의 다양한 조건과 환경을 Data-driven 하게 제공하기 위해서 필요하다.

 

 

 

물론 해당 태스크도 효과적인 액션만 가정한다면 다양한 모델을 병렬적으로 적용하므로서 어느정도 해결할 수 있을 것으로 생각한다. 

(ex. 예측 + 클러스터링으로 4사분면을 만들어 우측 상단의 high scoring 유저들에게만 신규 환경 적용. 해당 high scoring은 예측의 RMSE나 cluster의 코사인 거리 등으로 계산 등 ) 

 

 

 

다만 여전히  반사실(Counterfactual) 추론 불가 ( ex. 이 유저에게 다른 캠페인을 줬다면? ) 같은 문제들도 존재한다. 

해당 문제는 ML은 모두 '점추정 ( point estimate )'에 포커스가 맞춰져 있기 때문이다.

다음 '점'을 추정하는데 있어서 큰 상관이 없는  분산 등에 대한 접근이나 사고를 거의 하지 않게 설계되어 있다. 

이는 이미 데이터가 충분히 있어서 분포의 불확실성에 대한 걱정을 크게 할 필요가 없거나, 리스크가 상대적으로 적은 마케팅 등이나 가벼운 액션 등에서는 크게 상관없을 수 있다. 하지만 아래와 같은 문제점을 베이지안으로 더 확실하게 극복할 수도 있다.

 

 

1. 금융, 의료 등의 리스크가 높은 사안으로 갈수록 또는 다양한 환경과 가정이 필요한 경우

 

2. 확실한 도메인 지식 (Prior) 가 공식에 들어가면 유리한 경우

 

3. 사전 데이터가 너무 적거나 쌓이지 않아 정보를 확실한 'point' ( 평균, 중위수 등 ) 의 특정이 어려운 경우   

 

 

 

빈도주의 (Frequentist)를 기반으로한 통계학에서 발전한 것이 현재 범용적인 ML 모델이고, 이는 이미 PC와 모바일 기반의 다양한 선제적인 로그 데이터들이 존재하기 때문에 적합하다고도 볼 수 있다. 

"많이 반복했을 때 일어날 비율" 을 알고 싶다에서 출발한 것이 빈도주의이고, "내가 가진 불확실성의 정도" 를 알고 싶어한게 베이지안이라고 생각한다.

 

결국 빈도주의는 간단하고 명료하지만 결국 참/거짓과 같은 binary로 나뉘는 결과를 준다. 명확하고 편리하지만 결국 이 모델과 데이터가 정말 신뢰할만한가. 이 데이터셋의 모수가 다른 행동을 하면 어떤 결과가 나올까 같은 상세한 답변은 다소 얻기가 어렵다.

 

베이지안은 애초에 점을 추정하는 것이 아니고 분포나 분산을 추정하는 것에 더 가깝다. 따라서 시각 데이터로 보자면 '선형 그래프'라기 보다는 '면(surface)형 그래프'라는 말에 가까울지도 모르겠다

 

 

 

이는 전에 A/B 테스트 내에서 p-value와 Bayesian의 결과 차이 등을 정리한 것으로도 비즈니스 관점에서 차이점이 해석될 수 있다.

https://aiden0729.tistory.com/17

 

A/B 테스트 - DA를 넘어 사회과학 분야의 꽃 ( p-value / Bayesian )

글에 앞서 잠시 개인적인 이야기를 하자면 나는 본래 공학전공이었지만 대부분 석박을 가는 과 특성상, 대학교 2학년 때는 석박에 대한 확신이 들지 않아 경제학과로 옮겼다. 많은 것이 바뀌었

aiden0729.tistory.com

 

 

 

 

 

아래는 대표적인 베이지안 방법론들이다. 

방법론 설명 주요 태스크
베이지안 A/B 테스트 실시간으로 효과를 업데이트하며 실험 종료 판단 마케팅 실험, UI/UX 실험
베이지안 회귀 (Bayesian Regression) 예측 + 신뢰구간 동시 제공 수요예측, 가격모델링
베이지안 최적화 (Bayesian Optimization) 적은 시도로 최적의 조합 탐색 (하이퍼파라미터, 프로모션 조합 등) 제품 조합, 자동 튜닝, 광고 전략
베이지안 구조적 시계열 (Bayesian Time Series) 불확실성 포함한 시계열 예측 수요예측, KPI 트렌드
BART / 베이지안 앙상블 예측 + 분산 계량 인과추론, 고위험 정책 분석