Bayesian 3

Bayesian - 시작은 미약했으나 끝은 창대해지고 있는..?

토마스 베이즈는 1700년대 영국의 목사이자 (아마추어) 수학자 였다고 한다. 토마스 베이즈는 ' 원인->결과 '보다는 ' 결과->원인 '을 알아내보고 싶었던 것 같다. 다만 일반적인 과학자/수학자처럼 상세하게 파헤졌다기보다는 "우리가 관측값만 알고 있을 때, 그 원인을 추론할 수 있는 방법에 대하여"의 논문 한편만을 사후에 프라이스라는 친구가 정리하여 출시하며, 이론만 확립했고 이후 200년까지도 큰 반향은 없었다. 이후 20세기 초에 Pearson, Fisher로 대변되는 '빈도주의(Frequentist)'가 통계학과 경제학의 주류로 부상하며, Bayesian은 사실상 묻히는 듯 했다. 하지만 사후분포를 컴퓨터 등으로 계산할 수 있게되고 나오고, GPU 등의 더 높은 수준의 컴퓨팅 자원들이 나오면서 ..

베이지안 ( Bayesian ) 은 왜 필요할까

ML 모델은 이미 다양한 분야에서 광범위하게 사용하고 있다. CPU, GPU가 발전하여 연산량을 받쳐주며 sklearn, pytorch 등의 다양한 라이브러리들이 손쉽게 해당 모델들을 구현하게 해준다. Google의 Vertex AI나 Databricks의 AutoML 등을 사용하면 버튼 몇 번으로 모델이 엔드포인트로 배포되고 MLOps까지 손쉽게 구현해주기도 한다. 이러한 모델들은 쿼리 기반의 인사이트가 주지 못하는 잠재요인(latent factor)를 알려주거나, 예측값들을 알려주거나 이상치를 탐지해주는 등의 역할을 수행하며 비즈니스에 도움이 된다. 하지만 실제 비즈니스를 진행할 때 해당 ML 모델 방식의 3가지 의문점이 존재할 수 있다. 1) 왜 해당 결과가 나온거지 ( Explain..

A/B 테스트 - DA를 넘어 사회과학 분야의 꽃 ( p-value / Bayesian )

글에 앞서 잠시 개인적인 이야기를 하자면 나는 본래 공학전공이었지만 대부분 석박을 가는 과 특성상, 대학교 2학년 때는 석박에 대한 확신이 들지 않아 경제학과로 옮겼다. 많은 것이 바뀌었지만 ( 과제 양이라던지... ) 가장 달라졌던 건 아마 데이터를 대하는 방식이였을 것이다.공학적 실험은 단 하나의 독립변수만 조작하고, 나머지 변수는 모두 통제하여 결과의 인과를 명확히 파악한다. 즉 통제수준이 아주 높다. 심지어 초전도체 이슈처럼 어떤 실험실에서는 되고, 어떤 실험실에서는 재현이 안되는 부분도 있으며, 아주 단순한 실험도 통제조건이 조금이라도 맞지 않으면 재현이 안되는 경우도 많다. 경제학과는 많은 사회과학 데이터를 분석하는 학과이므로 수학이나 통계가 많이 쓰이긴 하지만, 사실 변수들을 통제할 수는 ..