Product Analytics

[AB 테스트] 통계적 유의성 검정 방법

_Aiden 2024. 12. 5. 12:38
728x90

 

 

자체적인 앱 서비스를 운영하는 대부분의 테크 기업들은 프로덕트에 대한 AB 테스트를 끊임없이 진행하며 서비스를 고도화한다.

AB 테스트는 간단히 말해, 기존의 상태에서 뭔가에 변화를 주려고 하는데 이 변화된 것이 기존의 상태보다 더 나은지를 테스트 하는 과정이다. 여기서 기존의 것을 A, 변화된 것을 B라고 하는데 실험 설계 단계에서 핵심 지표와 가드레일 지표 등을 설정하고 실험 종료 후 이 지표들을 측정한다. 측정 결과에 따라 B군으로 롤아웃을 하거나 A군으로 롤백하게 된다.

* 가드레일 지표(Guardrail metric) : 실험으로 인해 떨어져서는 안되는 지표

* 롤아웃 : 기대했던 대로 실험 결과가 잘 나와서 B군으로 배포하는 경우. 반대로 A군으로 다시 원상복구 해야할 경우, 롤백.

 

단, 여기서 단순히 수치 비교만으로 롤백, 롤아웃의 의사결정을 내리는 건 섣부른 결정일 수 있다. 왜냐하면, 이 실험의 결과가 우연에 의한, 그 차이가 유의미하지 않을 수 있기 때문이다. A보다 B의 전환율이 더 높게 나왔을 때 전환율의 차이가 존재한다는 사실만으로 의사결정을 내리는 것보단 이 차이가 통계적으로 의미가 있는 차이인지를 검정하는 과정이 필요하다. 그리고 통계적 검정 결과를 고려하여 의사결정을 내리는 것이 보다 합리적인 의사결정일 것이다. (물론, 통계적인 결과에 100% 의존하는 것도 위험함)

 

 

요새는 숫자만 넣으면 자동으로 이 결과가 유의미한 차이인지를 계산해주는 무료 사이트도 많지만, 분석가라면 적어도 이 검정 과정이 어떤 과정을 거쳐서 계산이 되는지 이해하고 있어야 한다. 직접 p-value나 검정 통계량을 수기로 계산하지 못하더라도 최소한 t-test의 기본 가정들과 각 가정들이 충족되지 않을 때 대체할 수 있는 다른 통계 기법들이 무엇인지는 알아야 한다.

 

 

  1. 우리는 왜 가설 검정을 하는가
    1. 추론 통계(Statistical Inference)의 기본
    2. 귀무가설과 대립가설, 제 1종의 오류와 제 2종의 오류, 그리고 AB test에서 우리가 가장 중요하게 생각하는 오류
    3. 통계적 가설검정 방법
  2. 우리가 주로 검정하고자 하는 것 : 평균의 차이와 전환율의 차이
    1. T-test의 기본 개념 및 원리 (우리는 왜 T-test를 사용하는가)
    2. T-test의 기본 가정 3가지 (정규성, 등분산성, 독립성)
      1. 정규성 검정 - Shapiro
      2. 등분산성 검정 - levin
      3. 독립성 검정 - Chi square
  3. 각 가정의 성립 여부에 따른 통계 기법
    1. 비모수적 검정의 개념과 사용 목적
    2. 각 가정에 따른 통계 기법
      1. <비모수적>정규성이 성립하지 않을 때 (Mann-Whitney)
      2. 등분산성이 성립하지 않을 때 (welch's)
      3. 정규성과 등분산성 모두 성립하지 않을 때 (Mann-Whitney, Bootstrap)
반응형
LIST