[AB 테스트] 통계적 유의성 검정 방법

Product Analytics/AB Test

[AB 테스트] 통계적 유의성 검정 방법

_Aiden 2024. 12. 5. 12:38

728x90

자체적인 앱 서비스를 운영하는 대부분의 테크 기업들은 프로덕트에 대한 AB 테스트를 끊임없이 진행하며 서비스를 고도화한다.

AB 테스트는 간단히 말해, 기존의 상태에서 뭔가에 변화를 주려고 하는데 이 변화된 것이 기존의 상태보다 더 나은지를 테스트 하는 과정이다. 여기서 기존의 것을 A, 변화된 것을 B라고 하는데 실험 설계 단계에서 핵심 지표와 가드레일 지표 등을 설정하고 실험 종료 후 이 지표들을 측정한다. 측정 결과에 따라 B군으로 롤아웃을 하거나 A군으로 롤백하게 된다.

* 가드레일 지표(Guardrail metric) : 실험으로 인해 떨어져서는 안되는 지표

* 롤아웃 : 기대했던 대로 실험 결과가 잘 나와서 B군으로 배포하는 경우. 반대로 A군으로 다시 원상복구 해야할 경우, 롤백.

단, 여기서 단순히 수치 비교만으로 롤백, 롤아웃의 의사결정을 내리는 건 섣부른 결정일 수 있다. 왜냐하면, 이 실험의 결과가 우연에 의한, 그 차이가 유의미하지 않을 수 있기 때문이다. A보다 B의 전환율이 더 높게 나왔을 때 전환율의 차이가 존재한다는 사실만으로 의사결정을 내리는 것보단 이 차이가 통계적으로 의미가 있는 차이인지를 검정하는 과정이 필요하다. 그리고 통계적 검정 결과를 고려하여 의사결정을 내리는 것이 보다 합리적인 의사결정일 것이다. (물론, 통계적인 결과에 100% 의존하는 것도 위험함)

요새는 숫자만 넣으면 자동으로 이 결과가 유의미한 차이인지를 계산해주는 무료 사이트도 많지만, 분석가라면 적어도 이 검정 과정이 어떤 과정을 거쳐서 계산이 되는지 이해하고 있어야 한다. 직접 p-value나 검정 통계량을 수기로 계산하지 못하더라도 최소한 t-test의 기본 가정들과 각 가정들이 충족되지 않을 때 대체할 수 있는 다른 통계 기법들이 무엇인지는 알아야 한다.

우리는 왜 가설 검정을 하는가
1. 추론 통계(Statistical Inference)의 기본
2. 귀무가설과 대립가설, 제 1종의 오류와 제 2종의 오류, 그리고 AB test에서 우리가 가장 중요하게 생각하는 오류
3. 통계적 가설검정 방법
우리가 주로 검정하고자 하는 것 : 평균의 차이와 전환율의 차이
1. T-test의 기본 개념 및 원리 (우리는 왜 T-test를 사용하는가)
2. T-test의 기본 가정 3가지 (정규성, 등분산성, 독립성)
  1. 정규성 검정 - Shapiro
  2. 등분산성 검정 - levin
  3. 독립성 검정 - Chi square
각 가정의 성립 여부에 따른 통계 기법
1. 비모수적 검정의 개념과 사용 목적
2. 각 가정에 따른 통계 기법
  1. <비모수적>정규성이 성립하지 않을 때 (Mann-Whitney)
  2. 등분산성이 성립하지 않을 때 (welch's)
  3. 정규성과 등분산성 모두 성립하지 않을 때 (Mann-Whitney, Bootstrap)

LIST

저작자표시 비영리 변경금지 (새창열림)

'Product Analytics > AB Test' 카테고리의 다른 글

AB test 설계 시 주의사항: MDE, 검정력, 표본 크기 등 (3)	2024.12.05
통계적 유의성 검정이 절대적이지 않은 이유 : 통계적 유의성과 실무적 유의성 (1)	2024.12.05
[AB 테스트] 실험의 순수 효과 측정 방법 - 이중차분법 (2)	2024.12.05

현재글[AB 테스트] 통계적 유의성 검정 방법

H.PROJECT