1. 통계적 유의성
연구나 비즈니스 등의 데이터 분석 현장에서 가설이 옳은지 검증하는 작업은 매우 중요하다.
예를 들어, "신약에 효과가 있다"라는 가설을 검증하고 싶다고 가정해보자. 신약이 아닌 가짜약을 투여한 모집단 A와 신약을 투여한 모집단 B가 있다. 이때, "신약에 효과가 있다"라는 가설을 통계적인 가설로 바꿔보면 다음과 같다.
가짜약을 투여한 모집단 A의 평균과
신약을 투여한 모집단 B의 평균은 다를 것이다.
(Two-sided, 양측가설)
여기서 두 가지 가설이 도출된다.
- 귀무가설(null hypothesis, 영가설) : 신약에 효과가 없다. (모집단 A의 평균과 모집단 B의 평균이 동일하다.)
- 대립가설(alternative hypothesis, 대안가설) : 신약에 효과가 있다. (모집단 A의 평균과 모집단 B의 평균이 동일하지 않다.)
그리고 귀무가설이 틀렸음을 주장하는 것으로 대립가설을 지지한다는 방향으로 흐름을 취한다. 밝히고자 하는 명제가 잘못되었다고 가정한 뒤, 모순을 발견함으로써 명제를 증명하는 방법은 '귀류법'의 논리 구조와 동일하다.
귀류법이란 "어떤 주장에 대해 그 함의하는 내용을 따라가다보면 이치에 닿지 않는 내용 또는 결론에 이르게 된다는 것을 보여서 그 주장이 잘못된 것임을 보이는 것이다."(위키백과) 다시 말해, 기존의 주장을 반대로 가정하고 그 가정에서 모순을 찾아내어 원래 주장이 틀렸음을 증명하는 방식이 귀류법이다.
예를 들어 "모든 새는 날 수 있다"라는 주장이 있을 때 그 반대 명제인 "어떤 새는 날 수 없다"를 가정한다. 여기에서 "펭귄은 새지만 날지 못한다"라는 예시를 통해 모순을 도출할 수 있다. 이를 통해 "모든 새는 날 수 있다"라는 주장이 틀렸음이 증명된다.
위 사례를 가설 검정의 측면에서 다시 표현하면 다음과 같다.
- 귀무가설 : 모든 새는 날 수 있다.
- 대립가설 : 적어도 하나의 새는 날 수 없다.
이때, 귀무가설과 대립가설의 대상은 표본집단이 아니라 모집단이다. 그리고 통계적으로 모평균과 표본평균은 일치하지 않을 수 있다. 우리는 현실적으로 수집이 가능한 표본의 통계치를 바탕으로 정말 알고자 하는 모집단을 추론한다. 따라서, 설사 신약이 효과가 없다고 할지라도(귀무가설이 참, 두 모집단의 모평균의 차이가 없음) 표본평균의 차이는 있을 수 있음을 의미한다. 즉, 이러한 표본평균의 차이가 단순한 데이터 분산에서 비롯된 차이인지 아니면 정말 약의 효과인지 확인이 필요한 것이다. 이게 가설검정의 기본 사고 구조다.
p-value 이해하기: 1) 귀무가설이 옳은 가상의 세계를 상상하라
다시, 신약 투여 실험 사례로 돌아와보자. 일단, 귀무가설이 옳다고 가정해보자. 즉, 두 모집단의 평균이 동일하다고 가정하는 것이다(가짜약 투여 모집단 A의 평균 = 신약 투여 모집단 B의 평균). 그리고 각 모집단에서 표본을 추출한다. 이때 두 모집단의 평균은 같음에도 불구하고, 표본집단의 평균은 다른 결과가 발생한다. 이는 모평균과 표본평균이 일치하지 않을 수 있다는 당연한 통계적 사실이다.
- 1) 귀무가설이 옳다고 가정한다. 즉, 두 모집단의 평균인 모평균은 동일하다고 가정한다.
- 2) 모평균이 동일함에도 불구하고, 두 모집단에서 추출한 표본들의 평균인 두 표본평균 간에는 차이가 발생한다.
- 3) 두 모집단에서 표본평균을 추출하고 두 표본평균의 차이를 구한다. 이 과정을 여러 번 반복하면서 두 표본평균의 차이를 히스토그램으로 그려보면 결국 0을 기준으로 정규분포 모양을 띄게 된다.
- 그럴 수밖에 없다. 두 모집단의 모평균이 동일한 상황에서 표본평균의 분포를 나타내면 두 집단의 그래프는 각 모평균을 중심으로 정규분포를 띄게 된다. 그러므로, 두 표본집단의 표본평균의 차이는 0을 중심으로 하는 정규분포를 띄게 된다.
p-value 이해하기: 2) 현실의 데이터가 가상의 세계에서 극히 드문 확률로 나타난다면?
그렇다면, 실제 데이터로 계산한 표본평균의 차이는 어떨까? 실제 데이터를 통해 구한 A, B 그룹의 표본평균의 차이가 위의 가상의 세계, 즉 모집단의 평균이 동일한 세계(귀무가설이 옳은 세계)에선 어느 정도의 확률로 나타날까? 만약, 실제 데이터로 계산한 표본평균의 차이가 모집단의 평균이 동일한 가상의 세계에서 매우 드문 확률로 나타난다면 가상의 세계가 틀렸다고 말할 수 있지 않을까? 반대로 실제로 얻은 표본평균의 차이가 가상의 세계에서 잦은 빈도로 나타난다면 가상 세계를 틀렸다고 말할 수 없을 것이다.
유의확률(p-value)은 이러한 관점에서 다음과 같이 정의할 수 있다.
p-value = 귀무가설이 옳다고 가정했을 때 실제로 관찰한 값 이상으로 극단적인 값이 나올 확률
p-value가 작다는 것은 결국 귀무가설이 옳은 가상의 세계에선 우리가 현실에서 실제로 관찰한 데이터가 드물게 나타난다는 것을 의미한다. 위에서 세웠던 귀무가설(신약의 효과가 없다)과 대립가설(신약의 효과가 있다)을 예로 들어보자. 만약, 유의수준을 0.05로 설정했을 때 p-value가 0.03이 나왔고 두 표본평균의 차이가 10%가 나왔다면 귀무가설이 옳은 가상의 세계에선 두 표본평균의 차이가 10% 이상이거나 이하일 확률(양측검정일 경우)이 3%임을 의미한다.
유의수준과 기각역 등에 대해선 본 글의 서두에 첨부한 링크에서 확인할 수 있다.
2. 통계적 유의성을 무조건 신뢰해선 안되는 이유
위에서 설명한 p-value와 효과 크기, 검정력, 유의수준 등의 개념들을 활용해 귀무가설을 기각할 것인지 말 것인지를 판단하게 된다. 보통 실무에선 유의수준을 0.05로 설정해놓고 p-value가 0.05 이하이면 "귀무가설이 참이라는 가정 하에 실제 데이터가 나타날 확률이 극히 드물다고 판단하고 귀무가설을 기각"한다.
이때, 두 집단의 표본평균의 차이에 대해 "통계적으로 유의미한 차이가 있다"라고 표현한다.
실무에서 통계 검정 결과, 통계적으로 유의미한 차이가 있다는 말은 위의 의미를 내포하는 셈이다.
반면, p-value가 0.05보다 클 경우 귀무가설을 기각할 수 없으며 "통계적으로 유의미한 차이를 발견하지 못했다"라고 표현한다.
1. p-value가 작다고 해서 대립가설이 참임을 의미하는 건 아니다.
그렇다면, p-value가 0.05보다 작을 경우 귀무가설이 틀렸고 대립가설이 참이라고 말할 수 있을까? 많은 경우에 그렇게 판단을 한다. 그러나, p-value는 귀무가설이 옳고 틀렸고를 나타내지 않는다. p-value가 작을수록 귀무가설을 지지할 충분한 근거가 없으며 대립가설을 지지할 수 있는 하나의 증거를 얻었음을 의미할 뿐이다.
2. p-value가 실험의 효과의 크기를 의미하는 건 아니다.
효과 크기(Effect Size)란? 두 집단 간 차이가 얼마나 큰지를 나타내며 발생한 차이가 실제로 얼마나 중요한지를 나타내는 지표이다.
만약, 두 그룹의 전환율 차이가 통계적으로 유의미하더라도 그 차이가 0.1%로 매우 작다면 비즈니스적인 의미가 없을 수 있다.
실무에선 절대적인 차이(단순 차이)나 상대적인 차이(상대적 증감률)를 통해 효과 크기를 측정하는 경우가 많은데 그 외에도 Cohen's d 또는 상대적 위험도(Relative Risk), 신뢰구간 등의 방법이 있다.
(1) Cohen's d
- 두 그룹 간 평균 차이를 표준편차로 나눈다. (표준편차는 두 그룹의 표준편차의 풀링 값)
- d = 0.2 (작은 효과), d = 0.5 (중간 효과), d = 0.8 이상 (큰 효과)
(2) 상대적 위험도(Relative Risk, RR)
- 두 그룹의 전환율 차이를 상대적으로 계산
- 실험군의 전환율 / 대조군의 전환율
- RR = 1 (두 그룹 간 차이 x), RR > 1 (실험군의 전환율이 높음), RR < 1 (실험군의 전환율이 낮음)
(3) 신뢰구간 (Confidence Interval) 활용 방법
신뢰구간은 먼저, 두 그룹 간의 차이(여기선 단순 % 간의 절대적 차이인 %p로 가정)를 구하고 그 다음 표준오차를 계산한다. 그 다음 임계값을 정한 후 신뢰구간을 계산한다.
평균의 차이에 대한 효과 크기를 측정하는 방법과 비율의 차이에 대한 효과 크기를 측정하는 방법이 살짝 다른데 여기선 비율의 차이에 대한 효과 크기 측정 방법을 설명한다. (전환율의 차이에 대한 효과 크기를 신뢰구간을 활용해 판단한다고 이해하면 됨)
두 집단의 비율 차이에 대한 95% 신뢰구산 계산 방법
- A그룹의 표본 크기가 1000명이고 그 중 80명이 전환되었다고 가정(P_A = 0.08)
- B그룹의 표본 크기가 1200명이고 그 중 110명이 전환되었다고 가정(P_B = 0.092)
- 두 전환율의 차이 = 0.01167
- 표준오차 = (A의 분산항 + B의 분산항)의 제곱근 = 0.01196
- 신뢰수준 95%의 임계값은 1.96
- 신뢰구간 계산은? 아래 수식에 따라 [-0.01177, 0.0351]
- 신뢰구간이 0을 포함하고 있으므로 두 전환율의 비율 차이가 통계적으로 유의미하다고 해석할 수 없다.
- 또한, B의 전환율이 A보다 최대 3.51%p 높거나 최대 1.17% 낮을 수 있다.
신뢰구간을 활용하는 방법은 실무에서 많이 활용되지는 않는데 사실 이러한 구간 추정이 일반적인 점추정의 단점을 보완할 수 있기 때문에 알아두면 좋다. 따라서, 이 부분은 이후의 포스팅에서 좀 더 자세히 다룰 예정이다.
3. p-value가 작게 나올 확률을 높이는 경우
매우 큰 표본에서 p-value가 0.01이 나왔다고 할 때 이 차이가 실질적으로는 매우 작을 수 있다.
반대로, 표본 크기가 너무 작을 땐 유의미한 차이를 발견하기 어려우므로 표본 크기와 p-value의 관계를 항상 고려해야 한다.
한편으론 여러 가설을 동시에 검정할 때 p-value가 작게 나올 확률이 높아진다. 이러한 다중검정 문제를 보완하기 위해 본페로니 교정(Bonferroni)을 활용하기도 한다.
3. 비즈니스적 판단이 필요하다. 실무적 유의성이란?
실험의 끝은 결국 "그래서 전면 배포할거야? 말거야?"에 대한 논의이다.
통계적 유의성 검정은 의사결정에 있어서 합리적인 근거를 제공할 수 있다. 그러나, 정작 실제 효과의 크기가 작다면 비즈니스에는 큰 영향을 미칠 수 없다. 이런 이유로 통계적으로 유의미한지 검정할 뿐만 아니라 실제로 효과의 크기를 측정하고 더 나아가 페르미 추정 등을 활용해 매출적으로 어느 정도의 업리프트를 발생시킬 수 있는지를 계산한다.
분석가는 통계적인 유의성을 검정하는 것을 넘어 이게 실제로 우리 서비스의 비즈니스에 실질적으로 기여할 수 있는지를 추정할 수 있어야 한다. B군과 A군의 차이가 통계적으로 유의미하다면 그 차이의 크기가 어느 정도인지 측정할 수 있어야 하고 결과 달성을 위해 소모될 비용과 얻을 이익을 고려해야 한다.
'Product Analytics' 카테고리의 다른 글
[Stat] 회귀모형 평가하기 - RMSE(평균 제곱근 오차) (0) | 2024.12.24 |
---|---|
[Stat] 선형회귀(linear regression), 최소제곱법 (0) | 2024.12.24 |
AB test 설계 시 주의사항: MDE, 검정력, 표본 크기 등 (0) | 2024.12.05 |
[AB 테스트] 실험의 순수 효과 측정 방법 - 이중차분법 (1) | 2024.12.05 |
[AB 테스트] 통계적 유의성 검정 방법 (1) | 2024.12.05 |