Product Analytics 9

[Stat] 베이즈 정리를 위한 전확률 공식(formula of total probability)

베이즈 정리확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다.베이즈 정리는 불확실성 하에서 의사결정문제를 수학적으로 다룰 때 중요하게 이용된다. 특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다. 전통적인 확률이 연역적 추론에 기반을 두고 있다면 베이즈 정리는 확률임에도 귀납적, 경험적인 추론을 사용한다. (출처: https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC) 통계학에서 확률을 다룰 때 크게 두 가지의..

Product Analytics 2024.12.24

[Stat] '표본평균은 모평균과 같지 않다' 표본평균과 표본평균의 평균, 표준오차와 중심극한정리(CLT) 개념 파악하기

표본평균이 모평균이랑 같은 게 아니라표본평균의 평균이 모평균과 같은 것!어떤 집단에 대해 통계 분석을 진행한다고 가정해보자. 이때 해당 집단의 전체 구성원이 그리 많지 않다면 전수 조사를 진행할 수 있다. 전수 조사가 가능하다면 기술통계적으로 접근해 각종 통계량을 쉽게 도출해낼 수 있다. 그러나, 대한민국 전국민 5000만 명을 대상으로 통계조사를 진행한다고 가정한다면 얘기가 달라진다. 5000만 명을 일일이 전수 조사하는 것은 사실상 불가능에 가까울 뿐더러, 설사 감행한다고 하더라도 막대한 비용을 감수해야만 한다.(과거 인구주택총조사를 전수조사로 진행한 적은 있지만, 전국민을 대상으로 한 전수조사는 매우 이례적인 경우다) 이처럼 대한민국 전국민을 통계 조사를 통해 알고 싶은 '대상'이라고 가정했을 때,..

Product Analytics 2024.12.24

[Stat] 추측 통계학의 꽃 '가설 검정'(귀무가설, 대립가설)

어떻게 선택하더라도 우연의 일치에 의해 일어나는 효과를 모두 제거할 수는 없다, 로널드 A.피셔 귀무가설, 대립가설?가설검정(hypothesis test)은 처음 접할 땐 사고과정이 난해하여 통계학 중에서도 어렵다는 평가를 많이 받는 방식이다. 가설검정의 대략적인 방식은 다음과 같다. 먼저 가설을 세우고, 해당 가설이 옳다고 가정한 뒤 '확률적으로는 거의 일어나지 않을 일'이 일어나면 그 가설을 부정하고 반대의 가설을 채택한다. 즉, 가설 A가 올바르다고 가정했을 때, 확률적으로 아주 희귀한 일이 발생한다면 가설 A 자체가 잘못되었을 가능성이 크다는 것으로, 최초의 가설 A를 부정하고 그 대안으로 다른 가설 B를 채택한다는 원리다. 쉬운 예를 통해 이해해보자.동전 앞면이 나올지 뒷면이 나올지에 따라 돈을..

Product Analytics 2024.12.24

[Stat] 회귀모형 평가하기 - RMSE(평균 제곱근 오차)

입력변수가 하나일 땐 최소제곱법의 공식을 통해 기울기(a)와 회귀상수(b)를 구할 수 있지만, 입력변수가 여러 개일 때는 최소제곱법으로는 무리가 있다. 그리고 대부분의 데이터셋은 절대적으로 입력변수가 여러 개이다. 이런 경우, 오차를 가장 최소화하는 최적선을 그리기 위해 평균 제곱근 오차(Root mean square error)를 사용한다.  평균 제곱근 오차...이전에 오차는 뭐야?선형회귀에서의 가장 중요한 이슈는 결국 오차가 가장 최소화되는 가장 적합한 '예측선'을 찾는 것이다.여기서의 오차는 결국, '실제 값'과 '예측 값'의 차이를 말한다.운동 시간이 인풋(입력변수, 독립변수)인 x, 푸쉬업 개수가 우리가 예측해야 하는 종속변수, 결과변수인 y이다. 예측값은 y햇이다. 이게 y햇 오차는 y(실제..

Product Analytics 2024.12.24

[Stat] 선형회귀(linear regression), 최소제곱법

1. 선형회귀 (Linear regression)딥러닝의 가장 기본이 되는 Linear regression은 쉽게 말해 '예측선 긋기'입니다. 예를 하나 들자면, 운동 연습시간에 따라 할 수 있는 푸쉬업 개수가 다르다. 라는 문장이 있다고 해봅시다. 이 경우, 운동 연습시간은 독립변수 x이고 푸쉬업 개수는 종속변수 y입니다. 종속변수 y는 독립변수 x에 따라서 종속적으로 변하는 (자유롭지 못한) 변수를 의미하는데, 선형회귀는 독립변수를 이용하여 종속변수의 움직임을 예측하는 방법 중 하나입니다.독립변수가 하나일 경우 단순선형회귀(simple linear regression), 여러 개일 경우 다중선형회귀(multiple linear regression)이라 합니다. "운동 연습시간에 따라 할 수 있는 푸쉬..

Product Analytics 2024.12.24

AB test 설계 시 주의사항: MDE, 검정력, 표본 크기 등

AB 테스트를 설계할 땐 고려해야 하는 것들이 여러 가지가 있는데 간단히 얘기하면 다음과 같다. MDE(Minumum Detectable Effect) : 비즈니스적으로 유의미한 차이가 어느 정도인지 미리 정의한다. 예를 들어 전환율에서 2%의 차이(절대 차이)를 탐지하려고 한다면 MDE는 0.02이다.검정력(Power) : 귀무가설이 참이 아닐 때 귀무가설을 기각할 수 있는 능력. 보통 80%로 설정한다.대립가설이 참일 때 귀무가설을 기각할 수 있는 능력. 즉, 실제로 차이가 있을 때 그 차이를 발견할 확률검정력은 1-베타와 동일. (베타는 제2종의 오류)(2종의 오류=대립가설이 참일 때 귀무가설을 기각하지 않는 오류를 범할 확률)표본 크기 : 몇 명을 대상으로 실험을 진행할지 알아야 한다. 이를 계산..

Product Analytics 2024.12.05

통계적 유의성 검정이 절대적이지 않은 이유 : 통계적 유의성과 실무적 유의성

1. 통계적 유의성  연구나 비즈니스 등의 데이터 분석 현장에서 가설이 옳은지 검증하는 작업은 매우 중요하다. 예를 들어, "신약에 효과가 있다"라는 가설을 검증하고 싶다고 가정해보자. 신약이 아닌 가짜약을 투여한 모집단 A와 신약을 투여한 모집단 B가 있다. 이때, "신약에 효과가 있다"라는 가설을 통계적인 가설로 바꿔보면 다음과 같다. 가짜약을 투여한 모집단 A의 평균과신약을 투여한 모집단 B의 평균은 다를 것이다.(Two-sided, 양측가설) 여기서 두 가지 가설이 도출된다.귀무가설(null hypothesis, 영가설) : 신약에 효과가 없다. (모집단 A의 평균과 모집단 B의 평균이 동일하다.)대립가설(alternative hypothesis, 대안가설) : 신약에 효과가 있다. (모집단 A의..

Product Analytics 2024.12.05

[AB 테스트] 실험의 순수 효과 측정 방법 - 이중차분법

1. AB Test란 무엇인가 자사 서비스를 운영하는 IT 기업은 높은 확률로 서비스의 UX/UI 개선을 중요하게 생각한다. 매출 증대와 같이 회사의 존속을 위해 중요한 키 메트릭을 끌어올리기 위해선 서비스의 UI 개선보단 거시적인 비즈니스 전략이 더 중요할 수도 있지만, 서비스의 편의성이 낮아 고객 경험이 낮은 경우엔 밑 빠진 독에 물 붓기와도 같다.  여러 상품을 판매하는 이커머스 서비스를 예로 들어보자. 유저는 서비스에 진입 후 이런저런 행동들을 통해 상품을 탐색하고, 그러다가 원하는 상품을 클릭해 상품 페이지에 진입하고 결국 구매를 하게 될 것이다. 이처럼 앱에 진입 후 구매까지의 일련의 행동들이 발생하는 과정을 고객 여정이라고 한다. 유저는 구매에 이르기까지의 고객 여정 중 여러 경험들을 하게 ..

Product Analytics 2024.12.05

[AB 테스트] 통계적 유의성 검정 방법

자체적인 앱 서비스를 운영하는 대부분의 테크 기업들은 프로덕트에 대한 AB 테스트를 끊임없이 진행하며 서비스를 고도화한다. AB 테스트는 간단히 말해, 기존의 상태에서 뭔가에 변화를 주려고 하는데 이 변화된 것이 기존의 상태보다 더 나은지를 테스트 하는 과정이다. 여기서 기존의 것을 A, 변화된 것을 B라고 하는데 실험 설계 단계에서 핵심 지표와 가드레일 지표 등을 설정하고 실험 종료 후 이 지표들을 측정한다. 측정 결과에 따라 B군으로 롤아웃을 하거나 A군으로 롤백하게 된다. * 가드레일 지표(Guardrail metric) : 실험으로 인해 떨어져서는 안되는 지표* 롤아웃 : 기대했던 대로 실험 결과가 잘 나와서 B군으로 배포하는 경우. 반대로 A군으로 다시 원상복구 해야할 경우, 롤백. 단, 여기서..

Product Analytics 2024.12.05