Product Analytics/Statistics 5

[Stat] 베이즈 정리를 위한 전확률 공식(formula of total probability)

베이즈 정리확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다.베이즈 정리는 불확실성 하에서 의사결정문제를 수학적으로 다룰 때 중요하게 이용된다. 특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다. 전통적인 확률이 연역적 추론에 기반을 두고 있다면 베이즈 정리는 확률임에도 귀납적, 경험적인 추론을 사용한다. (출처: https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC) 통계학에서 확률을 다룰 때 크게 두 가지의..

[Stat] '표본평균은 모평균과 같지 않다' 표본평균과 표본평균의 평균, 표준오차와 중심극한정리(CLT) 개념 파악하기

표본평균이 모평균이랑 같은 게 아니라표본평균의 평균이 모평균과 같은 것!어떤 집단에 대해 통계 분석을 진행한다고 가정해보자. 이때 해당 집단의 전체 구성원이 그리 많지 않다면 전수 조사를 진행할 수 있다. 전수 조사가 가능하다면 기술통계적으로 접근해 각종 통계량을 쉽게 도출해낼 수 있다. 그러나, 대한민국 전국민 5000만 명을 대상으로 통계조사를 진행한다고 가정한다면 얘기가 달라진다. 5000만 명을 일일이 전수 조사하는 것은 사실상 불가능에 가까울 뿐더러, 설사 감행한다고 하더라도 막대한 비용을 감수해야만 한다.(과거 인구주택총조사를 전수조사로 진행한 적은 있지만, 전국민을 대상으로 한 전수조사는 매우 이례적인 경우다) 이처럼 대한민국 전국민을 통계 조사를 통해 알고 싶은 '대상'이라고 가정했을 때,..

[Stat] 추측 통계학의 꽃 '가설 검정'(귀무가설, 대립가설)

어떻게 선택하더라도 우연의 일치에 의해 일어나는 효과를 모두 제거할 수는 없다, 로널드 A.피셔 귀무가설, 대립가설?가설검정(hypothesis test)은 처음 접할 땐 사고과정이 난해하여 통계학 중에서도 어렵다는 평가를 많이 받는 방식이다. 가설검정의 대략적인 방식은 다음과 같다. 먼저 가설을 세우고, 해당 가설이 옳다고 가정한 뒤 '확률적으로는 거의 일어나지 않을 일'이 일어나면 그 가설을 부정하고 반대의 가설을 채택한다. 즉, 가설 A가 올바르다고 가정했을 때, 확률적으로 아주 희귀한 일이 발생한다면 가설 A 자체가 잘못되었을 가능성이 크다는 것으로, 최초의 가설 A를 부정하고 그 대안으로 다른 가설 B를 채택한다는 원리다. 쉬운 예를 통해 이해해보자.동전 앞면이 나올지 뒷면이 나올지에 따라 돈을..

[Stat] 회귀모형 평가하기 - RMSE(평균 제곱근 오차)

입력변수가 하나일 땐 최소제곱법의 공식을 통해 기울기(a)와 회귀상수(b)를 구할 수 있지만, 입력변수가 여러 개일 때는 최소제곱법으로는 무리가 있다. 그리고 대부분의 데이터셋은 절대적으로 입력변수가 여러 개이다. 이런 경우, 오차를 가장 최소화하는 최적선을 그리기 위해 평균 제곱근 오차(Root mean square error)를 사용한다.  평균 제곱근 오차...이전에 오차는 뭐야?선형회귀에서의 가장 중요한 이슈는 결국 오차가 가장 최소화되는 가장 적합한 '예측선'을 찾는 것이다.여기서의 오차는 결국, '실제 값'과 '예측 값'의 차이를 말한다.운동 시간이 인풋(입력변수, 독립변수)인 x, 푸쉬업 개수가 우리가 예측해야 하는 종속변수, 결과변수인 y이다. 예측값은 y햇이다. 이게 y햇 오차는 y(실제..

[Stat] 선형회귀(linear regression), 최소제곱법

1. 선형회귀 (Linear regression)딥러닝의 가장 기본이 되는 Linear regression은 쉽게 말해 '예측선 긋기'입니다. 예를 하나 들자면, 운동 연습시간에 따라 할 수 있는 푸쉬업 개수가 다르다. 라는 문장이 있다고 해봅시다. 이 경우, 운동 연습시간은 독립변수 x이고 푸쉬업 개수는 종속변수 y입니다. 종속변수 y는 독립변수 x에 따라서 종속적으로 변하는 (자유롭지 못한) 변수를 의미하는데, 선형회귀는 독립변수를 이용하여 종속변수의 움직임을 예측하는 방법 중 하나입니다.독립변수가 하나일 경우 단순선형회귀(simple linear regression), 여러 개일 경우 다중선형회귀(multiple linear regression)이라 합니다. "운동 연습시간에 따라 할 수 있는 푸쉬..