1. 선형회귀 (Linear regression)
딥러닝의 가장 기본이 되는 Linear regression은 쉽게 말해 '예측선 긋기'입니다. 예를 하나 들자면,
운동 연습시간에 따라 할 수 있는 푸쉬업 개수가 다르다.
라는 문장이 있다고 해봅시다. 이 경우, 운동 연습시간은 독립변수 x이고 푸쉬업 개수는 종속변수 y입니다. 종속변수 y는 독립변수 x에 따라서 종속적으로 변하는 (자유롭지 못한) 변수를 의미하는데, 선형회귀는 독립변수를 이용하여 종속변수의 움직임을 예측하는 방법 중 하나입니다.
독립변수가 하나일 경우 단순선형회귀(simple linear regression), 여러 개일 경우 다중선형회귀(multiple linear regression)이라 합니다.
"운동 연습시간에 따라 할 수 있는 푸쉬업 개수가 다르다"라는 문장에서 독립변수는 하나이므로 단순선형회귀입니다. (물론, 푸쉬업 개수에 영향을 미치는 변수는 정말 다양하겠지만 여기에선 연습시간이라는 변수 하나만을 고려함)
그렇다면 위 문장을 간단하게 표로 나타내보겠습니다.
운동 시간
|
2시간
|
3시간
|
4시간
|
5시간
|
푸쉬업 개수
|
40개
|
50개
|
48개
|
55개
|
x = {2, 3, 4, 5}
y = {40, 50, 48, 55}
이를 좌표평면에 표현하면
선형회귀에서의 선은 중학교 때 배운 일차함수의 그래프입니다. 선형회귀는 결국 a와 b의 가장 최적의 값을 찾아내는 과정인데, 최적의 a와 b를 찾아낸다면 데이터로 주어지지 않은 내용도 예측할 확률이 높아지므로 최대한 정확한 직선을 찾아내는게 중요합니다.
2. 최소제곱법 (Method of least squares)
최소제곱법을 통해 기울기 a와 y절편 b를 바로 구할 수 있습니다.
공식을 이용해 위의 표에 주어진 데이터로 기울기 a와 y절편 b를 구하면
a = 4.3, b = 33.2
따라서,
운동 시간
|
2시간
|
3시간
|
4시간
|
5시간
|
푸쉬업 개수
|
40개
|
50개
|
48개
|
55개
|
예측 값
|
41.8개
|
46.1개
|
50.4
|
54.7
|
파란 점이 실제 데이터이고, 주황색 점이 최소제곱법으로 도출해낸 직선의 방정식에 독립변수 x를 넣어 얻은 종속변수 y(예측값)입니다. 저 주황색 점들을 연결하면, '예측 직선'을 얻을 수 있습니다.
선형회귀는 일차함수 개념만 알면 어렵지 않은터라 쉬운 개념이지만, 딥러닝의 가장 근간이 되는 개념이기에 매우 중요합니다.
다음에는 평균제곱근오차(RMSE)에 대해서 알아보겠습니다.
'Product Analytics' 카테고리의 다른 글
[Stat] 추측 통계학의 꽃 '가설 검정'(귀무가설, 대립가설) (0) | 2024.12.24 |
---|---|
[Stat] 회귀모형 평가하기 - RMSE(평균 제곱근 오차) (0) | 2024.12.24 |
AB test 설계 시 주의사항: MDE, 검정력, 표본 크기 등 (0) | 2024.12.05 |
통계적 유의성 검정이 절대적이지 않은 이유 : 통계적 유의성과 실무적 유의성 (0) | 2024.12.05 |
[AB 테스트] 실험의 순수 효과 측정 방법 - 이중차분법 (1) | 2024.12.05 |