다중선형회귀 vs. 다변량 선형 회귀
Multivariate(General) Linear Regression vs. Multiple Linear Regression
1. 개요
선형 회귀(Linear Regression)는 머신러닝에서 가장 기본적인 모델 중 하나입니다. 그러나 선형 회귀에는 여러 가지 변형이 있으며, 특히 Multivariate Linear Regression(다변량 선형 회귀)과 Multiple Linear Regression(다중 선형 회귀)는 종종 혼동되는 개념입니다. 이 두 개념의 차이를 정확히 이해하면 적절한 모델을 선택하는 데 도움이 됩니다.
2. Multiple Linear Regression(다중 선형 회귀)
다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(y)에 대해 여러 개의 독립 변수(X1, X2, ..., Xn)가 영향을 미치는 회귀 모델입니다.
수식 표현
$$
y=β0+β1X1+β2X2+...+βnXn+εy = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \varepsilon
$$
여기서:
- $y$: 종속 변수 (Target Variable)
- $X1,X2,...,Xn$: 독립 변수 (Feature Variables)
- $\beta_0$: 절편 (Intercept)
- $\beta_1, \beta_2, ..., \beta_n$: 회귀 계수 (Regression Coefficients)
- $\varepsilon$: 오차항 (Error Term)
예제
만약 집값을 예측한다고 가정하면, 다음과 같은 독립 변수가 포함될 수 있습니다.
- $X_1$: 집의 크기 (m²)
- $X_2$: 방 개수
- $X_3$: 위치
이러한 경우, 하나의 집값(종속 변수)을 예측하기 위해 여러 개의 독립 변수를 사용하는 것이 다중 선형 회귀입니다.
3. Multivariate Linear Regression(다변량 선형 회귀)
다변량 선형 회귀(Multivariate Linear Regression)는 여러 개의 종속 변수(y1, y2, ..., ym)가 존재하는 회귀 모델입니다. 즉, 독립 변수들의 영향을 받는 다수의 종속 변수를 예측하는 경우를 의미합니다.
수식 표현
$$
\begin{bmatrix} y_1 \\ y_2 \\ ... \\ y_m \end{bmatrix} = \begin{bmatrix} \beta_{0,1} & \beta_{1,1} & ... & \beta_{n,1} \\ \beta_{0,2} & \beta_{1,2} & ... & \beta_{n,2} \\ ... & ... & ... & ... \\ \beta_{0,m} & \beta_{1,m} & ... & \beta_{n,m} \end{bmatrix} \begin{bmatrix} X_1 \\ X_2 \\ ... \\ X_n \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ ... \\ \varepsilon_m \end{bmatrix}
$$
여기서:
- $y_1, y_2, ..., y_m$: 여러 개의 종속 변수 (Multi Target Variables)
- : 독립 변수 (Feature $X1,X2,...,Xn$X_1, X_2, ..., X_n$Variables)
- $\beta$: 회귀 계수 (Regression Coefficients)
- $\varepsilon$: 오차항 (Error Term)
예제
만약 한 공장에서 생산되는 제품의 품질 지표(강도, 내구성, 색상)를 예측한다고 가정하면, 다음과 같은 독립 변수가 포함될 수 있습니다.
- $X_1$: 원재료의 비율
- $X_2$: 생산 온도
- $X_3$: 압력
그러면 종속 변수($y_1, y_2, y_3$)는 다음과 같이 설정될 수 있습니다.
- $y_1$: 제품의 강도
- $y_2$: 제품의 내구성
- $y_3$: 제품의 색상 일관성
이처럼 다변량 선형 회귀는 한 번의 모델링으로 여러 개의 종속 변수를 예측하는 것이 특징입니다.
4. 차이점 비교
구분 | Multiple Linear Regression (다중 선형 회귀) | Multivariate Linear Regression (다변량 선형 회귀) |
---|---|---|
종속 변수 | 하나의 종속 변수(y) | 여러 개의 종속 변수(y1, y2, ..., ym) |
독립 변수 | 여러 개 가능(X1, X2, ..., Xn) | 여러 개 가능(X1, X2, ..., Xn) |
예제 | 집값 예측 (집 크기, 방 개수, 위치) | 제품 품질 예측 (강도, 내구성, 색상) |
활용 분야 | 예측 모델링(단일 목표) | 다목적 예측 모델링 |
5. 언제 어떤 모델을 사용해야 할까?
사용 상황 | 추천 회귀 모델 |
---|---|
하나의 목표 변수(예: 집값)를 예측하려는 경우 | Multiple Linear Regression |
여러 개의 목표 변수(예: 제품의 강도, 내구성)를 동시에 예측하려는 경우 | Multivariate Linear Regression |
6. 결론
많은 사람들이 다중 선형 회귀(Multiple Linear Regression)와 다변량 선형 회귀(Multivariate Linear Regression)를 혼동하지만, 핵심적인 차이는 예측 대상이 하나인지, 여러 개인지입니다.
- 하나의 종속 변수를 예측하는 경우: 다중 선형 회귀
- 여러 개의 종속 변수를 예측하는 경우: 다변량 선형 회귀