본문 바로가기
728x90
반응형

전체 글112

선형 회귀 모델의 데이터 변환 선형 회귀(Linear Regression)는 데이터 분석에서 가장 기본적이면서도 강력한 기법 중 하나입니다.하지만 현실의 데이터는 반드시 선형적인 형태를 가지지 않기 때문에, 단순한 선형 모델만으로는 적절한 예측이 어려울 수 있습니다.이때 유용하게 사용되는 것이 바로 데이터 변환(Data Transformation)입니다.이번 글에서는 선형 회귀에서 자주 사용되는 변환 기법들을 소개하고, 그 목적과 효과를 함께 알아보겠습니다.1. 왜 데이터를 변환할까?선형성을 만족시키기 위해회귀 모델은 입력 변수와 출력 변수 사이에 선형 관계가 있다고 가정합니다.실제 데이터가 이 가정을 만족하지 않으면 모델의 성능이 떨어집니다.이상치(Outlier)의 영향 최소화스케일이 크거나 이상치가 있는 데이터를 변환하면 안정적인.. 2025. 4. 7.
분산(Variance) 분산이 큰지 아닌지를 어떻게 확인하지?데이터 분석이나 머신러닝을 하다 보면 자주 듣는 말 중 하나가 "이 데이터의 분산이 크다"는 표현입니다.그런데 막상 실무나 공부를 하다 보면, "분산이 크다"는 게 정확히 어떤 의미인지 헷갈릴 수 있습니다.이 글에서는 "분산이 크다는 게 뭘까?", "어떻게 확인하지?"에 대해 차근차근 알아보겠습니다.분산이란?분산(Variance)은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 수치로 표현한 값입니다.수식적으로는:$$\text{분산} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$$$x_i$ : 각 데이터 값$\bar{x}$ : 평균분산이 크다는 것은 → 데이터가 평균에서 많이 떨어져 흩어져 있다는 뜻입니다.분산이 큰지 확인하는 .. 2025. 4. 7.
Bias-Variance Trade-off in python Bias-Variance Trade-off를 이해하는 파이썬 예제와 설명머신러닝 모델의 성능을 결정짓는 중요한 이론 중 하나가 바로 Bias-Variance Trade-off입니다. 이번 글에서는 이 개념을 직접 코드로 구현해보며, 시각적으로 어떻게 작동하는지 확인해보겠습니다.목표다양한 복잡도를 가진 모델이 편향과 분산에 어떤 영향을 미치는지 확인파이썬 코드 예제import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_err.. 2025. 4. 7.
Bias-Variance Trade-off Bias-Variance Trade-off: 머신러닝 모델의 핵심 균형머신러닝에서 중요한 목표는 모델이 주어진 데이터에 잘 맞으면서도 새로운 데이터에도 잘 작동하도록 만드는 것입니다.이때 꼭 알아야 하는 개념이 바로 Bias-Variance Trade-off (편향-분산 균형)입니다.Bias(편향)란?편향은 모델이 데이터의 실제 패턴을 얼마나 잘 포착하지 못하는지를 나타냅니다.편향이 높으면 모델은 지나치게 단순하며 복잡한 관계를 무시합니다.이 경우 과소적합(Underfitting)이 발생해 예측력이 떨어집니다.예: 복잡한 곡선을 단순한 직선으로 예측하려는 경우Variance(분산)란?분산은 모델이 훈련 데이터에 얼마나 민감한지를 나타냅니다.분산이 높으면 모델은 데이터의 작은 변화에도 반응합니다.이로 인해.. 2025. 4. 7.
생각과 실천에 대한 명언 생각과 실천에 대한 명언: 마음을 흔드는 한 마디살다 보면 머릿속에는 참 많은 생각이 떠오릅니다.“이걸 해볼까?” “저건 꼭 해야지.”하지만 머릿속에서 맴도는 생각이 행동으로 이어지는 일은 생각보다 드뭅니다.오늘은 생각과 실천의 간극에 대해,그리고 그 사이에서 나를 다시 일으켜 세울 수 있는 명언들**을 모아봤습니다.생각과 실천의 차이를 알려주는 명언들1. “Thinking is easy, acting is difficult.”— Johann Wolfgang von Goethe생각은 쉽지만, 행동은 어렵습니다.실천은 에너지와 용기를 필요로 하니까요.하지만 행동 없이 변화도 없죠.2. “You don’t have to be great to start, but you have to start to be gr.. 2025. 4. 7.
생각은 쉽고, 실천은 어렵다 생각은 쉽고, 실천은 어렵다: 그 사이의 간극에 대하여살다 보면 누구나 한 번쯤은 이런 생각을 합니다."운동 좀 해야겠다.""이 책 꼭 읽어봐야지.""나도 블로그 써야 하는데..."머릿속에서는 수십 번 다짐하고, 계획하고, 심지어 마음속으로는 이미 실행까지 다 해놓은 느낌인데—막상 행동에 옮기려 하면 왜 이렇게 어려운 걸까요?생각은 논리이고, 실천은 습관이다'생각'은 말 그대로 머릿속 활동입니다.정리되어 있고, 논리적이고, 때로는 아주 완벽해 보이죠.반면 '실천'은 몸을 움직이고 시간과 에너지를 들이는 일입니다.거기에는 감정도, 날씨도, 피로도도 섞여 들어옵니다.생각은 한 줄이면 되지만실천은 하루하루 쌓아야 합니다.이 간극은 단순한 의지력 문제라기보다, 두 시스템의 속도 차이라고 볼 수 있어요.머리는 미.. 2025. 4. 7.
다중 회귀(Multiple Regression)의 정규 방정식(Normal Equation) 다중 회귀(Multiple Regression)의 정규 방정식(Normal Equation)1. 다중 회귀란?다중 회귀(Multiple Regression)는 독립 변수(X)가 두 개 이상인 선형 회귀 모델을 의미합니다. 단순 선형 회귀(Simple Linear Regression)가 하나의 독립 변수만을 사용하는 것과 달리, 다중 회귀는 여러 개의 독립 변수를 활용하여 종속 변수(Y)를 예측합니다.수학적으로 다중 회귀 모델은 다음과 같이 표현됩니다:$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon$$여기서:$Y$ : 종속 변수 (Target Variable)$X_1, X_2, ..., X_n$ : 독립 변수 (Featu.. 2025. 3. 29.
다중선형회귀 vs. 다변량 선형 회귀 Multivariate(General) Linear Regression vs. Multiple Linear Regression1. 개요선형 회귀(Linear Regression)는 머신러닝에서 가장 기본적인 모델 중 하나입니다. 그러나 선형 회귀에는 여러 가지 변형이 있으며, 특히 Multivariate Linear Regression(다변량 선형 회귀)과 Multiple Linear Regression(다중 선형 회귀)는 종종 혼동되는 개념입니다. 이 두 개념의 차이를 정확히 이해하면 적절한 모델을 선택하는 데 도움이 됩니다.2. Multiple Linear Regression(다중 선형 회귀)다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(y)에 대해 여러 개의 .. 2025. 3. 29.
cross_val_score란? cross_val_score란?cross_val_score는 사이킷런(scikit-learn)에서 제공하는 함수로, 교차 검증(Cross Validation)을 수행하여 모델의 성능을 평가하는 데 사용됩니다. 데이터를 여러 개의 폴드(fold)로 나누고, 각 폴드를 한 번씩 검증 데이터로 사용하면서 모델을 훈련하고 평가하는 방식입니다.1. cross_val_score의 동작 방식교차 검증은 데이터셋을 K개의 폴드로 나누고, 각 폴드를 한 번씩 검증 데이터로 사용하며 K번 훈련 및 평가를 반복하는 방식입니다. 이를 통해 모델이 특정 데이터에 과적합(overfitting)되는 것을 방지하고 일반화 성능을 향상시킬 수 있습니다.주요 과정:데이터를 K개의 폴드로 나눕니다.K-1개의 폴드로 모델을 학습합니다.남은.. 2025. 3. 29.
728x90
반응형