본문 바로가기
728x90
반응형

ML7

분류 vs 회귀 모델 평가 지표 머신러닝 모델을 만들었는데,"정확도가 90%인데도 결과가 이상해요.""이 문제는 accuracy보다 recall이 중요하지 않나요?""roc_auc_score는 무슨 뜻이죠?"이런 질문들, 한 번쯤 들어보셨을 거예요.오늘은 머신러닝과 딥러닝 모델을 만들 때 반드시 알아야 하는모델 평가 지표(Metric)에 대해 제대로 정리해볼게요.특히 accuracy_score, roc_auc_score, r2_score, mean_squared_error 등각 지표가 분류(Classification)와 회귀(Regression) 중 어디에 쓰이는지를 중심으로 설명드릴게요.왜 평가 지표가 중요할까?우리는 모델을 학습시키고 난 뒤 반드시 평가해야 합니다.모델이 얼마나 잘 맞췄는지, 실제 상황에서 유용한지를 판단해야 하기 .. 2025. 4. 13.
원핫 인코딩(One-Hot Encoding) 원핫 인코딩(One-Hot Encoding)머신러닝이나 딥러닝을 공부하다 보면 자주 접하게 되는 개념 중 하나가 원핫 인코딩(One-Hot Encoding)입니다. 데이터 전처리 단계에서 범주형 데이터를 숫자로 바꿔야 할 때 유용하게 사용되죠. 이 글에서는 원핫 인코딩이 무엇인지, 왜 필요한지, 그리고 어떻게 디코딩하는지까지 한 번에 정리해드립니다.원핫 인코딩이란?원핫 인코딩(One-Hot Encoding)은 범주형 데이터를 이진 벡터(binary vector)로 표현하는 방법입니다.예를 들어, 다음과 같은 카테고리가 있다고 해봅시다:['사과', '바나나', '포도']이를 원핫 인코딩하면 아래와 같이 표현됩니다:과일원핫 벡터사과[1, 0, 0]바나나[0, 1, 0]포도[0, 0, 1]즉, 하나의 값만 1.. 2025. 4. 13.
머신러닝에서의 정규화(Regularization) 머신러닝에서의 정규화(Regularization)란?머신러닝 모델을 처음 접할 때는 데이터에 잘 맞는 모델을 만드는 것이 중요하다고 생각하기 쉽습니다.하지만 실제 문제에선 훈련 데이터에만 너무 잘 맞는 모델은 과적합(overfitting) 되기 쉽고,새로운 데이터에 대한 예측 성능이 떨어질 수 있습니다.이때 등장하는 핵심 개념이 바로 정규화(Regularization) 입니다.1. 정규화의 정의정규화(Regularization)는 머신러닝 모델이 너무 복잡해지는 것을 방지하고,과적합을 줄이기 위해 패널티를 추가하는 방법입니다.간단히 말하면, 모델이 너무 자유롭게 학습하지 않도록 일정한 제약을 거는 것입니다.2. 왜 정규화가 필요한가요?모델이 너무 복잡하면 훈련 데이터에는 잘 맞지만, 테스트 데이터에는 성.. 2025. 4. 9.
선형 회귀 모델의 데이터 변환 선형 회귀(Linear Regression)는 데이터 분석에서 가장 기본적이면서도 강력한 기법 중 하나입니다.하지만 현실의 데이터는 반드시 선형적인 형태를 가지지 않기 때문에, 단순한 선형 모델만으로는 적절한 예측이 어려울 수 있습니다.이때 유용하게 사용되는 것이 바로 데이터 변환(Data Transformation)입니다.이번 글에서는 선형 회귀에서 자주 사용되는 변환 기법들을 소개하고, 그 목적과 효과를 함께 알아보겠습니다.1. 왜 데이터를 변환할까?선형성을 만족시키기 위해회귀 모델은 입력 변수와 출력 변수 사이에 선형 관계가 있다고 가정합니다.실제 데이터가 이 가정을 만족하지 않으면 모델의 성능이 떨어집니다.이상치(Outlier)의 영향 최소화스케일이 크거나 이상치가 있는 데이터를 변환하면 안정적인.. 2025. 4. 7.
Bias-Variance Trade-off in python Bias-Variance Trade-off를 이해하는 파이썬 예제와 설명머신러닝 모델의 성능을 결정짓는 중요한 이론 중 하나가 바로 Bias-Variance Trade-off입니다. 이번 글에서는 이 개념을 직접 코드로 구현해보며, 시각적으로 어떻게 작동하는지 확인해보겠습니다.목표다양한 복잡도를 가진 모델이 편향과 분산에 어떤 영향을 미치는지 확인파이썬 코드 예제import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_err.. 2025. 4. 7.
다중 회귀(Multiple Regression)의 정규 방정식(Normal Equation) 다중 회귀(Multiple Regression)의 정규 방정식(Normal Equation)1. 다중 회귀란?다중 회귀(Multiple Regression)는 독립 변수(X)가 두 개 이상인 선형 회귀 모델을 의미합니다. 단순 선형 회귀(Simple Linear Regression)가 하나의 독립 변수만을 사용하는 것과 달리, 다중 회귀는 여러 개의 독립 변수를 활용하여 종속 변수(Y)를 예측합니다.수학적으로 다중 회귀 모델은 다음과 같이 표현됩니다:$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon$$여기서:$Y$ : 종속 변수 (Target Variable)$X_1, X_2, ..., X_n$ : 독립 변수 (Featu.. 2025. 3. 29.
다중선형회귀 vs. 다변량 선형 회귀 Multivariate(General) Linear Regression vs. Multiple Linear Regression1. 개요선형 회귀(Linear Regression)는 머신러닝에서 가장 기본적인 모델 중 하나입니다. 그러나 선형 회귀에는 여러 가지 변형이 있으며, 특히 Multivariate Linear Regression(다변량 선형 회귀)과 Multiple Linear Regression(다중 선형 회귀)는 종종 혼동되는 개념입니다. 이 두 개념의 차이를 정확히 이해하면 적절한 모델을 선택하는 데 도움이 됩니다.2. Multiple Linear Regression(다중 선형 회귀)다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(y)에 대해 여러 개의 .. 2025. 3. 29.
728x90
반응형