본문 바로가기
728x90
반응형

Machine Learning5

선형 회귀 모델의 데이터 변환 선형 회귀(Linear Regression)는 데이터 분석에서 가장 기본적이면서도 강력한 기법 중 하나입니다.하지만 현실의 데이터는 반드시 선형적인 형태를 가지지 않기 때문에, 단순한 선형 모델만으로는 적절한 예측이 어려울 수 있습니다.이때 유용하게 사용되는 것이 바로 데이터 변환(Data Transformation)입니다.이번 글에서는 선형 회귀에서 자주 사용되는 변환 기법들을 소개하고, 그 목적과 효과를 함께 알아보겠습니다.1. 왜 데이터를 변환할까?선형성을 만족시키기 위해회귀 모델은 입력 변수와 출력 변수 사이에 선형 관계가 있다고 가정합니다.실제 데이터가 이 가정을 만족하지 않으면 모델의 성능이 떨어집니다.이상치(Outlier)의 영향 최소화스케일이 크거나 이상치가 있는 데이터를 변환하면 안정적인.. 2025. 4. 7.
다중선형회귀 vs. 다변량 선형 회귀 Multivariate(General) Linear Regression vs. Multiple Linear Regression1. 개요선형 회귀(Linear Regression)는 머신러닝에서 가장 기본적인 모델 중 하나입니다. 그러나 선형 회귀에는 여러 가지 변형이 있으며, 특히 Multivariate Linear Regression(다변량 선형 회귀)과 Multiple Linear Regression(다중 선형 회귀)는 종종 혼동되는 개념입니다. 이 두 개념의 차이를 정확히 이해하면 적절한 모델을 선택하는 데 도움이 됩니다.2. Multiple Linear Regression(다중 선형 회귀)다중 선형 회귀(Multiple Linear Regression)는 하나의 종속 변수(y)에 대해 여러 개의 .. 2025. 3. 29.
cross_val_score란? cross_val_score란?cross_val_score는 사이킷런(scikit-learn)에서 제공하는 함수로, 교차 검증(Cross Validation)을 수행하여 모델의 성능을 평가하는 데 사용됩니다. 데이터를 여러 개의 폴드(fold)로 나누고, 각 폴드를 한 번씩 검증 데이터로 사용하면서 모델을 훈련하고 평가하는 방식입니다.1. cross_val_score의 동작 방식교차 검증은 데이터셋을 K개의 폴드로 나누고, 각 폴드를 한 번씩 검증 데이터로 사용하며 K번 훈련 및 평가를 반복하는 방식입니다. 이를 통해 모델이 특정 데이터에 과적합(overfitting)되는 것을 방지하고 일반화 성능을 향상시킬 수 있습니다.주요 과정:데이터를 K개의 폴드로 나눕니다.K-1개의 폴드로 모델을 학습합니다.남은.. 2025. 3. 29.
확률적 경사 하강법 (SGD, Stochastic Gradient Descent) 확률적 경사 하강법 (SGD, Stochastic Gradient Descent)머신러닝과 딥러닝에서 가장 중요한 최적화 알고리즘 중 하나인 확률적 경사 하강법(SGD, Stochastic Gradient Descent)에 대해 알아보겠습니다.1. 경사 하강법(Gradient Descent)이란?경사 하강법(Gradient Descent, GD)은 손실 함수(Loss Function)를 최소화하기 위해 파라미터를 조정하는 최적화 기법입니다. 보통 머신러닝 모델이 학습할 때, 손실(loss)을 줄이는 방향으로 가중치(weight)를 업데이트하는 방식으로 사용됩니다.2. 확률적 경사 하강법(SGD)란?SGD는 경사 하강법의 한 변형으로, 전체 데이터셋을 사용하지 않고 랜덤하게 선택한 하나의 데이터 포인트(샘.. 2025. 3. 27.
선형 회귀(Linear Regression) 선형 회귀 분석데이터 과학과 통계학에서 가장 기본적이면서도 널리 사용되는 분석 기법 중 하나가 바로 선형 회귀 (Linear Regression)입니다. 선형 회귀는 하나 이상의 독립 변수와 종속 변수 간의 선형적인 관계를 모델링하여, 독립 변수의 변화에 따른 종속 변수의 변화를 예측하거나 설명하는 데 사용됩니다.선형 회귀란 무엇일까요?선형 회귀는 주어진 데이터에서 독립 변수(feature 또는 explanatory variable)와 종속 변수(target 또는 response variable) 사이의 관계를 가장 잘 나타내는 직선을 찾는 것을 목표로 합니다 . 간단히 말해, 두 변수가 얼마나 강하게, 그리고 어떤 방향으로 관련되어 있는지 파악하고, 이를 바탕으로 예측을 수행하는 통계적 방법입니다.단순.. 2025. 3. 27.
728x90
반응형