본문 바로가기
728x90
반응형

python29

[Pandas] Join Pandas Join: 데이터프레임 합치기의 모든 것파이썬을 사용해 데이터 분석을 하다 보면, 두 개 이상의 데이터프레임(DataFrame)을 합쳐야 할 때가 많습니다. 이럴 때 매우 유용하게 사용할 수 있는 기능이 바로 Pandas의 join() 입니다. 이번 글에서는 pandas join에 대해 개념부터 사용법, 다양한 예시까지 최대한 자세히 설명해보겠습니다.Pandas Join이란?join()은 두 개의 데이터프레임을 특정 컬럼(또는 인덱스)을 기준으로 병합(Merge) 하는 기능입니다. 기본적으로 SQL의 JOIN과 비슷한 동작을 하며, 다양한 유형의 조인(inner, left, right, outer)을 지원합니다.join() 메서드는 주로 인덱스를 기준으로 데이터를 합치기 때문에, 컬럼을 기준.. 2025. 4. 20.
[Pandas] MultiIndex Pandas는 강력한 데이터 분석 도구로 잘 알려져 있으며, 그 중에서도 MultiIndex는 복잡한 데이터 구조를 깔끔하게 표현할 수 있는 기능입니다.이 포스트에서는 Pandas MultiIndex의 개념부터 생성, 활용, 주의사항까지 한 번에 정리해드립니다. 데이터 분석에 있어 꼭 알아야 할 핵심 기능이에요!1. MultiIndex란?MultiIndex는 Pandas에서 2단계 이상의 인덱스를 갖는 계층형 인덱스 구조입니다.엑셀에서 피벗 테이블을 만들면 생기는 다단계 열 구조를 떠올리면 이해가 쉬워요.예를 들어, 아래처럼 회사명과 연도를 인덱스로 가진 데이터를 생각해볼 수 있습니다.CompanyYearSalesA2020100A2021110B2020200B2021210이 데이터를 MultiIndex로 .. 2025. 4. 16.
원핫 인코딩(One-Hot Encoding) 원핫 인코딩(One-Hot Encoding)머신러닝이나 딥러닝을 공부하다 보면 자주 접하게 되는 개념 중 하나가 원핫 인코딩(One-Hot Encoding)입니다. 데이터 전처리 단계에서 범주형 데이터를 숫자로 바꿔야 할 때 유용하게 사용되죠. 이 글에서는 원핫 인코딩이 무엇인지, 왜 필요한지, 그리고 어떻게 디코딩하는지까지 한 번에 정리해드립니다.원핫 인코딩이란?원핫 인코딩(One-Hot Encoding)은 범주형 데이터를 이진 벡터(binary vector)로 표현하는 방법입니다.예를 들어, 다음과 같은 카테고리가 있다고 해봅시다:['사과', '바나나', '포도']이를 원핫 인코딩하면 아래와 같이 표현됩니다:과일원핫 벡터사과[1, 0, 0]바나나[0, 1, 0]포도[0, 0, 1]즉, 하나의 값만 1.. 2025. 4. 13.
분산(Variance) 분산이 큰지 아닌지를 어떻게 확인하지?데이터 분석이나 머신러닝을 하다 보면 자주 듣는 말 중 하나가 "이 데이터의 분산이 크다"는 표현입니다.그런데 막상 실무나 공부를 하다 보면, "분산이 크다"는 게 정확히 어떤 의미인지 헷갈릴 수 있습니다.이 글에서는 "분산이 크다는 게 뭘까?", "어떻게 확인하지?"에 대해 차근차근 알아보겠습니다.분산이란?분산(Variance)은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 수치로 표현한 값입니다.수식적으로는:$$\text{분산} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$$$x_i$ : 각 데이터 값$\bar{x}$ : 평균분산이 크다는 것은 → 데이터가 평균에서 많이 떨어져 흩어져 있다는 뜻입니다.분산이 큰지 확인하는 .. 2025. 4. 7.
Bias-Variance Trade-off in python Bias-Variance Trade-off를 이해하는 파이썬 예제와 설명머신러닝 모델의 성능을 결정짓는 중요한 이론 중 하나가 바로 Bias-Variance Trade-off입니다. 이번 글에서는 이 개념을 직접 코드로 구현해보며, 시각적으로 어떻게 작동하는지 확인해보겠습니다.목표다양한 복잡도를 가진 모델이 편향과 분산에 어떤 영향을 미치는지 확인파이썬 코드 예제import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_err.. 2025. 4. 7.
Python 축(axis) Python에서 axis란?Python의 axis 개념은 주로 NumPy와 pandas 같은 라이브러리에서 다차원 배열을 다룰 때 중요하게 사용됩니다. 데이터 분석과 머신러닝을 할 때, axis를 올바르게 이해하면 연산을 보다 효율적으로 수행할 수 있습니다.1. axis(축)의 개념axis는 다차원 배열에서 연산을 수행할 방향을 결정하는 기준입니다.axis=0: 행을 따라 연산 (세로 방향)axis=1: 열을 따라 연산 (가로 방향)이를 더 쉽게 이해하기 위해, 2차원 배열(행렬)을 예로 들어 보겠습니다.import numpy as np# 3x3 행렬 생성arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])print.. 2025. 3. 28.
파이썬(Python) 텐서(Tensor)란? Tensor는 다차원 배열로, 수치 데이터를 저장하고 다루는 데 사용됩니다. Tensor는 보통 벡터, 행렬, n차원 배열 등의 형태를 가지며, 데이터의 종류에 따라 다양한 유형이 존재합니다. 예를 들어, 이미지 데이터는 3차원 Tensor로 표현할 수 있으며, 각 차원은 가로, 세로, 색상 채널을 나타냅니다. Tensor를 생성해보자 Tensor를 생성하기 위해서는 먼저 파이썬에서 텐서플로우(TensorFlow) 또는 파이토치(PyTorch)와 같은 라이브러리를 설치해야 합니다. 이 글에서는 텐서플로우를 사용하여 Tensor를 생성하는 방법을 알아보겠습니다. import tensorflow as tf # 스칼라 Tensor scalar = tf.constant(1) # 1D Tensor vector =.. 2023. 3. 1.
파이썬(Python) 예외처리(Exception) Python에서 예외는 Exception 클래스의 서브클래스로 정의됩니다. 예외는 코드 실행 중에 발생할 수 있는 예기치 않은 상황을 의미하며, 예기치 않은 상황이 아니고도 정상적인 코드 실행 과정에서 발생할 수도 있습니다. 예외 처리는 try과 except문을 사용합니다. try문 안에는 예외가 발생할 수 있는 코드를 작성합니다. except문 안에는 예외가 발생했을 때 처리할 코드를 작성합니다. 예외 처리의 예: try: 예외가 발생할 수 있는 코드 except 예외타입1: 예외타입1이 발생했을 때 실행할 코드 except 예외타입2: 예외타입2가 발생했을 때 실행할 코드 except: 예외가 발생했을 때 실행할 코드 else: 예외가 발생하지 않았을 때 실행할 코드 finally: 예외 발생 여부와.. 2023. 1. 1.
파이썬(Python) Pandas Series, Dataframe index #2 Pandas에서 인덱싱은 데이터프레임에서 특정 행과 열을 선택하는 것을 의미합니다. 인덱싱은 기본적으로 정수 인덱스를 사용하지만, 문자열 인덱스도 사용할 수 있습니다. Pandas에서 인덱싱을 할 때 사용할 수 있는 방법은 다음과 같습니다. [] 연산자를 사용한 인덱싱: df['column_name'] 또는 df[column_name]을 사용하여 특정 열을 선택할 수 있습니다. 여러 개의 열을 선택할 경우 대괄호 안에 리스트 형태로 열 이름을 전달할 수 있습니다. 예를 들어, df[['col1', 'col2']]은 col1과 col2 열을 포함하는 데이터프레임을 반환합니다. 인덱싱으로 행을 선택할 경우에는 정수 인덱스를 사용합니다. 예를 들어, df[0]은 첫 번째 행을 선택합니다. loc[] 속성을 사.. 2022. 12. 30.
728x90
반응형