본문 바로가기
728x90
반응형

pandas8

[Pandas] Join Pandas Join: 데이터프레임 합치기의 모든 것파이썬을 사용해 데이터 분석을 하다 보면, 두 개 이상의 데이터프레임(DataFrame)을 합쳐야 할 때가 많습니다. 이럴 때 매우 유용하게 사용할 수 있는 기능이 바로 Pandas의 join() 입니다. 이번 글에서는 pandas join에 대해 개념부터 사용법, 다양한 예시까지 최대한 자세히 설명해보겠습니다.Pandas Join이란?join()은 두 개의 데이터프레임을 특정 컬럼(또는 인덱스)을 기준으로 병합(Merge) 하는 기능입니다. 기본적으로 SQL의 JOIN과 비슷한 동작을 하며, 다양한 유형의 조인(inner, left, right, outer)을 지원합니다.join() 메서드는 주로 인덱스를 기준으로 데이터를 합치기 때문에, 컬럼을 기준.. 2025. 4. 20.
[Pandas] MultiIndex Pandas는 강력한 데이터 분석 도구로 잘 알려져 있으며, 그 중에서도 MultiIndex는 복잡한 데이터 구조를 깔끔하게 표현할 수 있는 기능입니다.이 포스트에서는 Pandas MultiIndex의 개념부터 생성, 활용, 주의사항까지 한 번에 정리해드립니다. 데이터 분석에 있어 꼭 알아야 할 핵심 기능이에요!1. MultiIndex란?MultiIndex는 Pandas에서 2단계 이상의 인덱스를 갖는 계층형 인덱스 구조입니다.엑셀에서 피벗 테이블을 만들면 생기는 다단계 열 구조를 떠올리면 이해가 쉬워요.예를 들어, 아래처럼 회사명과 연도를 인덱스로 가진 데이터를 생각해볼 수 있습니다.CompanyYearSalesA2020100A2021110B2020200B2021210이 데이터를 MultiIndex로 .. 2025. 4. 16.
파이썬(Python) Pandas Series, Dataframe 관계 Pandas Series와 Pandas DataFrame은 서로 연관이 있는 자료구조입니다. Pandas Series는 하나의 컬럼을 갖는 구조이고, Pandas DataFrame은 여러 개의 컬럼을 갖는 구조입니다. Pandas Series는 색인과 값으로 이루어져 있습니다. 색인은 각 요소를 식별하는 고유한 값이고, 값은 실제 저장할 데이터가 저장되는 공간입니다. Pandas DataFrame은 색인과 컬럼으로 이루어져 있습니다. Pandas DataFrame은 색인과 컬럼으로 이루어져 있습니다. 색인은 각 행을 식별하는 고유한 값이고, 컬럼은 각 요소를 식별하는 고유한 값이고, 각 컬럼은 하나의 Pandas Series로 구성됩니다. 아래의 코드는 Pandas DataFrame을 생성하는 예입니다... 2022. 12. 30.
파이썬(Python) Pandas Series 산술, 논리 연산 Pandas Series는 다양한 연산을 지원합니다. 이들 연산은 요소별로 수행되며, 색인이 같은 요소끼리 연산이 수행됩니다. 이들 연산은 산술 연산, 비교 연산, 논리 연산, 집계 연산 등이 있습니다. 산술 연산은 기본적인 산술 연산(+, -, *, /)과 지수 연산(**)을 지원합니다. 아래의 코드는 Pandas Series의 산술 연산을 수행하는 예입니다. import pandas as pd s1 = pd.Series([1, 3, 5, np.nan, 6, 8], index=['a', 'b', 'c', 'd', 'e', 'f']) s2 = pd.Series([2, 4, 6, 8, 10, 12], index=['a', 'b', 'c', 'd', 'e', 'f']) # 산술 연산 print(s1 + s2.. 2022. 12. 30.
파이썬(Python) Pandas Series, Dataframe index #1 Pandas Series는 색인(index)를 이용해서 각 요소에 접근할 수 있습니다. 색인은 문자열 값이나 정수 값을 사용할 수 있으며, 정수 값을 이용한 색인은 NumPy 배열과 유사합니다. 아래의 코드는 Pandas Series의 색인을 이용해서 각 요소에 접근하는 예입니다. import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8], index=['a', 'b', 'c', 'd', 'e', 'f']) # 색인을 이용한 인덱싱 print(s['a']) # 1.0 print(s[0]) # 1.0 # 슬라이싱을 이용한 인덱싱 print(s['a':'c']) # a 1.0 # b 3.0 # c 5.0 # dtype: float64 print(s[0:3]) # .. 2022. 12. 30.
파이썬(Python) Pandas Dataframe 행, 열 삭제(drop) drop Dataframe의 행이나 열을 삭제할때는 drop명령어를 사용한다. Dataframe 생성 코드 d1={'a':1, 'b':2, 'c':3, 'd':4, 'e':5, 'f':6} d2={'a':7, 'b':8, 'c':9, 'd':10, 'e':11, 'f':12} s1 = pd.Series(d1) s2 = pd.Series(d2) df = pd.DataFrame({'d1': d1, 'd2':d2}) print(df) 출력 d1 d2 a 1 7 b 2 8 c 3 9 d 4 10 e 5 11 f 6.. 2022. 8. 6.
파이썬(Python) Pandas Dataframe Dataframe Dataframe은 파이썬 Pandas의 자료 구조 중 하나이다. 다수의 Series를 하나의 Dataframe에서 관리할 수 있다. 코드 d1={'a':1, 'b':2, 'c':3, 'd':4, 'e':5, 'f':6} d2={'a':7, 'b':8, 'c':9, 'd':10, 'e':11, 'f':12} s1 = pd.Series(d1) s2 = pd.Series(d2) df = pd.DataFrame({'d1': d1, 'd2':d2}) print(df) 출력 d1 d2 a 1 7 b.. 2022. 8. 3.
파이썬(Python) Pandas Series Series Series는 파이썬 Pandas의 자료 구조 중 하나이다. 코드 import pandas as pd import numpy as np pd.__version__ #Pandas version 확인 s = pd.Series([0, 1, 2, 3, 4, 5]) print(s) 현재 사용중인 Pandas 의 버전은 version 명령으로 확인 가능하다. Series를 만든 후 print 명령을 통해 내용을 출력할 수 있다. 출력 0 0 1 1 2 2 3 3 4 4 5 5 dtype: int64 만약 인덱스를 직접 지정하고 싶은 경우 아래 처럼 index를 지정할 수 있다. 코드 import pandas as pd import numpy as np pd.__version__ #Pandas versi.. 2022. 8. 3.
728x90
반응형