본문 바로가기
개발자와 프로그래밍

[파이썬][pandas] 한글이 포함되어 있는 CSV, 엑셀 파일 읽어오기

디지털노마드 2023. 4. 4.
반응형

파이썬 pandas 를 공부하기 위해서 가장 먼저 해야 하는 일이

준비된 엑셀파일 또는 csv 파일을 읽어오는 것이다. 

 

아래와 같이 기본적인 방법으로 파일을 읽어 올 수 있다. 

 

col = ['날자', '이름', '과목', '성적', '최고점수']  # 컬럼명
df = pd.read_csv(파일이름, encoding='ANSI', header=5, names=col, index_col='날자', parse_dates=True)

 

pd.read_csv()

 

pandas 를 시작하기 위해 excel 파일(csv파일) 을 읽어와서 dataframe 으로 만드는 함수이다. 

 

위에서 사용한 몇가지 옵션을 확인해보자.

 

encoding = 'ANSI'

 

먼저  라는 옵션은 ANSI 형식으로 된 한글을 읽어 오는 기능을 한다.

엑셀 파일에 한글이 있으면 여러가지 방법으로 읽어 올 수 있는데, 

읽는 방법 중에 하나이다. 

 

header = 5

 

실제 엑셀 파일을 보면 위쪽에 데이터가 시작되지 않고

파일 제목이라던지 사용하지 않는 정보가 포함 되어 있는 경우가 있다. 

이때 header 옵션을 적어주면 여기 적힌 숫자의 행, 즉 5번째 행부터 데이터를 가져온다. 

 

names = col

 

pandas 에서 사용하는 data frame 의 위쪽에 있는 columns 의 이름을 정해주는 기능이다. 

names 를 생략하면 기존에 엑셀에서 사용하던 이름을 그대로 사용한다.

위처럼 names 옵션을 사용하면 새로운 columns 의 이름으로 재구성 할 수 있다. 

col 에는 list 를 사용한다. 

 

index_col = '이름'

 

index 의 이름(column) 을 정하는 옵션이다. 여기서는 이름을 index 로 사용하기 위해 옵션을 사용했다 

 

parse_dates = True

 

index 로 사용하는 '날자' 를 시간 데이터로 파싱하는 기능을 한다.

시간 데이터로 파싱을 하면 이후에 '2000-6' 은 모든 6월을 가리킬 수 있고, 

'2000-01-01' : '2001-01-01' 같은 방법으로 날자 슬라이싱도 가능해진다. 

 

반응형

댓글