파이썬 pandas 를 공부하기 위해서 가장 먼저 해야 하는 일이
준비된 엑셀파일 또는 csv 파일을 읽어오는 것이다.
아래와 같이 기본적인 방법으로 파일을 읽어 올 수 있다.
col = ['날자', '이름', '과목', '성적', '최고점수'] # 컬럼명
df = pd.read_csv(파일이름, encoding='ANSI', header=5, names=col, index_col='날자', parse_dates=True)
pd.read_csv()
pandas 를 시작하기 위해 excel 파일(csv파일) 을 읽어와서 dataframe 으로 만드는 함수이다.
위에서 사용한 몇가지 옵션을 확인해보자.
encoding = 'ANSI'
먼저 라는 옵션은 ANSI 형식으로 된 한글을 읽어 오는 기능을 한다.
엑셀 파일에 한글이 있으면 여러가지 방법으로 읽어 올 수 있는데,
읽는 방법 중에 하나이다.
header = 5
실제 엑셀 파일을 보면 위쪽에 데이터가 시작되지 않고
파일 제목이라던지 사용하지 않는 정보가 포함 되어 있는 경우가 있다.
이때 header 옵션을 적어주면 여기 적힌 숫자의 행, 즉 5번째 행부터 데이터를 가져온다.
names = col
pandas 에서 사용하는 data frame 의 위쪽에 있는 columns 의 이름을 정해주는 기능이다.
names 를 생략하면 기존에 엑셀에서 사용하던 이름을 그대로 사용한다.
위처럼 names 옵션을 사용하면 새로운 columns 의 이름으로 재구성 할 수 있다.
col 에는 list 를 사용한다.
index_col = '이름'
index 의 이름(column) 을 정하는 옵션이다. 여기서는 이름을 index 로 사용하기 위해 옵션을 사용했다
parse_dates = True
index 로 사용하는 '날자' 를 시간 데이터로 파싱하는 기능을 한다.
시간 데이터로 파싱을 하면 이후에 '2000-6' 은 모든 6월을 가리킬 수 있고,
'2000-01-01' : '2001-01-01' 같은 방법으로 날자 슬라이싱도 가능해진다.
'개발자와 프로그래밍' 카테고리의 다른 글
많은 그림파일을 한번에 회전하는 방법 (0) | 2024.02.05 |
---|---|
구글 스프레드 시트와 엑셀의 비교 (학교교육의 입장에서) (0) | 2023.11.17 |
chatgpt 의 등장으로 블로그, 유튜브의 변화가 생길까? (0) | 2023.03.29 |
[엑셀] 데이터의 빈칸 없애는 법3 (뭘해도 안된다. 마지막 방법) (0) | 2023.02.13 |
[엑셀] 텍스트합치기, 쉽게 하는법, concatenate (0) | 2023.02.13 |
댓글