주피터 노트북에서 pandas를 사용하기에 앞서 우선 깔려있는지 확인 먼저 해야 한다.
pip list
위 명령어를 실행하면 내 컴퓨터에 깔려있는 모듈을 확인할 수 있다.
필자는 깔려있지 않아서 설치를 진행할 것이다.
명령어는 다음과 같다.
pip install pandas
pip install pandas
필자는 anaconda프롬프트로 실행을 했는데 cmd로 실행해도 된다.
이제 import 해서 사용할 수 있다.
import pandas as pd
이제 엑셀 파일 경로를 상대주소로 넣어서 불러올 것이다.
### 파일 데이터 추출하기
# - 첫번째 : 파일 지정 (위치포함)
# - 두번째 : 컬럼명으로 사용할 행의 위치(디폴트0)
# - 세번째 : 행의 가장 밑에서부터 포함하지 않을 행의 갯수(디폴트0)
# - 네번째 : 가지고 올 열의 범위
sample_1 = pd.read_excel(file_path,
header = 1,
skipfooter = 2,
usecols = "A:C")
이곳에서 아래 두줄은 불러오지 않을 것이고
맨 위 제목을 불러올 것이며, A~C까지만 불러올 것이다.
sample_1
실행을 해보자
근데 다음과 같은 오류가 발생했다.
이 오류는 pandas에서 Excel 파일 작업에 사용되는 'openpyxl' 라이브러리가 Python 환경에 설치되어 있지 않음을 나타낸다.
아래 명령을 사용하여 'openpyxl'을 설치할 수 있다.
엑셀파일을 불러와서 실행하고 싶을 때 필요한 모듈이다.
pip install openpyxl
pip install openpyxl
이 명령어를 입력해 주고 다시 주피터 노트북으로 돌아와서 실행을 해본다.
sample_1
다음과 같이 출력되는 것을 볼 수 있다.
기본적으로 데이터 행/열 많은 경우엔 기본상위 5개, 하위 5개를 추출해서 보여준다.
다만, 데이터 행/열 개수가 적으면 모두 보여주게 된다.
데이터 전처리 및 시각화 (5) | 2023.12.04 |
---|---|
영화 데이터 수집 웹 크롤링 (0) | 2023.12.04 |
pandas활용/데이터 수집,가공/통합저장하기 (2) | 2023.11.30 |
서브쿼리 이용/주피터 노트북/ (0) | 2023.11.29 |
heidiSQL_mariaDB 데이터베이스 연습_날짜편 (1) | 2023.11.22 |