본문 바로가기

인공지능/데이터분석

Pandas 데이터 분석1(데이터 불러오기)

반응형

오늘은 데이터 분석 관련해서 파이썬으로 어떻게 하는지 진행해볼려고 합니다.

 

개인적으로 주로 많이 쓰는 데이터 불러오기 방법에 관해서 따라하시면서 같이 진행해보시길 바랍니다.

 

 

 

판다스는 어떤 기능이 있을까요?

  • 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료구조. 잘못 정렬된 데이터에 의한 일반적인 오류를 예방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
  • 통합된 시계열 기능
  • 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
  • 산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
  • SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

이런 기능들을 파이썬에서 할 수 있게 지원합니다.

 

 

데이터는 불러오고 싶은걸로 불러와주세요

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

저는 따로 파이썬 라이브러리를 사용할겁니다.

아나콘다 prompt를 키셔서 pip install finance-datareader를 해주세요

일단 위 사진과 똑같이 구성해주시고 결과를 확인해봅시다.

 

이런식으로 결과가 나오는걸 보실 수 있을겁니다.

fdr.StockListing('종목단어')를 치시면 다른 결과들을 확인하실 수 있읍니다 코스피, 나스닥,등으로 바꾸면 결과가 어떻게 달라지는지 한번 해보세요!

반응형

 

만약 다른 데이터를 불러오실거면 pandas를 사용하셔야하는데 

더보기

상단에

import pandas as pd

 

함수안에

df = pd.read_csv(r'경로')

print(df)

하시면 csv파일을 불러오실 수 있습니다. 경로 옆에 r을 붙인이유는 가끔씩 데이터 파일이름에 파이썬 특수기호를 붙이는 방법과 겹칠 수 있어서 그저 읽기만 하라고 알리기 위해 경로 옆에 r를 붙입니다.

 

json파일이면 pd.read_json(r'경로')하시면 될거 같습니다.

 

엑셀이시면 엑셀을 붙이면 됩니다

 

 

이런식으로 파이썬에서는 데이터를 불러옵니다. 그러면 

로 바꿔보고 결과를 확인해 볼까요?

그러면 DataFrame이라고 결과가 나옵니다.파이썬에서 데이터를 편집할 때는 판다스에 존재하는 자료형 DataFrame과 Series를 사용합니다. 

Series는 주로 데이터 열에서 '한 줄'을 의미합니다 Series가 모여 DataFrame이 된다라고 생각하시면 이해 하시기 빠를겁니다. 

또한 각 Series는 고유의 Index가 존재합니다.

 

이런식으로 Index를 숫자가 아닌 알파벳형식으로 바꾸기도 하는데 주로 사용하지 않는 기능들이니 이런 기능이 있구나라는 정도로 넘어가시면 좋을거 같습니다.

또한 연산이 가능합니다.

 

Series, DataFrame 모두 파이썬 시퀀스 자료형으로 서로 바꿀 수 있습니다.

데이터 자료들 중에 값이 없는지 확인할 때 사용하는 방법입니다. 

 

DataFrame역시 인덱스를 바꿀 수 있습니다.

DataFrame중 한 줄만 확인하고 싶을 때 사용하는 방법입니다. 당연하게도 이런 식으로 데이터 한 줄만 불러오면 DataFrame에서 Series 하나만 가져온거라고 생각하시면 됩니다.

 

마지막으로 갑이 없는 NAN을 처리하는 대표적인 방법으로 그 값의 평균을 넣어주는 코드 보여드리고 마무리하겠습니다

 

 

 

 

 

 

반응형
LIST

'인공지능 > 데이터분석' 카테고리의 다른 글

Pandas 데이터 분석2(데이터 필터링)  (0) 2023.01.18