본문 바로가기

pandas3

[Pandas] Google Colab Notebooks 이용해보기 (with Google Drive) 구글 드라이브와 colab을 이용하여 클라우드상에서 pandas를 이용해봤다. 여러 사람들과 쉽게 클라우드 환경에서 데이터를 공유할수 있어 편리하다. 또한 colab은 쥬피터 노트북과 비슷하게 동작한다. 언제, 어디서든, 어떤 환경에서도 구글의 gpu를 사용하여 python 스크립트를 작성하고 수정할수 있으며 공유가 굉장히 편리하다는 장점을 갖고있다. 50메가 정도 되는 큰 데이터의 정보를 쉽게 불러와서 볼 수 있으며 데이터를 깔끔하게 정리하고 전처리 작업을 할 수 있다. from google.colab import drive drive.mount('/content/drive') 이를 위해선 구글 드라이브에 있는 클라우드 환경 속 데이터를 import 해서 불러와야한다. 다음의 코드와 같이 구글 드라이브.. 2022. 10. 31.
[Pandas] Data 다루기 (About : null data) 1. NULL 값 다루기 data = [[1, np.nan, 2], [2,3,5], [np.nan,4,6]] df = pd.DataFrame(data) df.dropna() #행에 null 값이 하나라도 있으면 드랍 df.dropna(axis=1) #열에 null 값이 하나라도 있으면 드랍 해당 DATA 의 DATAFRAME df.dropna() 행에 null값이 하나라도 있으면 행을 드랍한다. df.dropna (axis =1 ) 열에 null값이 하나라도 있으면 드랍한다. 여기서 정말 중요한 사실이 한가지 있다. Pandas 에서 drop 을 제외한 모든 동작의 default 값은 행과 열중에 열 기준으로 동작하는게 기준이다 dorpna() 했을때 행이 드랍되고 조건으로 axis 를 줬을 때 해당 열.. 2022. 10. 30.
[Pandas] 시리즈와 데이터 프레임 Series and Dataframe(with anaconda) 오늘은 판다스에 대해서 다뤄보려고 한다. 기본적으로 아래와 같이 판다스를 import 해서 pd로 별칭을 주어 사용한다. import pandas as pd print(pd.__version__) 버젼확인을 해서 정상적으로 나온다면 사용할준비는 완료 !!! 데이터 구조는 크게 시리즈와 데이터 프레임으로 나눌 수 있다 시리즈와 데이터 프레임은 비슷하지만 다르다. 그 차이를 한번 느껴보도록 하자. 시리즈 ( Series ) pd.Series(data = [1,2,3,4], index = ['a', 'b', 'c', 'd']) pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) 시리즈는 ond-dimension 데이터 구조를 갖는다 즉, 일차원이며 여러가지 데이터가 아닌.. 2022. 10. 28.