본문 바로가기
Pandas

[Pandas] Google Colab Notebooks 이용해보기 (with Google Drive)

by moveho 2022. 10. 31.

 

 

구글 드라이브와 colab을 이용하여 클라우드상에서 pandas를 이용해봤다.

여러 사람들과 쉽게 클라우드 환경에서 데이터를 공유할수 있어 편리하다.

또한 colab은 쥬피터 노트북과 비슷하게 동작한다.

 

언제, 어디서든, 어떤 환경에서도 구글의 gpu를 사용하여 python 스크립트를 작성하고 수정할수 있으며 공유가 굉장히 편리하다는 장점을 갖고있다.

 

큰 용량의 데이터를 쉽게 불러올 수 있다

50메가 정도 되는 큰 데이터의 정보를 쉽게 불러와서 볼 수 있으며

데이터를 깔끔하게 정리하고 전처리 작업을 할 수 있다.

from google.colab import drive
drive.mount('/content/drive')

이를 위해선 구글 드라이브에 있는 클라우드 환경 속 데이터를 import 해서 불러와야한다.

다음의 코드와 같이 구글 드라이브와 연동한 후

dfReviews = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/wine_reviews_data.csv")

파일을 파이썬 language 에 맞게 불러와 사용하면 된다.

 

오늘 google colab 환경에서 몇가지 데이터 전처리 작업을 실시해보겠다.

 

1. description 컬럼에서 처음 10개의 데이터를 선택하여 ten_rows_descriptions변수에 할당

ten_rows_descriptions = dfReviews.description[0:10]
ten_rows_descriptions

 dataframe.columsname[ : ]  를 사용하면 해당 한 컬럼의 내용을 첫번째 부터 원하는 곳까지 잘러 데이터를 볼 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

2. row 인덱스의 값이 1, 2, 3, 5, 8 인 데이터를 선택하여 sample_reviews 변수에 할당

dfReviews.loc[[1,2,3,5,8],: ]

다음과 같이 원하는 인덱스 값만들을 골라 데이터를 뽑아 볼 수 있다.

기본적으로 loc , iloc 을 사용하며 [행 : 열] 순으로 작동한다.

 

 

3.country 컬럼의 값이 Italy 인 리뷰 정보를 선택하여 italian_wines 변수에 할당

italian_wines = dfReviews[dfReviews['country'] == 'Italy']
italian_wines

국가가 이탈리아인 정보들만 뽑아 추출하는 모습이다.

무려 행의 갯수가 12만번이 넘어 가는 모습을 볼 수 있는데

이렇게 colab 에선 무료로 구글의 gpu를 사용하여 데이터 처리를 쉽게 할 수 있다.

 

 

오늘은 구글 드라이브를 통한 Colab 사용을 해보았다.! 

 

 

댓글