본문 바로가기

Pandas10

[데이터분석] 전국 신규 민간 아파트 분양 가격 동향 분석하기 공공데이터 포털에 있는 자료를 활용하여 전국 신규 민간 아파트 분양 가격 데이터를 분석해보려고 한다. https://www.data.go.kr/data/15061057/fileData.do 주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20211231 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향으로 지역별, 면적별 분양가격 등의 자료를 제공합니다. 해당 데이터는 주택도시보증공사 홈페이지 및 통계청 KOSIS에서도 www.data.go.kr 데이터 파일은 공공데이터 포털에 2021년 12월 31일 자료로 주택도시보증공사에서 제공한 자료를 활용하였다. 1. 전국 신규 민간아파트 분양가격 동향 데이터 읽어오기 df = pd.read_csv('./data/전국신규민간아파트분양가격동향_20.. 2022. 11. 7.
[Jupyter Notebook] 주피터노트북 목차 활성화 주피터 노트북에서도 google의 colab 환경과 비슷한 목차를 활용 할 수 있다! 함께 주피터노트북 환경에서 목차를 활성화 시켜보자. 목차 활성화 하기 아나콘다를 사용한다면 아나콘다프롬프트에서 다음 명령어를 순서대로 실행시켜주자 # 1. extensions 설치 pip install jupyter_contrib_nbextensions # 2. Nbextensions 활성화 jupyter contrib nbextension install --user 1. extensions 설치 실행 결과 프롬프트에서 설치가 이렇게 완료된다면 두번째 단계로 넘어가자 2. Nbextensions 활성화 활성화가 완료되었다. 만약 주피터 노트북이 실행중이였다면 종료하고 다시 접속하자. 다시 접속하면 아래와 같이 Nbext.. 2022. 11. 7.
[데이터 분석] 귀무가설, 대립가설, 기대 개수, 검정 통계량에 대하여 확인하고자 하는 사항을 가설로 세우고, 이 가설이 실제로 맞는지를 검증하는 과정이 바로 통계분석 과정이다. 통계분석 과정에서 쓰이는 이해하기 어려웠던 것들을 정리해 보도록 하겠습니다. 귀무가설 (Null Hypothesis, H0) 귀무가설, 입에 붙지 않는 단어이다. 예를 들어 한 영화관에서, 상영하는 영화의 장르가 간식류 구매에 영향을 미치는지 분석하여 상영 영화 시간에 맞게 스낵을 알맞은 재고로 맞춰두고 싶어 한다면 데이터 분석을 할 줄 아는 당신이라면 조언해 줄 수 있을 것이다. A : "영화 장르가 간식류 구매에 영향을 줄 거 같아?" B : "아니, 다 비슷하겠지" A : "아니야 근데 내 생각엔 사람들이 공포영화 보러 들어갈 때 더 팝콘을 많이 구매하는 거 같아" B : "느낌일 뿐이지 어떻.. 2022. 11. 3.
[Pandas] Numpy 배열 인덱싱/슬라이싱 1차원 배열의 요소 참조 및 변경 array = np.arange(16) print(array) array[5] = 777 print(array) 0에서 15까지의 숫자의 배열을 불러온 후 인덱스값이 5인 데이터를 777로 바꾸었다. 3차원 배열의 요소 참조 및 변경 array = np.arange(16).reshape(2,2,4) print(array[1,1,2]) array[1,1,2] = 777 print(array) 3차원 구조의 배열은 2,2,4 배열로 reshape 후, 1,1,2 에 해당하는 데이터를 777로 바꾸었다. Numpy 1차원 배열 슬라이싱 arange 이용해서 1~10 10개 요소를 가진 1차원 벡터를 만들어 주었다. ar = np.arange(1,11) print(ar) ar[.. 2022. 11. 2.
[Pandas] Numpy - matplotlib, seaborn를 이용한 자료 시각화 lineplot # plt x = np.array([1, 2, 3, 4, 5, 6]) y = np.array([1, 2, 3, 4, 5, 6]) #title. x label, y label, 범례 plt.plot(x,y, 'ms--',label='low') #스타일은 색깔, 마커, 선종류 순서로 지정 plt.plot(x,y*2, label = 'high') plt.legend() plt.title("test") plt.xlabel("xlabel") plt.ylabel("ylabel") plt.show() #그래프만 보여줌 우리가 알고 있는 그 선 그래프이다. 코드는 위와 같이 들어가며 스타일은 색깔, 마커, 선종류 순서로 지정된다. histogram plt.hist(iris['sepal_width']) .. 2022. 11. 1.
[Pandas] Numpy - np.zeros, ones, full, eye, random 알아보기 Array 의 초기화 함수들(zeros,ones,full,eye) np.zeros ar = np.zeros((3,4)) printinfo(ar) np.zeros()는 배열의 모든 원소에 0을 삽입한다. np.ones array = np.ones((2,3)) print(array) np.ones()는 배열의 모든 원소에 1을 삽입한다. np.full array= np.full((2,3), 1234) print(array) np.full()은 배열에 사용자가 지정한 값을 삽입합니다. np.eye array = np.eye(3) print(array) 주 대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각형 행렬을 반환. (단위행렬) 참고 np.ranodm.random array = np.random.. 2022. 11. 1.
[Pandas] Numpy Numpy는 수치 데이터를 다루는 python package다. Numpy의 핵심인 다차원 행렬 자료구조인 array를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용된다. Numpy의 계산은 python에 비해 빠르고 편리하다. 넘파이에 대해 구체적으로 알기 전 기본적으로 알고 들어가면 좋은 단어들의 의미들을 먼저 살펴보자! Scalar : 한개의 원소로 이루어진 데이터 Vector : 원소들이 모인 집합으로 1차원 배열에 속하고, 각원소의 데이터 타입이 동일. Series array : 벡터들을 모아놓은 데이터 집합으로 2차원의 배열이고, Matrix라 불린다. Tensor : 백터에 높이를 추가한 형태로 같은 크기의 행렬들을 모아놓은 데이터 집합 이를 참조하여 array 구조에 대해 살.. 2022. 11. 1.
[Pandas] Google Colab Notebooks 이용해보기 (with Google Drive) 구글 드라이브와 colab을 이용하여 클라우드상에서 pandas를 이용해봤다. 여러 사람들과 쉽게 클라우드 환경에서 데이터를 공유할수 있어 편리하다. 또한 colab은 쥬피터 노트북과 비슷하게 동작한다. 언제, 어디서든, 어떤 환경에서도 구글의 gpu를 사용하여 python 스크립트를 작성하고 수정할수 있으며 공유가 굉장히 편리하다는 장점을 갖고있다. 50메가 정도 되는 큰 데이터의 정보를 쉽게 불러와서 볼 수 있으며 데이터를 깔끔하게 정리하고 전처리 작업을 할 수 있다. from google.colab import drive drive.mount('/content/drive') 이를 위해선 구글 드라이브에 있는 클라우드 환경 속 데이터를 import 해서 불러와야한다. 다음의 코드와 같이 구글 드라이브.. 2022. 10. 31.
[Pandas] Data 다루기 (About : null data) 1. NULL 값 다루기 data = [[1, np.nan, 2], [2,3,5], [np.nan,4,6]] df = pd.DataFrame(data) df.dropna() #행에 null 값이 하나라도 있으면 드랍 df.dropna(axis=1) #열에 null 값이 하나라도 있으면 드랍 해당 DATA 의 DATAFRAME df.dropna() 행에 null값이 하나라도 있으면 행을 드랍한다. df.dropna (axis =1 ) 열에 null값이 하나라도 있으면 드랍한다. 여기서 정말 중요한 사실이 한가지 있다. Pandas 에서 drop 을 제외한 모든 동작의 default 값은 행과 열중에 열 기준으로 동작하는게 기준이다 dorpna() 했을때 행이 드랍되고 조건으로 axis 를 줬을 때 해당 열.. 2022. 10. 30.
[Pandas] 시리즈와 데이터 프레임 Series and Dataframe(with anaconda) 오늘은 판다스에 대해서 다뤄보려고 한다. 기본적으로 아래와 같이 판다스를 import 해서 pd로 별칭을 주어 사용한다. import pandas as pd print(pd.__version__) 버젼확인을 해서 정상적으로 나온다면 사용할준비는 완료 !!! 데이터 구조는 크게 시리즈와 데이터 프레임으로 나눌 수 있다 시리즈와 데이터 프레임은 비슷하지만 다르다. 그 차이를 한번 느껴보도록 하자. 시리즈 ( Series ) pd.Series(data = [1,2,3,4], index = ['a', 'b', 'c', 'd']) pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) 시리즈는 ond-dimension 데이터 구조를 갖는다 즉, 일차원이며 여러가지 데이터가 아닌.. 2022. 10. 28.