[머신러닝] 데이터 유형과 데이터에 따른 시각화에 대하여
1. 개체 (Entity) 개체란, 의미있는 하나의 정보 단위이다. 우리의 현실속에서의 한 사람이 갖고있는 의미있는 하나의 정보 단위를 말하자면 성별, 나이 소득, 직업, 주소, 개인금융상태 등 다양한 정보를 찾을 수 있다. 즉, 이는 사람에 대한 정보 한 사람을 개체 entity로 본다면 그 사람이 갖고 있는 성별, 나이 소득, 직업, 주소, 개인금융상태 등울 속성으로 볼 수 있다. 한가지 더 예시를 갖자면, 자동차라는 개체(entity)에는 브랜드, 마력, 주행거리, 연비 등의 속성을 찾을 수 있다! 이는 우리가 분석하려고 하는 것의 기본적인 관계가 된다. 이런것들의 개체는 현실세계에서는 시간과 공간 속에서 포착된다. 이 시간과 공간은 분석의 관점이 되는 기준이 될 수 있다. 2. 현실세계의 데이터 ..
2022. 11. 17.
[Pandas] Numpy 배열 인덱싱/슬라이싱
1차원 배열의 요소 참조 및 변경 array = np.arange(16) print(array) array[5] = 777 print(array) 0에서 15까지의 숫자의 배열을 불러온 후 인덱스값이 5인 데이터를 777로 바꾸었다. 3차원 배열의 요소 참조 및 변경 array = np.arange(16).reshape(2,2,4) print(array[1,1,2]) array[1,1,2] = 777 print(array) 3차원 구조의 배열은 2,2,4 배열로 reshape 후, 1,1,2 에 해당하는 데이터를 777로 바꾸었다. Numpy 1차원 배열 슬라이싱 arange 이용해서 1~10 10개 요소를 가진 1차원 벡터를 만들어 주었다. ar = np.arange(1,11) print(ar) ar[..
2022. 11. 2.
[Pandas] Numpy - matplotlib, seaborn를 이용한 자료 시각화
lineplot # plt x = np.array([1, 2, 3, 4, 5, 6]) y = np.array([1, 2, 3, 4, 5, 6]) #title. x label, y label, 범례 plt.plot(x,y, 'ms--',label='low') #스타일은 색깔, 마커, 선종류 순서로 지정 plt.plot(x,y*2, label = 'high') plt.legend() plt.title("test") plt.xlabel("xlabel") plt.ylabel("ylabel") plt.show() #그래프만 보여줌 우리가 알고 있는 그 선 그래프이다. 코드는 위와 같이 들어가며 스타일은 색깔, 마커, 선종류 순서로 지정된다. histogram plt.hist(iris['sepal_width']) ..
2022. 11. 1.
[Pandas] Numpy - np.zeros, ones, full, eye, random 알아보기
Array 의 초기화 함수들(zeros,ones,full,eye) np.zeros ar = np.zeros((3,4)) printinfo(ar) np.zeros()는 배열의 모든 원소에 0을 삽입한다. np.ones array = np.ones((2,3)) print(array) np.ones()는 배열의 모든 원소에 1을 삽입한다. np.full array= np.full((2,3), 1234) print(array) np.full()은 배열에 사용자가 지정한 값을 삽입합니다. np.eye array = np.eye(3) print(array) 주 대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각형 행렬을 반환. (단위행렬) 참고 np.ranodm.random array = np.random..
2022. 11. 1.
[Pandas] 시리즈와 데이터 프레임 Series and Dataframe(with anaconda)
오늘은 판다스에 대해서 다뤄보려고 한다. 기본적으로 아래와 같이 판다스를 import 해서 pd로 별칭을 주어 사용한다. import pandas as pd print(pd.__version__) 버젼확인을 해서 정상적으로 나온다면 사용할준비는 완료 !!! 데이터 구조는 크게 시리즈와 데이터 프레임으로 나눌 수 있다 시리즈와 데이터 프레임은 비슷하지만 다르다. 그 차이를 한번 느껴보도록 하자. 시리즈 ( Series ) pd.Series(data = [1,2,3,4], index = ['a', 'b', 'c', 'd']) pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) 시리즈는 ond-dimension 데이터 구조를 갖는다 즉, 일차원이며 여러가지 데이터가 아닌..
2022. 10. 28.
[Python] secrets, string module 이용한 패스워드 생성 프로그램 만들기 (with random)
설계 현대사회를 살아가다 보면 누구나 한 번쯤은 비밀번호 오류로 인해 홈페이지에서 임시로 발급해주는 임시 비밀번호를 받아본 경험이 있을것이다. 그런 것조차 프로그래밍적으로 발급해줬다는 사실조차 놀라운 따름이었다. 임시 비밀번호를 만드는 방법은 다양하게 있지만 이번엔 python random module을 이용해서 만들어보려고 한다.! string module을 사용하여 만들어 보겠다 ['Formatter','Template','_ChainMap','__all__','__builtins__','__cached__','__doc__','__file__','__loader__', '__name__','__package__','__spec__','_re','_sentinel_dict','_string','asc..
2022. 10. 27.
[Python] Lambda (람다함수), Module에 대하여
Lambda 람다함수 x = lambda a, b : a*b print(x(5,6)) y = lambda a, b, c : a+b+c print(y(4, 5, 6)) 인수 a, b에 a*b 연산을 넣어 결과 값을 반환하는 함수이다. 람다는 다른 함수 내에서 익명 함수로 사용할 때 더 잘 나타납니다. def myfunc(n): return lambda a : a * n mydoubler = myfunc(2) mytripler = myfunc(3) print(mydoubler(11)) print(mytripler(11)) 그 예시는 다음과 같다. 이 값의 결과 값은 22, 33이 된다. Module 모듈 모듈이란, 함수나 변수 또는 클래스를 모아 놓은 파일이다. 모듈은 다른 파이썬 프로그램에서 불러와 사용할..
2022. 10. 26.
[Python] 서울 신림선 운행 소요시간 계산 프로그램 만들기
신림선(샛강 ~ 관악산역) 출발역 부터 도착역 까지 소요시간 계산 프로그램을 만들어 봤다. 역 간 운행시간은 2분으로 가정하여 만들어보았다. station = {'샛강' : 1, '대방' : 2, '서울지방병무청' : 3, '보라매역' : 4, '보라매공원' : 5, '보라매병원' : 6, '당곡' : 7, '신림' : 8, '서원' : 9, '서울대벤쳐타운' : 10, '관악산' : 11} station 이라는 딕셔너리를 만들었다. 각각의 역에 숫자를 부여하여 소요시간을 계산하려고 설계하였다 예를들어 샛강에서 보라매역까지 가게된다면 1번에서 4번역까지 총 3정거장을 가야만 한다. 따라서, 3정거장 * 2 라는 연산을 통해 총 6분이라는 소요시간이 걸리는것을 알 수 있다. start = input("출발..
2022. 10. 25.