본문 바로가기
머신러닝 (Machine Learning)

[머신러닝] 데이터 유형과 데이터에 따른 시각화에 대하여

by moveho 2022. 11. 17.

1. 개체 (Entity)

개체란, 의미있는 하나의 정보 단위이다. 우리의 현실속에서의 한 사람이 갖고있는 의미있는 하나의 정보 단위를 말하자면 성별, 나이 소득, 직업, 주소, 개인금융상태 등 다양한 정보를 찾을 수 있다. 즉, 이는 사람에 대한 정보 한 사람을 개체 entity로 본다면 그 사람이 갖고 있는 성별, 나이 소득, 직업, 주소, 개인금융상태 등울 속성으로 볼 수 있다.

 

한가지 더 예시를 갖자면, 자동차라는 개체(entity)에는 브랜드, 마력, 주행거리, 연비 등의 속성을 찾을 수 있다!

 

이는 우리가 분석하려고 하는 것의 기본적인 관계가 된다. 이런것들의 개체는 현실세계에서는 시간과 공간 속에서 포착된다. 이 시간과 공간은 분석의 관점이 되는 기준이 될 수 있다.

 

2. 현실세계의 데이터

아래의 이미지는 서울시에서 제공하는 어린이 보호구역을 지정현황에 대한 공공 데이터의 사례이다.

이 데이터를 보며 알 수 있는 것은 '시설명'에 대한 열은 우리가 보호해야하는 교육기관이라는 개체를 나타내는 것이고, geometry, x좌표, y좌표는 개체가 속한 공간에 대한 데이터이다. 또한 이 이미지에는 없지만 데이터 속에서는 시간에 대한 정보를 나타낸 경우를 쉽게 찾아 볼 수 있을것이다. 이를 통해 우리는 이런 데이터들은 특정 개체를 중심으로 공간과 시간을 기록하며 우리의 현실세계를 표현하고 있다는 사실을 알 수 있다.

 

 

3.  관측치값과 변수에 대하여 (obseravation, variable, value)

우리의 현실세계속에선 다양한 형태의 데이터 형태가 있다. 위에서 본 공공데이터와 같이 이미 성형된 정형데이터도 있고 흔하게 주고 받는 카카오톡, 우리가 듣는 음악, 유튜브 영상, 지도, sns 등등 다양한 형태로 존재한다. 이를 정형 데이터와 비정형 데이터라고 한다.

정형데이터는 위에서 봤듯 테이블 형태로 이루어져있다. 

그 테이블은 행과 열 (row, columns)의 메트릭스 형태로 구성되어 있다.

 

여기서 중요한건 데이터 사이언스에서 말하는 각 행들은 상태를 나타내는 관측값(observation)이고 각 열들은 개체의 속성, 시간, 공간을 나타내는 변수(variable)이 된다.

개체의 상태에 따라 변수는 변화하는데, 관측값을 나타내는 행(row)과 변수를 나타내는 열(columns)이 만나는 교차지점이 값(value)인것이다.

 

설명하자면 , 아이디, geometry, 관할경찰서, 구 , 동 , 시설명, 시설구분, 주소 ,좌표에 해당하는 값은 변수이며 각 행들은 관측값 변수와 관측값이 만나는 그 값이 바로 value 인 것이다.

 

 

 

4. 데이터 변수의 4가지 유형에 대하여

  • 범주형(categorical) : 범주형 데이터에 관하여 참조하자. https://blackholecoding.tistory.com/73
  • 수치형(numerical) : 개체의 상태를 정량적으로 숫자형태로 표현된 유형

 

  • 명목형(nominal) : 대표적으로 혈액형이다. 개체의 상태를 분류하기 위해 사용되며 값 사이에 서열이 없다.
  • 순서형(ordinal) :명목형과 비슷하게 객체의 상태를 분류하기 위해 사용되며 값 사이에 서열이 존재한다 (수,미,양,가)

 

  • 이산형(discrete): 객체의 특정 상태를 정량적으로 나타낸다. 예로 가족 구성원의 수 4명, 5명 이런 데이터를 예로 들 수 있다.int 정수의 형태이다.
  • 연속형(continuos): 개체의 특정상태를 정량적으로 나타내지만 정확히 알 수 없는 실수의 형태인 키, 몸무게를 예로 들 수 있다. (키는 161.12412412414...끝도없다)  float 형태이다.

 

5. 데이터 변수 유형에 따른 시각화

 

  • 명목형 : 막대그래프 , 바이올린 차트, 스캐터 플롯
  • 순서형 : 막대그래프, 누적막대차트
  • 이산형: 막대그래프(숫자가 적을때), 선그래프(숫자가 많을때), 바이올린 차트, 스캐터플롯
  • 연속형 : 히스토그램, KDE, 바이올린 차트, 스캐터 플롯

 

 

댓글