범주형 데이터란, 명확한 종류를 표현하는 데이터를 말한다.
영어로는 카테고리컬 데이터라고도 하는데, 이는 카테고리화를 명확하게 시킬 수 있어서 그렇다.
대표적인 파워풀한 범주형 데이터로서의 예시는 '성별' 을 예로 들 수 있겠다.
머신러닝에 들어가는 대부분의 데이터 모형 모델에는 숫자로만 입력 받을 수 있기 때문에 범주형 데이터는 숫자화 시켜야한다. 이렇게 숫자로 변환 하는 방법엔 더미변수화와 임베딩 방법이 있겠다.
예를들자면, 남자는 M 여자는 F 로 표기된 데이터가 있다고 가정한다면 남자는 '0' 여성은 '1' 이렇게 변환 할 수 있다.
더미변수란 , 범주형 변수를 연속형 변수로 변환한 변수라 말한다. 연속형 변수로만 사용가능한 분석기법을 활용 할 수 있게 도와준다. 여기서 말하는 연속형 변수란 키 160cm 몸무게 50kg 와 같은 수치의 절대값이 그대로도 의미가 있는 것을 말한다.
더미변환은, 변환하고자 하는것이 위와 같이 성별이라면 남성과 여성 두 분류로 구성되어 있는 변수를 1개로 변환해 줬을 때 여성은 남성이 아니라면 무조건 여성이기 때문에 따로 더미변수를 만들어 줄 필요가 없다. 하지만 두가지로 나뉘는 경우 말고 세가지, 네가지가 되었을때에는 각각 2개의 더미변수를 통환 변환, 3개의 더미변수를 통한 변환을 가질 수 있다.
임베딩은, 비전 및 오디오 데이터를 자연어 처리를 위해 정형화 시키는 것도 임베딩이라고 표현한다.
즉, 음악, 책, 영상등의 데이터를 데이터 처리를 위해 일정한 표와 같은 틀에 정형화 해서 데이터를 집어 넣는 과정을 말한다.
'머신러닝 (Machine Learning)' 카테고리의 다른 글
[머신러닝]Label Encoder vs One Hot Encoder(레이블인코더, 원핫인코더) (1) | 2022.11.29 |
---|---|
[머신러닝] 데이터 유형과 데이터에 따른 시각화에 대하여 (0) | 2022.11.17 |
[머신러닝] 비지도 학습 (Unsupervised learning) (2) | 2022.09.01 |
[머신러닝] 연관규칙학습 (Association rule learning) (2) | 2022.09.01 |
[머신러닝] 군집화와 분류 (Clustering & Classification) (0) | 2022.09.01 |
댓글