본문 바로가기
머신러닝 (Machine Learning)

[머신러닝] 범주형 데이터 (Categorical Data)

by moveho 2022. 11. 17.

범주형 데이터란, 명확한 종류를 표현하는 데이터를 말한다.

영어로는 카테고리컬 데이터라고도 하는데, 이는 카테고리화를 명확하게 시킬 수 있어서 그렇다.

 

대표적인 파워풀한 범주형 데이터로서의 예시는 '성별' 을 예로 들 수 있겠다.

 

머신러닝에 들어가는 대부분의 데이터 모형 모델에는 숫자로만 입력 받을 수 있기 때문에 범주형 데이터는 숫자화 시켜야한다. 이렇게 숫자로 변환 하는 방법엔 더미변수화와 임베딩 방법이 있겠다.

 

예를들자면, 남자는 M 여자는 F 로 표기된 데이터가 있다고 가정한다면 남자는 '0' 여성은 '1' 이렇게 변환 할 수 있다.

 

더미변수란 , 범주형 변수를 연속형 변수로 변환한 변수라 말한다. 연속형 변수로만 사용가능한 분석기법을 활용 할 수 있게 도와준다. 여기서 말하는 연속형 변수란 키 160cm 몸무게 50kg 와 같은 수치의 절대값이 그대로도 의미가 있는 것을 말한다. 

 

더미변환은, 변환하고자 하는것이 위와 같이 성별이라면 남성과 여성 두 분류로 구성되어 있는 변수를 1개로 변환해 줬을 때 여성은 남성이 아니라면 무조건 여성이기 때문에 따로 더미변수를 만들어 줄 필요가 없다. 하지만 두가지로 나뉘는 경우 말고 세가지, 네가지가 되었을때에는 각각 2개의 더미변수를 통환 변환, 3개의 더미변수를 통한 변환을 가질 수 있다.

 

 

임베딩은, 비전 및 오디오 데이터를 자연어 처리를 위해 정형화 시키는 것도 임베딩이라고 표현한다.

즉, 음악, 책, 영상등의 데이터를 데이터 처리를 위해 일정한 표와 같은 틀에 정형화 해서 데이터를 집어 넣는 과정을 말한다.

 

 

 

댓글