본문 바로가기

머신러닝 (Machine Learning)10

[머신러닝]Label Encoder vs One Hot Encoder(레이블인코더, 원핫인코더) 머신러닝에 사용되는 대표적인 인코딩 방법에는 Label Encoder, One Hot Encoder 방식이 있다. 인코딩이 중요한 이유는 머신러닝에 들어가는 데이터가 어떤 데이터인지에 따라 성능이 좌우 되기 때문이다. 우선 기본적으로는 결측치(NULL)값은 허용되지 않는다. 데이터분석과는 다르게 머신러닝 모델을 돌리기 위해서는 결측치가 대부분이라면 해당 데이터 Feature 들은 제거 하는것이 좋다. 단순 아이디나, 관리번호 등 단순한 행의 식별역할로써 쓰이는 요소들은 예측에 중요한 요소가 절대 될 수 없고 오히려 알고리즘을 복잡하고 무겁게 만들어 예측 성능을 떨어뜨린다. Label Encoder 레이블 인코딩은 Feature 들을 코드형 숫자값으로 변환 하는것이다. 레이블 인코딩은 문자열 데이터를 숫자.. 2022. 11. 29.
[머신러닝] 데이터 유형과 데이터에 따른 시각화에 대하여 1. 개체 (Entity) 개체란, 의미있는 하나의 정보 단위이다. 우리의 현실속에서의 한 사람이 갖고있는 의미있는 하나의 정보 단위를 말하자면 성별, 나이 소득, 직업, 주소, 개인금융상태 등 다양한 정보를 찾을 수 있다. 즉, 이는 사람에 대한 정보 한 사람을 개체 entity로 본다면 그 사람이 갖고 있는 성별, 나이 소득, 직업, 주소, 개인금융상태 등울 속성으로 볼 수 있다. 한가지 더 예시를 갖자면, 자동차라는 개체(entity)에는 브랜드, 마력, 주행거리, 연비 등의 속성을 찾을 수 있다! 이는 우리가 분석하려고 하는 것의 기본적인 관계가 된다. 이런것들의 개체는 현실세계에서는 시간과 공간 속에서 포착된다. 이 시간과 공간은 분석의 관점이 되는 기준이 될 수 있다. 2. 현실세계의 데이터 .. 2022. 11. 17.
[머신러닝] 범주형 데이터 (Categorical Data) 범주형 데이터란, 명확한 종류를 표현하는 데이터를 말한다. 영어로는 카테고리컬 데이터라고도 하는데, 이는 카테고리화를 명확하게 시킬 수 있어서 그렇다. 대표적인 파워풀한 범주형 데이터로서의 예시는 '성별' 을 예로 들 수 있겠다. 머신러닝에 들어가는 대부분의 데이터 모형 모델에는 숫자로만 입력 받을 수 있기 때문에 범주형 데이터는 숫자화 시켜야한다. 이렇게 숫자로 변환 하는 방법엔 더미변수화와 임베딩 방법이 있겠다. 예를들자면, 남자는 M 여자는 F 로 표기된 데이터가 있다고 가정한다면 남자는 '0' 여성은 '1' 이렇게 변환 할 수 있다. 더미변수란 , 범주형 변수를 연속형 변수로 변환한 변수라 말한다. 연속형 변수로만 사용가능한 분석기법을 활용 할 수 있게 도와준다. 여기서 말하는 연속형 변수란 키 .. 2022. 11. 17.
[머신러닝] 비지도 학습 (Unsupervised learning) ■ 비지도학습 : 지도학습과 달리 입력값에 대한 목표치가 주어지지 않는다. 비지도 학습의 목적은 데이터를 정리 정돈해서 그 표에 담긴 데이터의 성격을 파악하는 것이 목적이다. 독립변수와 종속변수의 구분이 중요하지 않고 데이터만 있으면 된다. 이해하기 어려울수 있는데 생활코딩님은 이렇게 말씀하셨다. 조금 엉뚱한 이야기입니다만, ‘나는 누구인가?’를 파악하는 좋은 방법이 있습니다. 바로 내가 하는 말들의 빈도수를 정리 정돈해서 조사해보는 것입니다. 긍정적인 단어를 많이 사용했다면 나는 긍정적인 사람일 가능성이 높습니다. 집안의 살림들을 정리 정돈 해보는 것도 나를 이해하는 좋은 방법입니다. 정리를 해보니까 컴퓨터 관련된 장비가 많이 나왔다면 컴퓨터를 많이 사용하는 사람이라는 것을 짐작할 수 있습니다. 또는 .. 2022. 9. 1.
[머신러닝] 연관규칙학습 (Association rule learning) ■ 연관규칙학습 : 서로 연관된 특징을 찾아내는것이다. 장바구니분석이라고도 불린다. 실제로 현대인들이 인터넷으로 장을 많이 보는데 쿠팡, 마켓컬리 등 이런 곳들에서 중요하게 쓰이고 있는것 같다. 내가 쿠팡, 마켓컬리 쇼핑몰 사장이여도 많은 소비자들에게 더 많은 상품을 판매하기위해서 적극적으로 활용할것 같다. 만약 소비자가 장바구니에 부침가루를 담았다면 부침가루에 어울리는 전에 사용되는 재료 오징어, 부추, 김치 등 전에 활용되었을때 맛있는 재료들을 추천으로 띄워줄것 같다. 그럼 매출이 마구 올라가지 않을까? 실제로도 많은 사람들이 부침가루와 오징어 부추 등 함께 구매한 이력들이 많다면 이것은 즉, 부침가루와 부추, 오징어 등은 서로 연관성 (Associaition)이 있는것이다. 이런 장바구니 말고도 음.. 2022. 9. 1.
[머신러닝] 군집화와 분류 (Clustering & Classification) ■ 군집화 : 비슷한것을 찾아서 그룹을 만드는것. ■ 분류 : 물건이나 데이터를 군집화 된 그룹 중 어느 그룹에 속하는지 정하는것. 군집화와 분류 두가지는 정말 비슷한 개념처럼 보인다. 하지만 엄밀히 보면 다르다. 생활코딩님은 이사를 한 후 집을 정리하는 것에 비유하여 설명해주셨는데 이해가 정말 쏙쏙 됐다. 바로 이삿짐 중 옷장 속으로 들어갈 것들끼리 그룹을 만들어 두는것 이것이 바로 군집화. 그 옷장 속으로 들어가게 되는 것들 중 옷걸이에 정리할거 서랍속으로 들어갈거 이런식으로 세부적인 옷걸이나 서랍 중 어느그룹에 속하는지 정하는것 그건 분류다. 2022. 9. 1.
[머신러닝] 회귀와 분류 (Regression & Classification) ■ 회귀 : 예측하고 싶은 종속변수가 숫자일때 회귀라는 머신러닝 방법을 사용한다고 한다. 내가 듣고있는 생활코딩님이 예시로 들어주신것은 레몬에이드 장사를 하는 예시인데, 온도와 레몬에이드 판매량의 상관관계에 대한것이였다. 예를들어 온도가 20도일때 판매량이 40잔, 21도일땐 42잔, 22도일땐 44잔 ... 그럼 23도일땐 ? 이런 예시였는데 일상생활에선 온도 뿐아니라 트렌드, 유행, 요일, 습도 등등 더욱 복잡한 요소들에 의해 상관관계가 생기겠지만.. 결과가 숫자인 경우 회귀 방법을 쓴다고 한다! ■ 분류 : 오늘 실습한 내용 그 자체인데, 컴퓨터 웹 캠을 이용해서 손톱을 물어뜯는 행위를 하게 되면 이를 인지하고 손톱을 깨물고 있는지 아닌지 깨닫게 만드는것이였다. 과거의 데이터를 통해 배운다는 점이 .. 2022. 9. 1.
[머신러닝] 강화학습 (reinforcement Learning) ■ 강화학습 : 지도학습과 비슷한데 더욱 좋은 결과물을 얻기위해 수련하는 것이다. 지도학습과의 차이점은 지도학습은 문제지에 정답지를 알려주는 것이라면, 강화학습은 어떻게 하면 더 좋은 결과를 낼 수 있는지 스스로 노력하고 훈련하는 것이다. 강화학습의 예시로 유튜브 영상을 시청했다. https://www.youtube.com/watch?v=7Yc6ZHixgRk 강화학습을 통한 인공지능 골키퍼 이 로보트는 일종의 게임과 같은 룰을 갖고 있는데 주황 공을 인식하여 공을 막는것이다. 이 로보트는 끊임없는 학습을 통해 공을 막기위에 노력할것이고 그 과정을 끝없이 반복하여 공을 막는 고수(?)가 된 모습이다. 신기하다... 기계혼자 스스로 고수로 성장한 셈이다. 궁금한 사람은 재미있게 시청하면 좋을거 같다. 참고로.. 2022. 9. 1.
[머신러닝] 머신러닝의 분류 (지도학습 vs 비지도학습) 오늘은 머신러닝에 대해 처음 접했다. 코딩에 대해 관심을 갖게 된 후 html, css, php, java, script, python 수업을 생활코닝님께 배우게 되었다. 정말 생활코딩님은 전달력과 표현력 정말 짱이신거 같다. 이 수업 이후 머신러닝 수업을 오늘 듣게 되었는데 코딩 공부나 내가 알게 되는것을 인터넷에 기록해두고 언제든 볼 수 있다면 너무 좋을거 같아 작성해본다. 나의 뇌의 메모리를 추가해주는 느낌이랄까 좋은 것 같다. ■ 지도학습 : 마치 컴퓨터에게 학습지를 시켜 문제지를 풀게 하는것과 같다. 문제와 정답이 정해져 있어 컴퓨터에게 학습시키는 느낌이다. 컴퓨터가 학습하며 오답 후 다음에 같은 문제를 만나게 되면 오답률은 떨어진다. 기계를 가르친다. (supervised) ■ 비지도학습 : .. 2022. 9. 1.
[머신러닝] 독립변수와 종속변수 (independent variable & Dependent variable) ■ 변수(Variable) - 정해지지 않은 임의의 값을 표현하기 위한 값. ■ 독립변수 - 입력값이나 원인을 나타냄 (원인) ■ 종속변수 - 결과물이나 효과를 나타냄 (결과) 쉽게 생각해서 독립변수는 원인, 종속변수는 결과를 의미. 2022. 9. 1.