Professional Insights/Technology & Innovation

2021 머신러닝야학 - 4

Melissa Levasseur 2021. 1. 12. 23:43

비지도학습은 군집화 + 연관규칙학습 + 변환으로 구성된다.

 

군집화(clustering) : 비슷한 것들을 찾아서 그룹을 만드는 것.

  • 분류와 차이점 군집화는 소속이 없는 애들에게 소속을 만들어주는 것, 분류는 소속은 있는데 어느 소속으로 가야할지 정해주는 것.

  • 군집화라는 도구에 1,000만개의 관측치(행)을 입력하고, 100개의 클러스터가 필요하다고 알려주면, 유사한 속성을 가진 관측치끼리 분류하여 총 100개의 클러스터를 만들어 줍니다.

** 딱 떠오르는 건, 엑셀의 피봇테이블과 같은 느낌? 이랄까! 데이터를 다루는 업무를 하면서 피봇테이블은 떼려야 뗄수 없는 기능인데, 그 기준들을 자동으로 비지도학습의 군집화 작업을 통해 가능하다니! 추가적으로 군집화 과정에서 판단된 유사한 속성 까지 알 수 있을까?

 

연관규칙학습(Association rule learning) 일명 장바구니 학습

  • 제품들간의 연관성을 찾아 내는 것
  • 추천이 이름뒤에 붙은 것들은 거의 다 연관 규칙을 이용한 것이라고 보면 됩니다.

** 음악 추천을 생각해본다면 장르, 가수, 발매 시점 등의 여러가지 음악을 구성하는 열이 있을테고, 그것들의 연관성을 분석해서 다른 가수의 노래를 추천하는건가??? 약간 헷갈린다.

  • 관측치(행)을 그룹핑 해주는 것 -> 군집화
  • 특성(열)을 그룹핑 해주는 것 -> 연관규칙

 

정리해보자면....

비지도학습은 데이터들의 성격을 파악하는 것이 목적. 독립/종속변수의 구분이 중요하지 않다.

지도학습은 역사적이다. 결과를 모르는 원인이 발생했을 때 결과를 추측하는 것 독립/종속변수가 꼭 필요하다.

변환은 까치밥으로 남겨둔다 하셨는데, 별도 검색을 통해 찾아봄

데이터를 새롭게 표현해서, 분석가 또는 다른 머신러닝 알고리즘이 원본 데이터에 비해 쉽게 데이터를 해석할 수 있도록 만드는 과정  (Rephrase 같은느낌쓰?)

(참고. dlrow.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B9%84%EC%A7%80%EB%8F%84%ED%95%99%EC%8A%B5 )