Professional Insights/Technology & Innovation

2021 머신러닝야학 - 3

Melissa Levasseur 2021. 1. 7. 21:43

[머신러닝의 분류]

머신러닝은 단일 기술이 아니다.

기계학습은 지도학습 + 비지도학습 + 강화학습 으로 이뤄져 있다.

** 비유는 이해하기에는 좋지만, 비슷한 것일뿐 진실이 아니기 때문에 동일시해서는 안된다는 걸 명심 할 것!

지도학습은 문제집으로 학생을 가르치듯이 데이터로 컴퓨터를 학습시켜서 모델을 만드는 방식

비지도학습은 기계에게 데이터에 대한 통찰력을 부여하는 것. 정답을 알려주지 않더라도 데이터를 관찰하고 의미나 관계를 밝혀내는 것 (정리)

강화학습은 지도학습과 비슷하지만, 정답을 알려주는 지도학습과는 다르게 경험을 통해 어떻게 하는 것이 더 좋은 결과를 낼 수 있는지 스스로 수련하는 것. 퀘스트를 깨고 경험치를 쌓는 것과 비슷하다고 보면 됨.

[지도학습]

원인 -> 결과의 방식. 과거의 데이터로부터 학습해서 결과를 예측하는데 사용된다.

 충분히 많은 데이터를 수집해야 하고, 데이터는 독립변수종속변수로 이뤄져 있어야 한다. 이 두 변수의 관계를 설명 가능한 공식으로 추출할 수 있는데 이걸 모델이라고 한다. 

결과를 모르는 원인을 모델에 입력하면 모델이 결과를 알려주는 것이 바로 지도학습이 동작하는 방식.

이전에는 고도의 실험과 수학이 필요했고, 일반인들을 소비자의 역할 밖에 할 수 없었다. 하지만 Not anymore!

[회귀 vs 분류]

지도학습은 회귀와 분류로 나눌 수 있다.

회귀(regression)

우리가 예측하고 싶은 종속변수가 숫자일 때, 회귀(regression)를 사용한다. -> "지도학습의 회귀로 해결해주세욧!" 

ex) 나는 이 집의 집 값을 알고 싶어!
독립변수는 지역, 인프라, 조망, 교통 등
종속변수 집 값 (숫자) -> "지도학습의 회귀로 해결해주세욧!"
학습시킬 데이터 모델 만드는 방법 : 집과 역까지의 거리, 수치화된 조망의 평점을 집값과 함께 기록한다.

*산업에서는 숫자라는 말 대신 양적이라는 말을 사용한다. 종속변수가 양적 데이터라면 -> "지도학습의 회귀로 해결해주세욧!"

분류(Classification)

 우리가 예측하고 싶은 종속변수가 이름 혹은 문자일 경우, 분류(classification)을 사용한다. -> "지도학습의 분류로 해결해주세욧!"

ex) 나는 그 친구의 합격여부를 알고 싶어!
독립변수는 공부시간
종속변수는 합격여부(합격/불합격) -> 이름 혹은 문자 ->  "지도학습의 분류로 해결해주세욧!"
학습시킬 데이터 모델 만드는 방법 : 사람들의 공부시간을 입력받고, 최종 합격여부를 확인한다.

cf. 몇시간을 공부해야 합격할 수 있을까? 의 경우에는 알고싶은 내용이 숫자이므로 "지도학습의 회귀 해결해주세욧!"

*산업에서는 이름 혹은 문자라는 말 대신 범주이라는 말을 사용한다. 종속변수가 범주 데이터라면 -> "지도학습의 분류로 해결해주세욧!"