기계학습의 분류
1. 지도 학습(Supervised learning)
지도 학습 알고리즘은 사례들을(examples) 기반으로 예측을 수행. 지도 학습에는 기존에 이미 분류된 학습용 데이터(training data)로 구성된 입력 변수(features)와 원하는 출력 변수(target)가 수반.
알고리즘을 이용해 학습용 데이터를 분석함으로써 입력 변수를 출력 변수와 매핑시키는 함수를 찾는것이 목표. 이이를통해 새로운 데이터셋 에 대한 정확한 예측.
- 분류(Classification): 데이터가 범주형(categorical) 변수를 예측하기 위해 사용될 때 지도 학습을 ‘분류’라고 부름. 이미지에 강아지나 고양이와 같은 레이블 또는 지표(indicator)를 할당하는 경우가 해당.
- 레이블이 두 개인 경우를 이진 분류(binary classification), 범주가 두 개 이상인 경우는 다중 클래스 분류(multi-class classification)
- 회귀(Regression): 연속 값을 예측할 때 문제는 회귀
- 예측(Forecasting): 과거 및 현재 데이터를 기반으로 미래를 예측하는 과정. 예측은 동향(trends)을 분석하기 위해 가장 많이 사용.
2. 비지도(자율) 학습(Unsupervised learning)
비지도 학습을 수행할 때 기계는 미분류 데이터만을 제공 받습니다. 그리고 기계는 클러스터링 구조(clustering structure), 저차원 다양체(low-dimensional manifold), 희소 트리 및 그래프(a sparse tree and graph) 등과 같은 데이터의 기저를 이루는 고유 패턴을 발견하도록 설정됩니다.
- 클러스터링(Clustering): 특정 기준에 따라 유사한 데이터 사례들을 하나의 세트로 그룹화합니다. 이 과정은 종종 전체 데이터 세트를 여러 그룹으로 분류하기 위해 사용되는데요. 사용자는 고유한 패턴을 찾기 위해 개별 그룹 차원에서 분석을 수행할 수 있습니다.
- 차원 축소(Dimension Reduction): 고려 중인 변수의 개수를 줄이는 작업입니다. 많은 애플리케이션에서 원시 데이터(raw data)는 아주 높은 차원의 특징을 지니는데요. 이때 일부 특징들은 중복되거나 작업과 아무 관련이 없습니다. 따라서 차원수(dimensionality)를 줄이면 잠재된 진정한 관계를 도출하기 용이해집니다.
3. 준지도 학습(Semi-supervised learning)
지도 학습은 데이터 분류(레이블링) 작업에 많은 비용과 시간이 소요될 수 있다는 단점을 지니고있음. 지도학습과 비지도학습의 조합으로 사용되어짐.
4. 강화 학습(Reinforcement learning)
강화 학습은 환경으로부터의 피드백을 기반으로 행위자(agent)의 행동을 분석하고 최적화. 기계는 어떤 액션을 취해야 할지 듣기 보다는 최고의 보상을 산출하는 액션을 발견하기 위해 서로 다른 시나리오를 시도.
ML 모델링 과정
- 데이터셋 구축 : 필요한 데이터를 수집하는 과정