Basic Machine Learning : Supervised Learning

Supervised learning - Overview

💡

머신러닝은 data-driven algorithm design이라고도 한다. 이 때 data의 specification이 애매할 수 있다. 예를 들어 얼굴 사진이라고 할 때, 표정, 각도 등등 어떤 것을 ‘얼굴’이라고 정의할 것인지에 대한 분류체계가 모호하다. 대신, example이 주어진다. input-output pairs가 주어진 상황에서, 이를 이용해 ‘얼굴’이라는 specification을 찾아낼 수 있느냐가 관건

우리에게 주어지는 것들

어떤 input-output pairs가 training set으로 주어지고,

머신러닝 모델 M이 training sets를 받아서 output을 냈을 때, 실제 training set과의 차이를 알 수 있는 function이 주어진다(loss function)

평가용 sets가 주어진다. (validation & test)

결정해야하는 것들

가설 (hyperthesis) ex svm 등등... 뭘로 할 건지

최적화 알고리즘 (optimization algorithm)

그럼 supervised learning은 뭘 하나? — 적절한 algorithm과 model을 자동으로 찾는다!

최적화 알고리즘을 이용해서 각 가설 안의 가장 좋은 모델을 찾는다.

training set을 사용해 가설 별 최적의 모델을 찾는다

model selection : validation set을 사용해 그 중 가장 잘되는 것을 뽑는다 (hyperparameter optimization이 이 단계에 해당된다)

reporting : test set으로 평가 (이 때, 각 set들은 절대 섞이면 안되고, 데이터가 주어졌을 때 잘 나눠야 한다.)

그러니까 overview 뭐냐면

큰 데이터 셋을 training, validation, test로 구분

각 fair example 을 모델에 넣어 실제와의 차이를 측정할 수 있는 loss function

hyperthesis 정하고

opimization algorithm 정해서 머신에 주면

모델과 알고리즘을 자동으로 찾아준다

즉, 뭐가 중요하냐면

hypothesis set 결정과 디자인

loss function 결정 — (구체적으로는 프록시)

optimization methods 결정

💡

전체요약 - hypothesis set 만들기. - 다시말해 DAG 디자인을 함으로써 neural net architecture 정하는 것. - parameter를 어떻게 하는지에 따라 hypothesis 가 결정됨. - hypothesis를 만들 때 최종적으로 해야하는 건 loss function 정하기. - neural network 자체가 특정 value가 아니라 distribution을 output하게 하는 방법이 효율적임 - distribution이 output되면 negative log probability를 사용해서 loss function을 확정할 수 있음. - 어떻게 좋은 모델을 찾는가에 대한 것은 optimization methods. - hypothesis set은 방대하므로, gradient based optimization 활용한다. - gradient는 backpropagation algorithm을 사용해 계산 (framework 개발자들이 module로 만들어두었으니 가져다 사용하면 된다.) 이래도 full gradient 계산하기에 비효율적이라면, stochastic gradient descent algorithm을 사용해 approximation을 계산한다. 이 때 early stopping을 잘 해야하며 learning rate 계산이 힘들 때는 adaptive learning rate algorithm을 사용해야한다.

How to decide Hypothesis set

어떤 종류의 문제를 처리할 건지? 예를들어 classification인지, regression인지 등등..

이에 따라 SVM일지 Naive bayes classifier일지 등등 / SVR일지 linear regression일지 gaussian process일지 등등.. 정한다.

hyperparameters set은 어떻게 할지

이걸 정할 때마다 hypothesis set이 하나씩 생기는 것임

일반적으로 NN의 경우 정해야하는 건 2개. (weights, bias vector)

neural network architecture을 어떻게 디자인하나?

정해진 것이 없다. 대신 어떤 알고리즘이나 아키텍쳐가 있는지 참고할 수 있다

DAG (참고)

예를 들어 classification을 하고 싶은데..

logistic regression
- positive / negative class 분류
- dot product + bias + sigmoid function
- 장점 : reusability — tensorflow, pytorch 등에서 node를 구현해두었기 때문에 연결점만 고민하면 됨
- 즉, 그래프를 그리고 hyperparameter 값 설정하면 끝

How to decide a loss function

loss function을 어떻게 define 할까?

보통 잘 쓰는 것들 MSE .. MLL 이런게 있긴 한데 쓰다보면 어째서 그걸 써야하는지 궁금증이 생기기 시작 — 사실은 probability 를 고려하는 것이었다!

probability

사건집합(Event Set) : 모든 가능한 사건의 집합
- Ω={e1,e2,⋯,eD}
- 이벤트 갯수가 유한일때 : 이산(Descrete)
- 이벤트 갯수가 무한일때 : 연속(Continuous)

확률변수(Random Variable): 사건집합 안에 속하지만 정의되지 않은 어떤 값. event set 중 어떤 것이라도 될 수 있다.

확률(Probability): 사건집합에 속한 확률변수에게 어떤 값을 지정해주는 함수
- p(X=ei)
- x 가 i번째 event를 가지는 것이 ‘얼마나 가능한지’ 측정

특성(Properties)
1. Non-negatives: p(X=ei)≥0 , 확률은 (-)가 될 수 없음.
1. Unit volume: ∑e∈Ωp(X=e)=1 , 모든 확률의 합은 1.

probability로 어떻게 비용함수 (loss function)를 찾나?

Input(x) 값이 주어졌을 때 의 Output(y) 값이 y’ 일 확률을 구하는 것

인공신경망 모델이 조건부 확률 분포를 출력하면 이를 사용해서 비용함수를 정의 할 수 있다!

그렇다면 어떤 확률 분포가 있나?

이진 분류: 베르누이(Bernoulli) 분포
- y가 0일 확률 (1-뮤)
- y가 1일 확률 (뮤)
- 즉 파라미터가 뮤 (0<뮤<1) 하나 → 여기에 sigmoid function(input을 0또는 1로 매핑해주는 함수)를 적용해 distribution output 만들어냄

다중 분류: 카테고리(Categorical) 분포
- 예를들어 text classification. 아웃풋이 세 개 이상일 때.
- 나온 모든 output을 더했을 때 1이 되어야 함
- softmax function(다 더한 후 1로 노멀화, 비율로 나눠버린다)
- function space 관점으로 볼 때 sigmoid function과 softmax function이 비슷해보이지만, parameter space 관점에서 둘은 동일하지 않으므로 구분해 사용.

선형 회귀: 가우시안(Gaussian) 분포

다항 회귀: 가우시안 믹스쳐(Mixture of Gaussians)

자동으로 비용함수(loss function)정의하기

인공신경망 모델이 조건부 확률 분포를 출력하면 이를 사용해서 비용함수를 정의 할 수 있다.
- 최대한 모델이 출력한 조건부 확률 분포가 훈련 샘플의 확률분포와 같게 만드는 것.
- 즉 모든 훈련 샘플이 나올 확률을 최대화
- 최대 우도 추정(Maximum Likelihood Estimation) : 자동으로 loss function 정의할 수 있다.

최소화를 하기 위해서 앞에 마이너스 부호를 붙여줍니다. (-1 을 곱합니다.)

최종적으로, loss function은 음의 로그확률(Negative Log-probabilities)의 합으로 결정.

How to optimize

So far,

hyperthesis를 결정하고 DAG를 그려보자.

DAG의 parameter들이 정해졌다면 무수한 hyperthesis sets 중에서 모델을 결정한 것이다.

neural network에는 당연히 output이 있을 것이다. 이 때 output이 하나의 value가 아니라 distribution이라면 음의 로그확률(Negative Log-probability)를 계산할 수 있다.

이 확률의 합이 최종적으로 loss function이 된다. loss function은 작을 수록 좋다.

즉, 지금까지 우리가 아는 것

arbitrary architecture로 neural network를 만들었다.

loss를 계산했다.

이 두가지는 DAG로 표현되었다.

이제 뭘 더 알아야 하나?

optimization algorithm 을 정해야겠고,

정한 optimization algorithm을 어떻게 DAG에 파라미터로써 활용할지 알아야겠다.

어차피 무수한 경우의 수 중 하나를 바로 찾기 힘들다면, 반복적으로 최적화하자.

random guided search
- 디멘션을 높일수록 샘플링을 많이해야해서 효율성이 떨어짐
- 장점: 어떤 비용함수를 사용해도 무관
- 단점: 차원이 작을 때는 잘 되지만, 차원의 저주 때문에 커질 수록 오래걸림. 샘플링(sampling) 에 따라서 오래걸림.
- 만약 continuous, differentiable하다면? → gradient-based optimization

gradient descent
- 미분을 활용해 최적화한다.
- learning rate 등 아주 작은 파라미터를 추가한다. 어떤 방향으로 흘러갈 때 작아지는지 알 수 있어진다.
- 한 번 gradient를 계산할 수 있다면 optimization 알고리즘을 가져다 쓸 수 있다
- random guided search와 다른 점은? learning rate- 이것을 매우 섬세하게 정해야 한다. 너무 크면 오버슈팅 일어난다.
- 장점: Random Guided search 에 비해서 탐색영역은 작지만 확실한 방향은 정할 수 있다.
- 단점: 학습률(Learning Rate)이 너무 크거나 작으면 최적의 값으로 못갈 수도 있다.

그럼 gradient를 어떻게 계산하나?

automatic differentiation (autograd, 자동미분법)
- 파라미터도 많고, 노드도 많다. gradient 계산이 어렵다. 그래서 고안된 것.
- DAG는 differentiable(미분가능) 하다. chain rule이 가능하다
- 과정
  1. 각 노드에서 Jacobian-vector product을 계산합니다.
  1. 비순환 그래프(DAG) 역순으로 전파합니다.
- 장점
  - Gradient 를 손으로 직접 계산할 필요 없음
  - [front-end]와 [back-end]의 분리
    - [front-end] 비순환 그래프(DAG)를 만듦으로써 뉴럴넷(모델)을 디자인하는데 집중.
    - [back-end] 디자인 된 비순환 그래프(DAG)는 타겟 컴퓨터 장치를 위한 효과적인 코드로 컴파일됨. — 파이토치, 텐서플로우 같은 Framework 개발자들이 타겟에 맞춰 알맞게 구현하면 사용자들은 사용만 하면 됨 (물론 알아야 도움이 되긴 한다..)

Gradient-based optimization

gradient-based optimization (경사 기반 최적화 기법)
- training set loss가 각 sample에 대한 loss의 합이므로, parameter가 많으면 시간이 오래걸린다.

stochastic gradient descent (확률적 경사 하강법)
- noise나 random value가 끼어있음.
- 데이터가 편향되었다면? correnction에 신경쓰면 된다. 몬테카를로(Monte Carlo method), 또는 important sampling. 어떤 것이 편향되었는지도 모르는 상황이라면 validation set을 조심스럽게 설정하는 수밖에 없다. natural distribution이랑 비슷하게 만들어서 early stopping을 하는 게 최선임.
- sample의 일부를 몇 개만 골라서 계산하면 전체 비용의 근사값(approximate)와 같다는 가정
1. mini batch 선택 : m개의 훈련 샘플 선택
1. mini batch 경사 계산
1. parameter 업데이트
1. validation set loss에 더 이상 진전이 없을 때 stop (early stopping)
- early stopping : overfitting 방지하기에 가장 좋은 알고리즘. validation loss 가장 낮은 곳에서 훈련을 멈추는 것.
- adaptive learning rate : stochastic gradinet descent는 learning rate에 민감함. noise가 큰 상황에서 어떤 것들을 써야 optimization 할 수 있나? → adam, adadelta 등등이 module로 나와있음.
💡

본 페이지는 조경현 교수님 ‘딥러닝을 이용한 자연어처리’ 강의를 정리한 내용입니다.

Uploaded by Notion2Tistory v1.1.0

Module and Package (0)	2021.12.29
Python Object Oriented Programming (1)	2021.12.29
RNN (0)	2021.12.29
CNN (0)	2021.12.29
Optimization (0)	2021.12.29

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

2BArtist