티스토리 뷰

SoftWare/머신러닝

Regression 종류 및 특징

White Whale 2018. 2. 9. 12:16
728x90

1. 개요

 학습 모델을 선정하기에 앞서 학습할 데이터의 분포의 특징에 따라 어떠한 회귀법을 사용할지 선택해야한다. 회귀법을 선택할때 고려할 요소는 독립 변수이 수, 종속 변수의 유형 그리고 회귀선의 형태가 있다. 해당 글은 analyticsvidhya의 글을 번역한 것이라고 보면 된다.



2. Regression 종류

 1. Linear Regression

 가장 널리 알려진 모델링 기술 중 하나이며 종속 변수(Y)는 연속적이며 독립 변수(X)는 연속적이거나 이산적일 수 있으며 회귀선은 선형을 가진다. 방정식 Y = a + b*X로 표시되며, 여기서 a는 절편이고, b는 선의 기울기, e는 오차 항을 나타낸다. 

 단순 선형 회귀과 다중 선형 회귀의 차이점은 독립 변수(X)의 수에 따라 결정된다. 학습한 선에 대해서는 최소 제곱법(Least Square Method)으로 정확도를 측정할 수 있다.

주요 사항

 독립 변수와 종속 변수 사이에는 선형 관계가 있어야 한다.

 다중 회귀 분석은 multicollinearityautocorrelationheteroskedasticity으로 인해 학습에 어려움을 격는다.

 복수의 독릭 변수의 경우, 중요한 독립 변수를 선택함으로 변수의 수를 줄인다. 방법으로는 forward selection, backward elimination and stepwise approach가 있다.


 2. Logistic Regression

 로지스틱 회귀 분석은 true인지 false인지 확률을 찾는데 사용한다. 즉 종속변수(Y)가 이진(1/0, 참/거짓, 예/아니요)일 때 사용하는 회귀 분석이다. 여기서 Y값은 0에서 1까지이며 다음 방정식으로 나타낸다.

위 수식에서 P는 Y가 1이 될 확률이다. 앞서 말했듯이 종속 변수 Y는 이진 즉 2개의 결과 중 하나를 가진다. 



여기서 우리는 이항 분포(종속변수(Y))로 작업하기 때문에 이 분포에 가장 적합한 함수(수식)을 선택해야하고 그것으로 가장 적합한 수식이 Logit 함수이다.


위 수식에서 매개 변수는 제곱 오류 합계를 최소화하는 대신 샘플 값을 관찰 할 가능성을 최대화하도록 선택된다.


주요 사항

 Classification Problem에 사용된다.

 종속 변수(Y)와 독립 변수(x) 간의 선형 관계를 요구하지 않는다. 예측 된 교차비에 비선형 로그 변환을 적용하기 때문에 다양한 유형의 관계를 처리할 수 있다.

 과도한 피팅과 피팅 부족을 피하려면 모든 중요한 변수를 포함해야합니다.

 독립 변수간 상관관계가 있으면 안된다. 즉 다중 공선성이 없어야한다.

 종속 변수의 값이 서수인 경우 서수로 로지스틱 회귀로 호출된다.

 종속 변수가 다중 클레스이면 다항 로지스틱 회귀를 이용한다.


 3. Polynomial Regression

 이름 그대로 방정식이 다항식이 되는 회귀법이다.


해당 회귀법은 데이터 분포의 형태가 직선이 아닌 곡선에 알맞는 모델이다.


주요 사항

 더 낮은 차수의 오차를 얻기 위해 고차 다항식을 사용할 수 있지만, 이는 과도한 피팅을 초래할 수 있다. 


4. Stepwise Regression

 이 회귀 양식은 여러 독립 변수를 다룰 때 사용됩니다. 이 기술에서 독립 변수의 선택은 인간의 개입이 필요없는 자동 프로세스의 도움으로 수행된다. 단계별 회귀 분석은 기본적으로 지정된 기준에 따라 한 번에 하나씩 공변수를 추가 / 삭제하여 회귀 모델에 적합(적용)한다. 가장 일반적으로 사용되는 Stepwise 회귀 분석법 중 일부는 다음과 같다.

 표준 단계별 회귀는 두 가지를 한다. 필요에 따라 각 단계마다 예츠 변수를 추가하고 제거한다.

 Forward selection은 모델에서 가장 중요한 변수부터 시작하고 단계별로 변수를 추가한다.

 Backward elimination은 모델의 모든 변수를 적용후 각 단계의 가장 중요한 변수를 제거한다.

해당 모델링 기법의 목적은 최소 개수의 예측 변수로 예측 효율을 최대화하는 것이다.


5. Ridge Regression 

 Ridge 회귀는 데이터가 다중공선성을 가질 때 사용하는 기술이다. 즉 독립 변수간 높은 상관 관계가 있을 때 쓴다. 다중 공선성을 가지면 least squares estimates (OLS, 최소 제곱 추정)이 편파적이지 않지만 그들의 분산이 커져서 관측값이 실제 값과 많은 차이를 가진다. 이때 회귀 추정치에 일정 정도의 값을 추가함으로써 표준 오차를 줄인다.


 선형 방정식에서 예측 오차는 두개의 하위 구성 요소로 분해 될 수 있다. 하나는 편파(the biased)이고 다른 하나는 편차(the variance) 때문이다. 예측 오류는 이 두 가지 또는 둘 중 하나로 인해 생성 될 수 있다. Ridge 회귀는 shrinkage parameter λ (λ)를 통해 다중 공선성 문제를 해결한다. 방정식은 아래와 같다.


 위 방정식에는 두 가지 구성 요소가 있다. 하나는 최소 제곱항이고 다른 하나는 β제곱의 계수인 λ이다. 이는 매개 변수를 줄이기 위해 최소 제곱 항에 더해져 매우 낮은 분산을 갖는다.


주요 사항

 이 회귀의 가정은 정규성을 가정하지 않은 최소 제곱 회귀 분석과 동일하다.

 계수의 값은 줄이지만 0에 미치지는 않는다.

 해당 방식은 Regularization Method이며 L2-Regularization이다.


6. Lasso Regression 

 Ridge Regression과 똑같이 Lasso Regression도 회귀 계수의 절대 크기에 불이익을 준다. 또한 선형 회귀 모델의 가변성을 줄이고 정확도를 향상시킬 수 있다.

Lasso Regression은 페널티 인자에서 절대 값을 사용하는 함으로 Ridge Regression과 다르다. 이는 매개 변수 추정 중 일부가 정확히 0이 된다. 페널티를 더 많이 적용하면 추산치가 0(absolute zero)으로 축소 된다.


주요 사항

 이 회귀의 가정은 정규성을 가정하지 않은 최소 제곱 회귀 분석과 동일하다.

 계수를 0으로 줄이면 Feature 선택에 도움이 된다.

 해당 방식은 정규화 방법이며 L1-Regularizaion이다.

 예측 구훕의 상관 관계가 높으면 Lasso는 그중 하나만 선택하고 나머지는 0으로 변경한다.


7. ElasticNet Regression 

 ElasticNet Regression은 Ridge Regression과 Lasso Regression의 하이브리드 회귀법이다.

위 수식을 보면 β의 제곱과 β의 절대값 2개 모두가 각각의 계수를 가지고 더해지는 것을 알수있다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함