Published: Jun 15, 2020 by Dev-hwon
로지스틱 회귀(Logistic Regression)
- 어떤 사건이 발생할지에 대한 직접 예측이 아니라그 사건이 발생할 확률을 예측
1. Model with a Binary Response Variable
yi=β0+β1xi,yi=0or1 P(yi=1|xi)=πiP(yi=0|xi)=1−πi E(yi|Xi)=∑yi=0or1yiP(yi|Xi)=1×+0×(1−pii)=πi1.1 응답 변수가 이진일때의 문제점
(1) Normal error term
whenyi=1,εi=1−β0=β1xiwhenyi=0,εi=−β0=β1xi- 결과적으로, εi가 정상적으로 분포한다고 가정하는 정상 오차 회귀 모델은 적합하지 않다.
(2) Nonconstant variace of error
Givenyi=E(yi)+εiεi=yi−E(yi)V(εi)=V(yi) V(yi)=E{(yi−E(yi))2}=∑yi=0or1(yi−E(yi))2⋅P(yi)=(1−πi)2πi+(0−πi)2(1−πi)=πi(1−πi)=E(yi)(1−E(yi))=V(εi)- 결과적으로 오차항의 분산은 각 관측치 (상수 분산이 아님)에 따라 달라진다.
(3) Constant on response function
E(yi)=πi0≤E(yi)≤1위의 세가지 문제는 일반 선형 회귀 모형에 사용되는 선형 반응 함수를 선택할 때 심각한 문제이다.
일반적으로 반응 변수가 이항인 경우 반응 함수가 비선형이어야 한다는 경험적 증거가 있다.
2. 로지스틱 회귀
- 선형 회귀 개념을 반응 변수가 이진인 상황으로 확장
- 예측 변수 값을 기반으로 클래스를 알 수 없는 새 관측치를 클래스 중 하나로 분류하는데 사용
2.1 S-Curve fitting for Classification
- 많은 실제 상황에서 예측 변수의 확률을 S-Curve 모양으로 변경할 수 있다.
2.2 로지스틱 회귀 모델
- simple logistic regression
2.3 Odds and Logit Transform
- 로지스틱 반응 함수를 정의하려면 먼저 Odds를 정의해야한다.
-
Odds: π(X−x)1−π(X=x)→Probability of belonging to class 1→Probability of belonging to class 00<Odds<1
-
Odds에 따라 “Logit”을 도출 할 수 있다
2.4 Simple logistic regression & Multiple logistic regression
- Simple logistic regression
- Multiple logistic regression
2.5 로지스틱 회귀 모형의 모수 추정
- 로지스틱 회귀의 모수는 최대 우도 추정 (MLE)으로 얻을 수 있다.
{P(yi=1)=π1P(yi=0)=1−π1fi(yi)=πyii(1−πi)1−yi By Bernoulli probability mass function
- 트레이닝 데이터 X의 가능성 및 로그 가능성은 다음과 같이 정의 될 수 있다:
-
MLE : 우리가 보유한 데이터를 얻을 가능성을 최대화하는 추정치를 찾기 위해
-
로지스틱 회귀의 최적 매개 변수는 다음 방정식을 최대화하여 추정 할 수 있다.
ln L은 β의 오목한 함수이다.
ln L을 최대화하는 닫힌 형태의 솔루션은 없다.
최대 가능성 추정값을 계산하기 위해 Numerical search procedures를 사용할 수 있다.
- Iteratively reweight least square
- Newton-Raphson (Gradient Ascent)
- Stochastic gradient ascent
2.6 Fitted Logistic Regression Model
ˆy=ˆπ(X=x)=eˆβTx1+eˆβTx=11+e−ˆβTx- 적합 된 로지스틱 회귀 모델을 사용하여 새 객체의 클래스 레이블을 분류 할 수 있다.
- 일반적으로 분류의 컷오프 값은 0.5이다.
2.7 로지스틱 회귀 함수의 기하학적 해석
- 로지스틱 회귀 함수는 p 차원 데이터를 분류하기 위해 (p-1) 차원 초평면으로 간주 될 수 있다.
2.8 βi에 대한 해석
odds(x1+1,⋯,xn)odds(x1,⋯,xn=eβ0+β1(x1+1)+β2x2+⋯+βnxneβ0+β1(x1)+β2x2+⋯+βnxn=eβ1- βi가 양수일 경우, Xi는 P(y=1)와 양의 상관 관계가 있다
- βi가 음수일 경우, Xi는 P(y=1)와 음의 상관 관계가 있다