[데이터분석] 로지스틱 회귀분석(오즈를 왜 쓸까?)
1. 로지스틱 회귀분석
- 확률은 0~1로 값이 제한되며, 0과 1근처에서 변화가 비대칭적이다 (0.1→0.2가 0.8→0.9보다 변화량 크다)
- 확률을 로그오즈로 변환해 선형 모델을 만들고, 시그모이드 함수를 사용해 다시 0~1 범위의 확률로 변환
- 선형 관계는 독립 변수와 종속 변수간의 영향을 직관적으로 이해할 수 있기 때문!
1) 오즈란?
- 한 사건이 발생할 확률과 발생하지 않을 확률의 비율
2) 오즈를 사용하는 이유
- 해석의 일관성과 상대적 중요성 비교를 쉽게 하기 위해서
- 확률만 사용하면 변화량이 같아도, 초기 값에 따라 변화의 중요성이 다르게 보이는 비일관성이 발생
- 변수 중요성을 비교하거나 최적화 방향을 설정하기 어렵다
- 오즈는 확률을 비율로 바꿔서 공평하게 비교
- p가 0이나 1에 가까울 경우 변화가 거의 없어 보이지만 실제로 큰 의미를 가질 수 있다.
확률 변화 비교 | 오즈의 변화 비교 | 로그오즈의 변화 비교 |
초기값에 따라 다른 확률의 변화량 (비대칭적 변화, 비선형 관계) :0또는 1에 가까워지면 변화량 커짐 범위: 0<=p<=1 |
비율로 비교 (초기값 상관X, 곱셈적관계) 확률의 비대칭적 해석 문제 완화 :0또는 1에서도 동일하게 비교 범위: 0<=오즈<=무한대 |
차이로 비교 (초기값 상관X, 선형관계) 곱셈적 관계를 덧셈적 관계로 변환 해석이 쉬워짐 비대칭성을 제거 범위: -무한대<=로그오즈<=무한대 |
case1 = (0.2-0.1) / 0.1 = 2 case2 = (0.9-0.8)/0.8 = 0.125 |
case1 = odds(p=0.2) / odds(p=0.1) = (0.2/0.8=0.25)/(0.1/0.9=0.111)= 2.25 case2 = odds(p=0.9) / odds(p=0.8) = (0.9/0.1=9)/(0.8/0.2=4)= 2.25 |
case1 = log(0.25)-log(0.111) = 0.81 case2 = log(9)- log(4) = 0.81 |
3) 오즈의 해석
- p = 0.5 일때(오즈=1): 동일한 확률
- p > 0.5 일때(오즈>1): 발생할 확률이 더 높다
- p < 0.5 일때(오즈<1): 발생하지 않을 확률이 더 높다
- p = 0일때 오즈는 0, p=1일때 무한대이므로 오즈의 범위는 0 <= odds<= 무한대이다.
4) 로그 오즈
- 로그오즈 정의: 확률의 비대칭적 특성을 제거하고 선형화, -무한대~ +무한대의 값을 갖게됨
- 로그오즈를 독립 변수와 회귀계수의 선형 결합으로 모델링
5) 시그모이드 함수 : σ(z)
- 로그 오즈를 다시 확률p로 정리 : 선형 모델의 출력을 0과 1사이의 확률 값으로 변환
- 시그모이드 함수로 표현