susinlee 님의 블로그
회귀 본문
대표적인 회귀 모델 소개
- 선형 회귀 (Linear Regression)
- 설명: 가장 기본적인 회귀 모델로, 종속 변수와 독립 변수 간의 선형 관계를 가정합니다
- 장점:
- 간단하고 구현이 쉬움
- 데이터가 선형 관계일 때 좋은 성능
- 단점:
- 데이터가 선형 관계가 아닐 경우 성능이 저하됨
- 이상치에 민감
- 릿지 회귀 (Ridge Regression) & 라쏘 회귀 (Lasso Regression)
- 릿지 회귀
- 릿지 회귀는 L2 정규화 사용
- 손실 함수에 계수의 제곱합 패널티를 추가
- 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n B_i^2$$
- RSS : 잔차 제곱
- $\lambda$ : 정규화 강도를 조정하는 하이퍼파라미터
- $\beta$ : 회귀 계수
- 작동방식
- 릿지는 모든 변수의 중요도를 고려하며, 회귀 계수의 크기를 줄여 과적합을 방지
- 큰 회귀 계수를 가진 변수는 패널티에 의해 작아짐
- 라소 회귀
- L1 정규화를 사용
- 손실 함수에 꼐수의 절댓값 합 패널티를 추가
- 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n |\beta_i|$$
- 작동방식
- 라쏘는 일부 회귀 계수를 0으로 만들어 변수 선택(feature selection) 기능을 제공
- 덜 중요한 변수는 패널티에 의해 제거됨
- 하이브리드 모델: 엘라스팃넥 (ElasticNet)
- 설명: 릿지와 라쏘의 장점을 결합한 모델로, L1과 L2 정규화를 동시에 사용
- 목적함수:$$RSS+\alpha\cdot(\lambda 1\cdot\sum |\beta i|+\lambda 2\cdot\sum \beta i2)$$
- 장점:
- 변수 선택과 다중 공선성 문제를 동시에 처리
- 데이터에 따라 릿지와 라쏘의 효과를 조절 가능
- 릿지 회귀
- 서포트 벡터 회귀 (Support Vector Regression, SVR)
- 설명: 서포트 벡터 머신(SVM)을 기반으로 한 회귀 모델로, 마진 내에 최대한 많은 데이터를 포함하면서 예측
- 장점:
- 고차원 데이터에서도 효과적
- 커널을 사용해 비선형 관계 모델링 가능
- 단점:
- 큰 데이터셋에서는 계산 비용이 높음
- SVR의 원리
- SVM 기본 아이디어:
- 목표는 예측 값이 실제 값과 $\epsilon$ 이하의 차이를 갖도록 하는 함수 $f(x)$를 찾는 것
- 허용된 오차 $\epsilon$ 안에서는 예측이 "완벽하다"고 간주하며, 이 오차를 초과한 데이터 포인트에만 패널티를 부여
- SVM 분류는 기준선과 샘플(서포트 벡터) 간의 거리(마진)가 최대가 되도록 하며, 기준선과 마진 사이에 샘플이 최대한 적게 들어가도록(마진 오류가 적도록) 선을 긋는 것
- SVM 회귀:
- 회귀는 분류와 같이 기준선과 샘플 간의 거리(마진)는 최대한으로 하지만, 분류와 달리 마진 내에 샘플들이 많이 들어가도록 하며 기준선을 긋는다는 차이가 존재
- 커널 함수:
- SVR은 SVM과 마찬가지로 선형/비선형 관계를 처리하기 위해 다양한 커널 함수(선형, 다항식, RBF 등)를 사용할 수 있음
- SVM 기본 아이디어:
- SVR 하이퍼파라미터
- C:
- 규제 파라미터로 초과 오차($\epsilon$)에 대한 페널티를 조정
- 값이 클수록 초과 오차에 더 민감하게 반응하여 모델이 더 복잡해짐
- epsillon:
- 허용 오차의 크기를 지정. 작은 값일수록 정밀한 예측을 하며, 큰 값일수록 덜 민감한 모델을 생성
- 커널:
- SVR의 결정 함수 모양을 결정 (예: 'linaer', 'poly', 'rbf')
- C:
- k-최근접 이웃 회귀 (k-Nearest Neighbors Regression)
- 설명: 데이터의 k개의 최근접 이웃 값을 평균 내어 예측
- 장점:
- 간단하고 직관적
- 모델 학습 시간이 없음
- 단점:
- 많은 데이터에서는 계산 비용이 높음
- 데이터 스케일에 민감
- 인공 신경망 (Artifical Neural Networks, ANN)
- 다층 퍼셉트론(MLP)을 이용한 모델로, 비선형 관계를 효과적으로 학습 가능
- 장점:
- 매우 복잡한 데이터에서도 우수한 성능
- 이미지, 텍스트, 시계열 데이터 등 다양한 입력 데이터 지원
- 단점:
- 과적합 가능성
- 많은 데이터와 계산 자원이 필요
- 랜덤 포레스트 회귀
- 여러 개의 결정 트리를 앙상블하여 평균을 내는 회귀 모델
- 장점:
- 비선형 데이터에도 강력한 성능
- 과적합 방지에 강함
- 단점:
- 해석이 어려움(블랙박스 모델)
- 그래디언트 부스팅 회귀 (Gradient Boosting Regression)
- 약한 학습기(주로 결정 트리)를 순차적으로 학습하여 오차를 줄여 나가는 앙상블 기법
- XGBoost, LightGBM, CatBoost 등이 대표적
- 장점:
- 고성능, 다양한 데이터에서 우수한 결과
- 특성 중요도를 해석 가능
- 단점:
- 계산 비용이 높음
- 약한 학습기(주로 결정 트리)를 순차적으로 학습하여 오차를 줄여 나가는 앙상블 기법