susinlee 님의 블로그

회귀 본문

학습/머신러닝

회귀

susinlee 2025. 1. 30. 15:35

대표적인 회귀 모델 소개

  1. 선형 회귀 (Linear Regression)
    • 설명: 가장 기본적인 회귀 모델로, 종속 변수와 독립 변수 간의 선형 관계를 가정합니다
    • 장점:
      • 간단하고 구현이 쉬움
      • 데이터가 선형 관계일 때 좋은 성능
    • 단점:
      • 데이터가 선형 관계가 아닐 경우 성능이 저하됨
      • 이상치에 민감
  2. 릿지 회귀 (Ridge Regression) & 라쏘 회귀 (Lasso Regression)
    • 릿지 회귀
      • 릿지 회귀는 L2 정규화 사용
      • 손실 함수에 계수의 제곱합 패널티를 추가
      • 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n B_i^2$$
      • RSS : 잔차 제곱
      • $\lambda$ : 정규화 강도를 조정하는 하이퍼파라미터
      • $\beta$ : 회귀 계수
      • 작동방식
        • 릿지는 모든 변수의 중요도를 고려하며, 회귀 계수의 크기를 줄여 과적합을 방지
        • 큰 회귀 계수를 가진 변수는 패널티에 의해 작아짐
    • 라소 회귀
      • L1 정규화를 사용
      • 손실 함수에 꼐수의 절댓값 합 패널티를 추가
      • 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n |\beta_i|$$
      • 작동방식
        • 라쏘는 일부 회귀 계수를 0으로 만들어 변수 선택(feature selection) 기능을 제공
        • 덜 중요한 변수는 패널티에 의해 제거됨
    • 하이브리드 모델: 엘라스팃넥 (ElasticNet)
      • 설명: 릿지와 라쏘의 장점을 결합한 모델로, L1과 L2 정규화를 동시에 사용
      • 목적함수:$$RSS+\alpha\cdot(\lambda 1\cdot\sum |\beta i|+\lambda 2\cdot\sum \beta i2)$$
      • 장점:
        • 변수 선택과 다중 공선성 문제를 동시에 처리
        • 데이터에 따라 릿지와 라쏘의 효과를 조절 가능
  3. 서포트 벡터 회귀 (Support Vector Regression, SVR)
    • 설명: 서포트 벡터 머신(SVM)을 기반으로 한 회귀 모델로, 마진 내에 최대한 많은 데이터를 포함하면서 예측
    • 장점:
      • 고차원 데이터에서도 효과적
      • 커널을 사용해 비선형 관계 모델링 가능
    • 단점:
      • 큰 데이터셋에서는 계산 비용이 높음
    • SVR의 원리
      1. SVM 기본 아이디어:
        • 목표는 예측 값이 실제 값과 $\epsilon$ 이하의 차이를 갖도록 하는 함수 $f(x)$를 찾는 것
        • 허용된 오차 $\epsilon$ 안에서는 예측이 "완벽하다"고 간주하며, 이 오차를 초과한 데이터 포인트에만 패널티를 부여
        • SVM 분류는 기준선과 샘플(서포트 벡터) 간의 거리(마진)가 최대가 되도록 하며, 기준선과 마진 사이에 샘플이 최대한 적게 들어가도록(마진 오류가 적도록) 선을 긋는 것
      2. SVM 회귀:
        • 회귀는 분류와 같이 기준선과 샘플 간의 거리(마진)는 최대한으로 하지만, 분류와 달리 마진 내에 샘플들이 많이 들어가도록 하며 기준선을 긋는다는 차이가 존재
      3. 커널 함수:
        • SVR은 SVM과 마찬가지로 선형/비선형 관계를 처리하기 위해 다양한 커널 함수(선형, 다항식, RBF 등)를 사용할 수 있음
    • SVR 하이퍼파라미터
      • C:
        • 규제 파라미터로 초과 오차($\epsilon$)에 대한 페널티를 조정
        • 값이 클수록 초과 오차에 더 민감하게 반응하여 모델이 더 복잡해짐
      • epsillon:
        • 허용 오차의 크기를 지정. 작은 값일수록 정밀한 예측을 하며, 큰 값일수록 덜 민감한 모델을 생성
      • 커널:
        • SVR의 결정 함수 모양을 결정 (예: 'linaer', 'poly', 'rbf')
  4. k-최근접 이웃 회귀 (k-Nearest Neighbors Regression)
    • 설명: 데이터의 k개의 최근접 이웃 값을 평균 내어 예측
    • 장점:
      • 간단하고 직관적
      • 모델 학습 시간이 없음
    • 단점:
      • 많은 데이터에서는 계산 비용이 높음
      • 데이터 스케일에 민감
  5. 인공 신경망 (Artifical Neural Networks, ANN)
    • 다층 퍼셉트론(MLP)을 이용한 모델로, 비선형 관계를 효과적으로 학습 가능
    • 장점:
      • 매우 복잡한 데이터에서도 우수한 성능
      • 이미지, 텍스트, 시계열 데이터 등 다양한 입력 데이터 지원
    • 단점:
      • 과적합 가능성
      • 많은 데이터와 계산 자원이 필요
  6. 랜덤 포레스트 회귀
    • 여러 개의 결정 트리를 앙상블하여 평균을 내는 회귀 모델
    • 장점:
      • 비선형 데이터에도 강력한 성능
      • 과적합 방지에 강함
    • 단점:
      • 해석이 어려움(블랙박스 모델)
  7. 그래디언트 부스팅 회귀 (Gradient Boosting Regression)
    • 약한 학습기(주로 결정 트리)를 순차적으로 학습하여 오차를 줄여 나가는 앙상블 기법
      • XGBoost, LightGBM, CatBoost 등이 대표적
    • 장점:
      • 고성능, 다양한 데이터에서 우수한 결과
      • 특성 중요도를 해석 가능
    • 단점:
      • 계산 비용이 높음

 

'학습 > 머신러닝' 카테고리의 다른 글

손실, 비용, 목적 함수  (0) 2025.02.09
앙상블  (0) 2025.02.02
결측치  (0) 2025.01.30
분류  (0) 2025.01.29
군집  (0) 2025.01.26