회귀

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

susinlee 님의 블로그

회귀 본문

학습/머신러닝

회귀

susinlee 2025. 1. 30. 15:35

대표적인 회귀 모델 소개

선형 회귀 (Linear Regression)
- 설명: 가장 기본적인 회귀 모델로, 종속 변수와 독립 변수 간의 선형 관계를 가정합니다
- 장점:
  - 간단하고 구현이 쉬움
  - 데이터가 선형 관계일 때 좋은 성능
- 단점:
  - 데이터가 선형 관계가 아닐 경우 성능이 저하됨
  - 이상치에 민감
릿지 회귀 (Ridge Regression) & 라쏘 회귀 (Lasso Regression)
- 릿지 회귀
  - 릿지 회귀는 L2 정규화 사용
  - 손실 함수에 계수의 제곱합 패널티를 추가
  - 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n B_i^2$$
  - RSS : 잔차 제곱
  - $\lambda$ : 정규화 강도를 조정하는 하이퍼파라미터
  - $\beta$ : 회귀 계수
  - 작동방식
    - 릿지는 모든 변수의 중요도를 고려하며, 회귀 계수의 크기를 줄여 과적합을 방지
    - 큰 회귀 계수를 가진 변수는 패널티에 의해 작아짐
- 라소 회귀
  - L1 정규화를 사용
  - 손실 함수에 꼐수의 절댓값 합 패널티를 추가
  - 목적 함수:$$RSS+\lambda\cdot\sum_{i=1}^n |\beta_i|$$
  - 작동방식
    - 라쏘는 일부 회귀 계수를 0으로 만들어 변수 선택(feature selection) 기능을 제공
    - 덜 중요한 변수는 패널티에 의해 제거됨
- 하이브리드 모델: 엘라스팃넥 (ElasticNet)
  - 설명: 릿지와 라쏘의 장점을 결합한 모델로, L1과 L2 정규화를 동시에 사용
  - 목적함수:$$RSS+\alpha\cdot(\lambda 1\cdot\sum |\beta i|+\lambda 2\cdot\sum \beta i2)$$
  - 장점:
    - 변수 선택과 다중 공선성 문제를 동시에 처리
    - 데이터에 따라 릿지와 라쏘의 효과를 조절 가능
서포트 벡터 회귀 (Support Vector Regression, SVR)
- 설명: 서포트 벡터 머신(SVM)을 기반으로 한 회귀 모델로, 마진 내에 최대한 많은 데이터를 포함하면서 예측
- 장점:
  - 고차원 데이터에서도 효과적
  - 커널을 사용해 비선형 관계 모델링 가능
- 단점:
  - 큰 데이터셋에서는 계산 비용이 높음
- SVR의 원리
  1. SVM 기본 아이디어:
    - 목표는 예측 값이 실제 값과 $\epsilon$ 이하의 차이를 갖도록 하는 함수 $f(x)$를 찾는 것
    - 허용된 오차 $\epsilon$ 안에서는 예측이 "완벽하다"고 간주하며, 이 오차를 초과한 데이터 포인트에만 패널티를 부여
    - SVM 분류는 기준선과 샘플(서포트 벡터) 간의 거리(마진)가 최대가 되도록 하며, 기준선과 마진 사이에 샘플이 최대한 적게 들어가도록(마진 오류가 적도록) 선을 긋는 것
  2. SVM 회귀:
    - 회귀는 분류와 같이 기준선과 샘플 간의 거리(마진)는 최대한으로 하지만, 분류와 달리 마진 내에 샘플들이 많이 들어가도록 하며 기준선을 긋는다는 차이가 존재
  3. 커널 함수:
    - SVR은 SVM과 마찬가지로 선형/비선형 관계를 처리하기 위해 다양한 커널 함수(선형, 다항식, RBF 등)를 사용할 수 있음
- SVR 하이퍼파라미터
  - C:
    - 규제 파라미터로 초과 오차($\epsilon$)에 대한 페널티를 조정
    - 값이 클수록 초과 오차에 더 민감하게 반응하여 모델이 더 복잡해짐
  - epsillon:
    - 허용 오차의 크기를 지정. 작은 값일수록 정밀한 예측을 하며, 큰 값일수록 덜 민감한 모델을 생성
  - 커널:
    - SVR의 결정 함수 모양을 결정 (예: 'linaer', 'poly', 'rbf')
k-최근접 이웃 회귀 (k-Nearest Neighbors Regression)
- 설명: 데이터의 k개의 최근접 이웃 값을 평균 내어 예측
- 장점:
  - 간단하고 직관적
  - 모델 학습 시간이 없음
- 단점:
  - 많은 데이터에서는 계산 비용이 높음
  - 데이터 스케일에 민감
인공 신경망 (Artifical Neural Networks, ANN)
- 다층 퍼셉트론(MLP)을 이용한 모델로, 비선형 관계를 효과적으로 학습 가능
- 장점:
  - 매우 복잡한 데이터에서도 우수한 성능
  - 이미지, 텍스트, 시계열 데이터 등 다양한 입력 데이터 지원
- 단점:
  - 과적합 가능성
  - 많은 데이터와 계산 자원이 필요
랜덤 포레스트 회귀
- 여러 개의 결정 트리를 앙상블하여 평균을 내는 회귀 모델
- 장점:
  - 비선형 데이터에도 강력한 성능
  - 과적합 방지에 강함
- 단점:
  - 해석이 어려움(블랙박스 모델)
그래디언트 부스팅 회귀 (Gradient Boosting Regression)
- 약한 학습기(주로 결정 트리)를 순차적으로 학습하여 오차를 줄여 나가는 앙상블 기법
  - XGBoost, LightGBM, CatBoost 등이 대표적
- 장점:
  - 고성능, 다양한 데이터에서 우수한 결과
  - 특성 중요도를 해석 가능
- 단점:
  - 계산 비용이 높음

'학습 > 머신러닝' 카테고리의 다른 글

손실, 비용, 목적 함수 (0)	2025.02.09
앙상블 (0)	2025.02.02
결측치 (0)	2025.01.30
분류 (0)	2025.01.29
군집 (0)	2025.01.26

'학습/머신러닝' Related Articles

susinlee 님의 블로그

회귀 본문

회귀

'학습 > 머신러닝' 카테고리의 다른 글

티스토리툴바