목록학습/머신러닝 (6)
susinlee 님의 블로그

목표시계열의 핵심 모형 AR(자기회귀)와 이동평균(MA)에 대해서 이해시계열의 자기상관성을 측정하는 ACF와 PACF의 정의를 이해하고, AR(q)와 MA(p)의 차수를 찾는 방법을 숙지시계열 모델인 AR, MA, ARMA, ARIMA, SARIMA 모델을 학습시계열 예측평가를 위한 잔차분석과 성능지표를 학습1. 정상시계열 검정방법1. ADF 검정과 단위근(Unit root)시계열 데이터에서 정상성을 확인하는 것은 매우 중요합니다. 정상성은 데이터의 평균과 분산이 시간에 따라 일정한 상태를 의미합니다. 시계열이 정상성을 만족하지 않으면, 예측 모델의 성능이 저하될 수 있습니다.AR 모형을 적용하기 전에, 시계열 데이터가 정상성을 만족하는지 검정 필요ADF(Augmented Dickey Fuller)는 단..

1. 시계열 분석이란과거의 흐름으로 미래를 예측하는 방법론 중 하나과거의 트렌드로 미래를 예측할 수 있다는 매력적인 논리로 많은 회사들이 시계열 모델을 적용하고 있으며 Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, Transfomer 등 다양한 시계열 모델들이 개발되었음2. 시계열 예측의 이해2.1 정의시계열 데이터는 시간에 따라 정렬된 데이터데이터는 주기적으로 기록되며, 이를 동일한 시간단계(timestamp)로 분포한다고 정의합니다.주식 그래프를 예로 들면, 가로 축에 표시된 대로 시간에 따라 매일 기록되었기 때문에 타임스텝이 동일다양한 X, Y 데이터로 이루어진 데이터와 달리 시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있습니다. 2.2 시계열 구성요소모든 시계열 ..

마진의 정의그 전에 짚고 넘어가야 할 것들 Linearly Nonseparable Case (Soft Margin SVM) 파이썬 코드 구현import numpy as npimport cvxoptimport matplotlib.pyplot as pltclass SVM: def __init__(self, kernel='linear', C=None, degree=3, gamma=None, coef0=1): """ SVM 모델을 초기화 - kernel: 사용할 커널 종류 ('linear', 'poly', 'rbf', 'sigmoid') - C: 소프트 마진 (Soft Margin) 설정 (None이면 하드 마진) - degree: 다항식 커..

잠시 오즈에 대한 개념을 짚고 넘어가면... 추가로...로그 가능도 함수는 원래 최대화해야 하는 함수하지만, 경사 하강법은 최소화하는 방식으로 작동함그래서 로그 가능도 앞에 - 를 붙여 최소화 문제로 변환이를 음의 로그 가능도(Negative Log-Likelihood, NLL)라고 부름 이는 곧 크로스 엔트로피(Cross-Entropy) 함수 import numpy as npclass LogisticRegression: def __init__(self, learning_rate=0.1, n_iter=1000, threshold=0.5): self.learning_rate = learning_rate self.n_iter = n_iter self.theta =..

경사하강법에 대해 조금 더 알아보자면... (독립변수 1개 가정) 코드 구현import numpy as np# 정규방정식class LinearRegression: def __init__(self): self.theta = None # 회귀 계수 def fit(self, X, y): """ 선형 회귀 학습 (정규방정식 활용) :param X: 입력 데이터 (feature) :param y: 타겟 값 :return: 학습된 모델 """ # X에 절편을 위한 1 추가 X_b = np.c_[X, np.ones((X.shape[0], 1))] # 정규방정식 계산 ..

목차요약클러스터링이란?K-Means 클러스터링PCA실습1. 요약1) K-Means 란?데이터를 k개의 그룹(클러스터)으로 자동 분류하는 비지도 학습 알고리즘클러스터 중심(centroid)을 반복적으로 업데이트하여 최적의 군집을 찾음2) K-Means의 주요 과정초기 중심(centroid) 설정각 데이터 포인트를 가장 가까운 중심에 할당새롭게 할당된 데이터 기준으로 중심 재계산중심이 더 이상 변하지 않을 때까지 반복3) K 값 선택 방법엘보우 기법 (Elbow Method): WCSS(클러스터 내 거리 제곱합) 감소율이 꺾이는 지점 선택실루엣 점수 (Silhouette Score): 클러스터 내부 응집력과 외부 분리도를 평가하여 최적의 k 선택4) K-Means의 장점 & 단점장점빠르고 효율적 O(n)해석..