목록2025/03 (41)
susinlee 님의 블로그

데이터 shape: (31465, 4) 코호트 구현하기고객의 첫 주문 월을 기준으로 Cohort 그룹을 만들고, 각 Cohort 그룹에서 시간이 지남에 따라 활성 사용자 수를 계산하는 SQL 문을 작성하세요.USER_COUNT_1_MONTH_LATER ~ USER_COUNT_12_MONTH_LATER 까지 계산해야 합니다.각 Cohort 그룹에 대해 1개월 후부터 12개월 후까지의 활성 사용자 수를 추적합니다. 1. 고객별 첫 주문 월 구하기 (코호트 구하기)WITH cohort AS ( SELECT customer_id , DATE_FORMAT(MIN(order_date), '%Y-%m-01') AS first_order_mth FROM customer_order..
그룹클릭(1)미클릭(0)총 인원대조군3070100실험군4555100 대조군 클릭률 = 30%실험군 클릭률 = 45%실험군의 클릭률이 더 높다는 걸 검정하고자 함 1. t-검정 (두 집단의 평균 차이 비교)t-검정은 기본적으로 수치형 데이터에 사용하는 방법이지만,0과 1로 이루어진 이진값(예: 클릭=1, 미클릭=0)이라면 평균 = 비율 이므로 사용 가능 귀무가설실험군과 대조군의 평균(=비율)이 같다.대립가설단측검정 (실험군 > 대조군)실험군의 평균(=클릭률)이 더 높다양측검정두 집단 평균이 다르다scipy.stats.ttest_ind()는 기본적으로 양측검정이므로, 단측일 시 p-value를 2로 나눈다.from scipy.stats import ttest_ind# 0 = 미클릭, 1 = 클릭control..

목표시계열의 핵심 모형 AR(자기회귀)와 이동평균(MA)에 대해서 이해시계열의 자기상관성을 측정하는 ACF와 PACF의 정의를 이해하고, AR(q)와 MA(p)의 차수를 찾는 방법을 숙지시계열 모델인 AR, MA, ARMA, ARIMA, SARIMA 모델을 학습시계열 예측평가를 위한 잔차분석과 성능지표를 학습1. 정상시계열 검정방법1. ADF 검정과 단위근(Unit root)시계열 데이터에서 정상성을 확인하는 것은 매우 중요합니다. 정상성은 데이터의 평균과 분산이 시간에 따라 일정한 상태를 의미합니다. 시계열이 정상성을 만족하지 않으면, 예측 모델의 성능이 저하될 수 있습니다.AR 모형을 적용하기 전에, 시계열 데이터가 정상성을 만족하는지 검정 필요ADF(Augmented Dickey Fuller)는 단..

쿼리 작성 가이드현재 보고 싶은 지표는 무엇인가?, 이쿼리를 작성하는 목표는 무엇인가?해당 지표는 어덯게 계산해야 할까? 데이터의 기간은 어떻게 될까해당 지표를 계산하기 위해 어떤 테이블을 확인해야 할까? Join 활용할 Key는 무엇인가?하나의 테이블에서 원하는 정보를 모두 추출할 수 있을까? 혹은 여러 테이블을 사용해야 할까데이터를 파악할 때 주의해야 하는 내용은?위 내용을 주석으로 설정한 후 쿼리 작성하는 습관 가지기회사에서 쿼리 작성하는 흐름쿼리 체크 리스트를 작성한다.보고 싶은 지표를 구체화한다사내에 이미 해당 지표를 구하는 쿼리가 있는지 찾아본다. 있으면 바로 쿼리를 실행하고 쿼리를 분석해보자보고 싶은 지표가 있는 데이터가 있는 테이블 찾기하나의 테이블에서 모든 데이터가 나올 것 같은 경우 -..
1. 어떤 문제가 있었는지 2. 내가 시도해 본 것들 3. 어떻게 해결했는지 4. 뭘 새롭게 알았는지오늘 이력서 피드백을 받았는데 이력서를 쓸 때 너무 하드 스킬 위주로 적은 것 같다. 그보다는 남들과 차별성을 가지는 나의 장점이 무엇인지를 파악하고 이력서에 녹여내는 것이 더 중요하다고 한다. 예를 들어, "저는 데이터를 깊이 파는 것을 잘하고, 그러면서도 속도가 빠릅니다" 처럼 이런 내용을 소개란에 적어야 한다. 그런 말들이야 누구나 쓸 수 있는거 아니야? 라고 생각이 들어 쓰지 않았었지만 그렇지 않다고 한다. 또한 프로젝트를 진행하면서 어려움이 존재했을 텐데 그런 어려움들을 어떻게 해결했는지를 적는 것이 필요하다. 그래야 해당 프로젝트에 관심이 가고, '아 얘가 정말 프로젝트를 했구나' 라는 생각이 ..

1. 시계열 분석이란과거의 흐름으로 미래를 예측하는 방법론 중 하나과거의 트렌드로 미래를 예측할 수 있다는 매력적인 논리로 많은 회사들이 시계열 모델을 적용하고 있으며 Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, Transfomer 등 다양한 시계열 모델들이 개발되었음2. 시계열 예측의 이해2.1 정의시계열 데이터는 시간에 따라 정렬된 데이터데이터는 주기적으로 기록되며, 이를 동일한 시간단계(timestamp)로 분포한다고 정의합니다.주식 그래프를 예로 들면, 가로 축에 표시된 대로 시간에 따라 매일 기록되었기 때문에 타임스텝이 동일다양한 X, Y 데이터로 이루어진 데이터와 달리 시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있습니다. 2.2 시계열 구성요소모든 시계열 ..

1. 어떤 문제가 있었는지 2. 내가 시도해 본 것들 3. 어떻게 해결했는지 4. 뭘 새롭게 알았는지1. 최종 프로젝트를 진행하고 있지만 스토리텔링이 제대로 되지 않는다...스토리는 분명히 있고, 살을 덧대고 있지만 만족이 되지 않는 상태랄까?논리적으로 부족하기도 하거나 혹은 치고 들어올 부분이 너무 많다고 생각이 든다.예를 들어, 자사 브랜드 제품만 산 고객과 타 브랜드 제품과 함께 산 고객으로 그룹을 나눈다고 했을 때, 자사 브랜드 제품만 산 고객을 우호 고객 혹은 충성 고객이라고 하기에는 무리가 있을 것이다. 우연히 세일 중이라 한번 구매한 신규 고객일 수도 있고, 충성도 높은 고객이지만 평소에 다른 채널에서 구매하다가 이번에 온라인에서만 구매했을 수도 있다. 또한 타 브랜드 제품과 함께 구매한 ..

1. 어떤 문제가 있었는지 2. 내가 시도해 본 것들 3. 어떻게 해결했는지 4. 뭘 새롭게 알았는지1. 여러 회사에 지원했지만 연일 불합격 통보... 불합격해도 좋으니까… 코딩테스트라도 한번만 시켜주면 안될까요… ;ㅅ; 2. 지원서를 도메인에 맞게 수정하고 프로젝트 요약 부분의 순서도 중요도 따라 다르게 배치... 여러 곳 제출...→ 아무래도 이력서에 사진도 붙이고 시각적으로 꾸며봐야겠다. 페이커상인데... 뽑아주라 3. ... 인턴은 가능할 줄 알았지. 근데 인턴도 인턴 경험이 있어야 한다더라... 4. 역시 포트폴리오가 필요한가?...포트폴리오 없이도 아다리가 맞으면 취업이 가능하다고 굳게 믿고 이력서를 난사한 결과다.(사실 귀찮은 거지..) 현실적으로 대학을 졸업한 것도 아니고 경력이 있는..