목록2025/02 (13)
susinlee 님의 블로그
구글 빅쿼리구글 클라우드(Google Cloud, GCP)에서 제공하는 서버리스 데이터 웨어하우스로, 대용량 데이터를 초고속으로 분석할 수 있는 데이터베이스 솔루션서버리스(Serverless) : 사용자가 서버를 직접 관리할 필요 없이, GCP에서 인프라를 자동으로 관리해 줌대규모 병렬 처리(Massively Parallel Processing, MPP) : 수십억 ~ 수조 개의 데이터를 분산 처리하여 빠르게 분석 가능SQL 지원AI 및 머신러닝 통합 : 빅쿼리 ML을 통해 SQL만으로 머신러닝 모델을 학습 및 예측할 수 있음주요 사용 사례로그 분석 및 대시보드 구축실시간 데이터 분석빅데이터 기반 머신러닝 및 AI 분석비슷한 데이터 웨어하우스 솔루션서비스제공 업체 특징Amazon RedshiftAWS데이..
[문제]https://leetcode.com/problems/department-top-three-salaries/description/ [풀이]1. 부서 테이블과 병합한 후2. 부서별로 salary의 순위를 계산한다. 이때 dense 옵션으로 1, 2, 2, 3 처럼 숫자의 누락이 없게, 같은 값은 같은 수위로 배정한다.3. 순위가 4보다 작은 애들만 필터링한다. Pandasimport pandas as pddef top_three_salaries(employee: pd.DataFrame, department: pd.DataFrame) -> pd.DataFrame: department = department.rename(columns={'id': 'departmentId', 'name': 'dep..
1. t-검정t-검정은 두 그룹 간의 평균 차이가 통계적으로 유의한지를 검정하는 방법이다. 1. 독립표본 t-검정 (Independent t-test)두 개의 독립적인 그룹의 평균을 비교하는 검정 (독립적인: 서로 영향을 주지 않는)예: 남성과 여성의 시험 성적 비교귀무가설: 두 그룹의 평균이 같다2. 대응표본 t-검정 (Paired t-test)같은 집단에서 반복 측정된 두 평균을 비교하는 검정예: 같은 학생의 시험 성적을 시험 전후로 비교귀무가설: 두 측정값의 평균 차이가 있다3. 일표본 t-검정 (One-sample t-test)한 집단의 평균이 특정 값과 다른지 검정예: 한 회사의 직원 평균 연봉이 5000만 원인지 검정귀무가설: 모집단 평균이 특정 값과 같다.가정데이터가 정규분포를 따른다 (샘플..
[문제]https://leetcode.com/problems/investments-in-2016/description/ [풀이]1. tiv_2015가 중복인 행들의 pid을 추출해서 dup 리스트 생성2. lat과 lon이 중복인 행들을 제거3. 제거된 데이터프레임에서 pid이 dup 리스트에 포함된 행들만 필터링4. tiv_2016의 합계를 구해서 제출 Pandasimport pandas as pddef find_investments(insurance: pd.DataFrame) -> pd.DataFrame: dup = insurance[insurance.duplicated('tiv_2015', keep=False)].pid pos = insurance.drop_duplicates(subse..

프로젝트 명 : 외국 리스너들을 위한 K-POP 추천 알고리즘 개발프로젝트 목표 : API 사용법을 익히고, PCA와 Kmeans 등의 알고리즘을 활용하여 이에 대한 이해와 활용 역량 강화 배경 : 최근 k-pop 인기로 많은 외국인들이 입문하고 있음문제 정의 및 원인 :언어적, 문화적 차이와 더불어 수많은 k-pop 노래가 발매되면서 어디서부터 시작해야 할지 모르는 어려움 존재해결방안 : 기존에 듣던 노래와 유사한 곡을 추천해주는 시스템이 있다면 보다 쉽게 입문할 수 있을 것 비즈니스 목표 결과물 미리보기 : 목차 1. 데이터셋2. EDA 및 전처리3. 변수 선택 및 모델링4. 인사이트 및 배운점 1. 데이터셋2. EDA 및 전처리 3. 변수 선택 및 모델링대표적인 군집화 알고리즘인 KMeans ..
배운 것들실력 수준 (1점 ~ 5점)MySQL4파이썬5판다스4통계4머신러닝 (지도, 비지도 학습)3빅쿼리 (데이터 적재) 1api 활용한 데이터 수집2웹크롤링 1태블로1스파크(예정)0

https://dacon.io/competitions/official/236439/overview/description 부동산 허위매물 분류 해커톤: 가짜를 색출하라! - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io결과 미리 보기최종 결과 모델 : LGBMClassifierF1 Score : 0.883345순위 : 11 목차데이터 구조허위매물 비율과 주요 변수별 분포통계 검정특성 공학 및 변수 선택 결측치 및 이상치 처리모델 선정 및 모델링1. 데이터 구조 데이터셋train.csv : 2452개의 샘플이 있으며, 17개의 컬럼이 포함test.csv : 613개의 샘플, 16개의 컬럼submission.csv : 613개 샘플의 허위매물여부를 예측하..
F1 Score : 정밀도(Precision)와 재현율(Recall)의 조화 평균을 계산하는 지표→ 정확도(Accuracy)만으로 평가하기 어려운 불균형 데이터에서 모델 성능을 평가할 때 중요함 1. 정밀도와 재현율이란? 실제 긍정실제 부정예측 긍정TP (True Positive)FP (False Postivie)예측 부정FN (False Negative)TN (True Negative)→ (FP, FN 에서 P와 N은 예측 기준) 정밀도 공식$$Precision = \frac{TP}{TP+FP}$$→ 긍정으로 예측한 것 중에서 실제로 정답인 비율 (예측이 얼마나 정확한지)→ FP(거짓 긍정)이 많으면 정밀도가 낮아짐→ 예: 스팸 필터에서 정밀도가 높으면, 스팸으로 예측한 것 중 실제 스팸이 많다는 의미..