목록2025/01/30 (4)
susinlee 님의 블로그
요약 및 결론결측치는 데이터 셋에서 누락된 값을 의미결측치에는 세 가지 유형이 있음 (MACR, MAR, MNAR)결측치의 유형에 따라 처리 방법을 다르게 선택해야 함다순한 평균/중앙값 대체는 편리하지만, 데이터의 불확실성을 반영하지 못함변수 간 상관관계가 높다면 다중 대체법이나 예측 모델 기반 대체를 사용하는 것이 더 적합결측 여부 자체가 중요한 정보라면, 이를 새로운 변수로 활용하는 것도 효과적결측치(Missing Value)란?결측치는 데이터 분석에서 자주 발생하는 문제로, 데이터 셋에서 값이 누락된 경우를 의미함. 이는 데이터 입력 과정에서의 실수, 수집 과정에서의 한계 또는 응답자의 응답 거부 등 다양한 이유를 발생함. 이를 적절히 처리하지 않으면 모델의 성능과 해석에 큰 영향을 미칠 수 있음...
[문제]https://school.programmers.co.kr/learn/courses/30/lessons/87946 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr [풀이]1. 던전을 탐색할 수 있는 모든 조합을 구해주고( O(n!) )2. 최대로 돌 수 있는 던전 개수를 구해준다. from itertools import permutationsdef solution(k, dungeons): max_cnt = 0 if k >= sum(list(zip(*dungeons))[1]): max_cnt = len(dungeons) cnt_list = [] for method..
[문제]https://leetcode.com/problems/movie-rating/description/ [풀이]1. 영화 평점 테이블에서 각 유저별로, 영화별로, 평가수와 평균점수를 구하고 각각 새로운 테이블을 생성2. 평가수 테이블과 유저 테이블을 조인해서 유저의 이름을 구하고3. 평균점수 테이블과 영화 테이블을 조인해서 영화 이름을 구한 뒤4. 두 데이터로 테이블을 만들어서 반환 Pandasimport pandas as pddef movie_rating(movies: pd.DataFrame, users: pd.DataFrame, movie_rating: pd.DataFrame) -> pd.DataFrame: user_rating_counts = ( movie_rating ..
[문제]https://leetcode.com/problems/exchange-seats/description/ [풀이]1번과 2번 자리를 바꾸고, 3번과 4번 자리를 바꾸면서 마지막 좌석이 홀수이면 그대로 유지학생을 한칸씩 뒤로 이동시킨 컬럼(lag)과 한칸씩 앞으로 이동시킨 컬럼(lead)을 생성id가 홀수라면 lead 컬럼을, id가 짝수라면 lag 컬럼을 선택만약, 마지막 좌석이 홀수라면 이동할 필요가 없으므로 원래값을 유지시켜준다 Pandasimport pandas as pddef exchange_seats(seat: pd.DataFrame) -> pd.DataFrame: seat['lag'] = seat['student'].shift(1) seat['lead'] = seat['student..