목록2025/01/15 (5)
susinlee 님의 블로그
데이터 분석시에는 종종 각 개체에서 두 개 이상이 변수를 동시에 관측하게 됩니다. 이 경우, 두 변수 간의 관계를 이해하기 위해 데이터를 요약하고 해석하는 방법이 필요합니다. 두 변수의 유형데 따라 적합한 도표와 분석 방법을 알아봅시다.1. 두 범주형 변수 분할표두 변수가 모두 범주형에 속하는 경우, 분할표를 작성할 수 있습니다. 행과 열은 각각 하나의 변수의 범주를 나타내고, 각 칸에는 범주 조합에 해당하는 빈도가 표시됩니다. margins=True 옵션으로 합계 컬럼을 생성할 수 있습니다. 분할표 그리기data = sns.load_dataset('titanic')table = pd.crosstab(data['sex'], data['embarked'], margins=True)table 2. 두 수치..
2. 데이터의 경향을 시각적으로 파악하기데이터를 그래프로 시각화하면 숫자만으로 확인하기 어려운 분포와 경향을 직관적으로 이해할 수 있습니다. 대표적인 시각화 방법을 소개하겠습니다. 시각화에서도 데이터의 유형별로 방법이 달라집니다. 1. 범주형 변수의 시각화 먼저 범주형 변수의 경우 도수분포표로 요약할 수 있습니다. 이는 각 범주에 해당하는 관측값의 개수(도수)를 나타내거나,전체 관측값 중 각 범주가 차지하는 비율(상대도수)로 표현합니다. 도수분포표 그리기data = sns.load_dataset('titanic')data.value_counts('embarked').to_frame() 이렇게 요약한 데이터를 시각화하는 방법은 다음과 같습니다.원형 그래프원형 그래프는 원을 그리고, 이를 상대도수에 비례하..
아무런 처리를 하지 않은 원자료를 단순히 관찰하는 것만으로는 데이터의 전체적인 경향을 파악하기 어렵습니다. 데이터를 경향을 한 눈에 파악할 수 있다면 분석 시간을 크게 단축할 수 있습니다. 이를 위해 데이터를 요약하거나 시각화하는 방법이 필요합니다. 데이터를 요약하면 분포와 특성을 수치로 확인할 수 있으며, 그래프 등으로 시각화하면 대략적인 경향을 직관적으로 파악할 수 있습니다.데이터의 경향을 파악하는 두 가지 방법 1. 데이터의 경향을 수치로 요약하기 평균값과 같이 데이터를 요약하여 특성을 간단히 나타내는 수치를 기술통계량이라고 합니다. 주로 수치형 변수를 대상으로 계산됩니다. 범주형 변수의 경우, 범주의 빈도나 비율을 활용하여 데이터를 요약하고 설명할 수 있습니다. 기술통계량은 데이터를 간결하게 요약..
[문제]https://school.programmers.co.kr/learn/courses/30/lessons/42578 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr [풀이]1. 옷의 종류별로 개수를 세어준다. Counter 객체를 이용하자.2. 그 뒤 옷을 한개 선택하는 것부터 n 개 선택하는 것까지 각 경우의 수를 combinations를 사용해서 구해주고 그 값을 전부 더해주고 반환한다.from collections import Counterfrom itertools import combinationsimport mathdef solution(clothes): # 종류별로 개수를 세어준 다음 개..
[문제]https://leetcode.com/problems/triangle-judgement/description/ [풀이]1. 가장 큰 변의 길이와 전체 변의 길이를 다 더한다음 2로 나눈 값을 비교한다.2. 그때 가장 큰 변의 길이가 더 작다면 'No' 를 아니라면 'Yes'를 나타내는 열을 생성해준다. 가장 큰 변의 길이보다 나머지 두 변의 길이의 합이 더 크면 된다. 가장 큰 변의 길이는 구할 수 있겠는데 나머지 두 변을 어떻게 가져오지라는 고민... 그러다가 다 더한다음에 2로 나눠버리면 그 숫자는 결국 (나머지 변의 길이 합) 과 (가장 큰 변의 길이)로 나뉘어질 수 있겠구나 생각이 나서 구현. 즉, 다 더해서 2로 나눈 값이 가장 큰 변의 길이보다 크면 삼각형 그리기 가능. Pandasim..