목록학습/통계학 (6)
susinlee 님의 블로그
확률론의 중요성 이번 장에서는 확률론에 대해 알아봅니다. 통계학을 배우기에 앞서 확률론을 먼저 학습해야 하는 이유는, 추론 통계가 확률 이론을 기반으로 하기 때문입니다. 예를 들어, 추론 통계에서는 표본을 모집단이라는 확률분포에서 확률적으로 추출된 개체로 가정합니다. 따라서 확률론은 통계학의 기초이자, 데이터를 분석하고 해석하는 데 있어 필수적인 도구입니다.확률 확률론은 무작위 현상을 분석하고 설명하기 위한 수학적 체계입니다. 여기서 확률이란 불확실한 사건이 발생할 가능성을 수치로 표현한 값을 의미합니다. 불확실한 사건이란, 예를 들어 동전 던지기처럼 앞면이 나올 수도 있고, 뒷면이 나올 수도 있는 결과가 일정하지 않은 실험이나 관측 상황을 말합니다. 이러한 확률을 계산하기 위해서는 실험의 결과를 체계..
데이터 분석시에는 종종 각 개체에서 두 개 이상이 변수를 동시에 관측하게 됩니다. 이 경우, 두 변수 간의 관계를 이해하기 위해 데이터를 요약하고 해석하는 방법이 필요합니다. 두 변수의 유형데 따라 적합한 도표와 분석 방법을 알아봅시다.1. 두 범주형 변수 분할표두 변수가 모두 범주형에 속하는 경우, 분할표를 작성할 수 있습니다. 행과 열은 각각 하나의 변수의 범주를 나타내고, 각 칸에는 범주 조합에 해당하는 빈도가 표시됩니다. margins=True 옵션으로 합계 컬럼을 생성할 수 있습니다. 분할표 그리기data = sns.load_dataset('titanic')table = pd.crosstab(data['sex'], data['embarked'], margins=True)table 2. 두 수치..
2. 데이터의 경향을 시각적으로 파악하기데이터를 그래프로 시각화하면 숫자만으로 확인하기 어려운 분포와 경향을 직관적으로 이해할 수 있습니다. 대표적인 시각화 방법을 소개하겠습니다. 시각화에서도 데이터의 유형별로 방법이 달라집니다. 1. 범주형 변수의 시각화 먼저 범주형 변수의 경우 도수분포표로 요약할 수 있습니다. 이는 각 범주에 해당하는 관측값의 개수(도수)를 나타내거나,전체 관측값 중 각 범주가 차지하는 비율(상대도수)로 표현합니다. 도수분포표 그리기data = sns.load_dataset('titanic')data.value_counts('embarked').to_frame() 이렇게 요약한 데이터를 시각화하는 방법은 다음과 같습니다.원형 그래프원형 그래프는 원을 그리고, 이를 상대도수에 비례하..
아무런 처리를 하지 않은 원자료를 단순히 관찰하는 것만으로는 데이터의 전체적인 경향을 파악하기 어렵습니다. 데이터를 경향을 한 눈에 파악할 수 있다면 분석 시간을 크게 단축할 수 있습니다. 이를 위해 데이터를 요약하거나 시각화하는 방법이 필요합니다. 데이터를 요약하면 분포와 특성을 수치로 확인할 수 있으며, 그래프 등으로 시각화하면 대략적인 경향을 직관적으로 파악할 수 있습니다.데이터의 경향을 파악하는 두 가지 방법 1. 데이터의 경향을 수치로 요약하기 평균값과 같이 데이터를 요약하여 특성을 간단히 나타내는 수치를 기술통계량이라고 합니다. 주로 수치형 변수를 대상으로 계산됩니다. 범주형 변수의 경우, 범주의 빈도나 비율을 활용하여 데이터를 요약하고 설명할 수 있습니다. 기술통계량은 데이터를 간결하게 요약..
데이터에는 다양한 유형이 존재합니다. 예를 들어, 키, 몸무게처럼 숫자로 표현되는 데이터가 있는가 하면, 성별처럼 범주로 나타나는 데이터도 있습니다. 데이터의 유형에 따라 적합한 분석 방법이 달라지기 때문에, 데이터를 수집하거나 분석할 때는 그 유형을 명확히 파악하는 것이 중요합니다.데이터의 유형 1. 수치형 데이터숫자로 나타낼 수 있는 데이터로, 대소 관계가 있고, 양을 계산할 수 있습니다.분류:이산형 데이터관측 가능한 값이 셀 수 있는 수치형 데이터.수강생 수, 동전 던지기 횟수 등 (0, 1, 2 3, 4 ...)연속형 데이터관측 가능한 값이 연속적인 수치형 데이터. 키, 몸무게, 온도 등. (176.2, 180.17, 32.5 ...)2. 범주형 데이터숫자가 아닌 범주로 나타낼 수 있는 데이터입니..
통계학의 필요성 통계학을 배우는 이유는, 정보가 넘쳐나는 현대사회에서 정보의 신뢰성을 검증하는 강력한 도구이기 때문입니다. 또한, 통계는 타인을 설득하는 과정에서 객관적인 근거를 제공하는 유용한 수단으로 활용됩니다.즉, 통계학은 정보의 신뢰성을 평가하고 설득력 있는 논리를 구축할 수 있도록 원리와 방법론을 제공합니다. 이제 이러한 통계학의 원리와 방법론에 대해 알아보겠습니다모집단과 표본 통계학에서 중요한 기본 개념 중 하나가 모집단과 표본입니다. 이 두 용어를 이해하는 것은 통계적 분석의 기초를 다지는 데 필수적입니다. 예를 들어, 한국 여성의 평균 키를 알고자 한다고 가정해봅시다. 이를 정확히 구하기 위해서는 한국 국적을 가진 모든 여성의 키를 측정해야 합니다. 여기서 한국 국적을 가진 모든 여성의 키..