Chi-Square (카이제곱)
통계학에서 카이제곱 검정은 두 분포를 비교하는 데 사용되는 적합도 검정입니다. 주로 명목 및 순서 측정에 사용됩니다. 일반적인 경우, “많은” 무작위 표본은 범주별로 집계되거나 값 범위 “빈(bin)”으로 나뉩니다. 참조 분포는 각 빈에서 예상되는 값의 수를 제공합니다. 콜모고로프-스미르노프 검정, 단측 검정 및 양측 검정도 참조하십시오.
작동 방식은 무엇인가요?
카이제곱 검정은 다양한 빈 또는 범주로 분류된 데이터를 분석합니다. 작동 방식은 다음과 같습니다:
- 무작위 표본 추출: 많은 무작위 표본으로 시작합니다.
- 범주화: 이 표본은 범주별로 집계되거나 값 범위 빈으로 나뉩니다.
- 예상 값: 참조 분포를 사용하여 각 빈에서 예상되는 값의 수를 결정합니다.
주요 목표는 무엇일까요? 관측된 내용이 예상했던 내용과 일치하는지 확인하는 것입니다. 큰 차이가 있다면 우리의 탐정(카이제곱 검정)은 눈썹을 치켜세우고 뭔가 특이한 일이 일어나고 있을 수 있다고 시사합니다.
왜 사용해야 할까요?
- 단순성: 범주형 데이터에 사용하기 쉽고 간단합니다.
- 다양한 응용 분야: 시장 조사에서 유전학에 이르기까지, 범주형 데이터가 있는 곳이라면 어디든 폭넓게 적용 가능합니다.
몇 가지 관련 검정
카이제곱 검정은 통계적 진실을 찾는 여정에서 혼자가 아닙니다. 다음과 같은 몇 가지 관련 검정을 만날 수 있습니다:
- 콜모고로프-스미르노프 검정: 범주형 분포가 아닌 연속형 분포를 비교하는 데 유용합니다.
- 단측 검정: 한 방향(너무 높거나 너무 낮은)으로의 편차를 살펴봅니다.
- 양측 검정: 양방향(너무 높거나 너무 낮은)으로의 편차를 모두 고려합니다.
카이제곱 검정은 범주형 데이터를 기반으로 분포를 비교해야 할 때 사용하는 기본 도구입니다. 단순하지만 강력하며, 통계학의 세계에서 진정한 필수품입니다!
작동 방식:
카이제곱 검정은 데이터를 “빈”으로 범주화하고 각 빈에서 관측된 빈도를 참조 분포에 기반한 예상 빈도와 비교하는 것을 포함합니다.
장점:
- 다용성: 다양한 데이터 유형, 특히 명목형 및 순서형 데이터에 적용 가능합니다.
- 계산 용이성: 대규모 데이터셋에서도 비교적 계산이 간단합니다.
- 광범위한 응용 분야: 암호학을 포함한 다양한 분야에서 무작위성 테스트와 같은 작업에 사용됩니다.
단점:
- 표본 크기에 대한 민감성: 표본 크기가 작으면 결과가 신뢰할 수 없을 수 있습니다.
- 독립성 가정: 관측치가 독립적이라고 가정하지만, 항상 그러하지 않을 수 있습니다.
암호학에서의 응용:
카이제곱 검정은 암호학에서 암호화 키 또는 난수 생성기의 출력의 무작위성을 평가하는 데 유용합니다. 비트 또는 패턴의 관측된 빈도를 예상되는 균일 분포와 비교함으로써 암호학자는 암호화 요소의 강도와 예측 불가능성을 평가할 수 있습니다.
대안:
카이제곱 검정이 널리 사용되지만, 특정 시나리오에 따라 다른 통계 검정이 더 적합할 수 있습니다. 연속형 데이터의 경우 콜모고로프-스미르노프 검정 또는 방향성 가설의 경우 단측 및 양측 검정과 같은 대안을 탐색해 보십시오.
적합도
카이제곱 검정은 관측된 데이터(“현실” – 시간대별 실제 비트코인 거래)가 예상된 데이터(“예상” – 모든 시간대에 거래가 균등하게 분산될 경우 예상되는 것)와 얼마나 잘 일치하는지 판단하는 데 도움이 되는 탐정과 같습니다.
범주와 빈
동전을 분류하는 것과 같다고 생각하세요. 다양한 범주(시간대)가 있으며 각 범주에 속하는 비트코인 거래 수를 셉니다. 이러한 범주는 거래 수를 담는 “빈”과 같습니다.
분포 비교
카이제곱 검정은 각 시간대에서 관측된 비트코인 거래 수를 예상된 수(거래가 균등하게 분산되었을 경우)와 비교합니다. 관측값과 예상값 사이의 큰 차이는 유의미한 패턴을 나타낼 수 있습니다.
예시
다음과 같이 관측되었다고 가정해 보겠습니다:
- 시간대 A: 150건의 거래
- 시간대 B: 100건의 거래
- 시간대 C: 50건의 거래
하지만 예상치는 다음과 같았습니다:
- 시간대 A: 100건의 거래
- 시간대 B: 100건의 거래
- 시간대 C: 100건의 거래
카이제곱 검정은 이러한 차이가 통계적으로 유의미한지 아니면 단순한 무작위 변동인지 판단하는 데 도움이 됩니다. 유의미한 결과는 비트코인 거래량이 실제로 시간대의 영향을 받는다는 것을 시사할 수 있습니다.
