통계 해석 가이드 — Hot, Cold, 빈도수가 실제로 의미하는 것
빈도, 분포, 핫·콜드 — 자주 보는 통계 용어가 실제로 어떤 의미인지, 그리고 어떤 한계가 있는지 정리합니다.
1. 표본 크기 문제 — 회차 수 vs 가능 조합 수
한국 로또 6/45는 2002년 12월부터 시작되어, 2026년 현재까지 약 1,200회차 누적되었습니다. 그러나 6개를 뽑는 가능한 조합의 수는 8,145,060가지 입니다. 즉, 지금까지의 모든 회차 결과를 다 모아도 전체 가능 조합의 0.015% 정도만 본 셈입니다.
이 표본 크기는 통계적으로 매우 작습니다. 어떤 번호가 "자주 나왔다"거나 "오랫동안 안 나왔다"는 관찰은, 정말로 그 번호가 특별해서가 아니라 단순히 무작위 변동(random noise)일 가능성이 훨씬 큽니다. 모든 번호의 진짜 출현 확률은 6/45 ≈ 13.3%로 동일하며, 1,200회 표본만으로는 이 진짜 확률을 정확히 구분하기 어렵습니다.
2. Hot 번호(빈출)는 무엇을 의미하나
"Hot 번호"는 최근 N회차에서 자주 나온 번호를 의미합니다. NumberLab의 대시보드에서 빈출 번호 차트로 볼 수 있는 그것입니다. 자주 인용되는 해석은 두 가지입니다.
- 흐름 가설 — "최근에 자주 나왔으니 앞으로도 잘 나올 것" — 모멘텀 또는 핫 핸드(hot hand) 신념을 적용한 가설입니다. NumberLab의 흐름형 전략이 이 가설을 따릅니다.
- 회귀 가설 — "이미 평균 이상으로 나왔으니 이제는 덜 나올 것" — 평균 회귀(regression to the mean)를 적용한 가설입니다. NumberLab의 역발상형 전략이 이 가설을 따릅니다.
어느 가설이 옳다는 통계적 증거는 없습니다. 추첨이 진정으로 독립이라면 두 가설 모두 무의미하며, 추첨에 약간의 편향이 있다면 둘 중 하나가 맞을 수 있지만, 1,200회 정도의 표본으로는 그 편향을 통계적 유의성을 가지고 검출하기 어렵습니다.
따라서 Hot/Cold 전략의 가치는 심리적 일관성과 자기 만족도에 있다고 보는 것이 정확합니다. 어느 가설을 선택하든 당첨 확률은 동일합니다.
3. 합계 분포가 ~138 중심인 이유
역대 1등 당첨 회차의 6개 번호 합계는 대부분 100~175 구간에 분포하며, 중심값은 138 부근입니다. 이는 통계적 우연이 아니라 수학적으로 당연한 현상입니다.
1부터 45까지의 평균은 (1+45)/2 = 23이고, 이런 분포에서 6개를 뽑은 합계의 기댓값은 23 × 6 = 138입니다. 모든 가능한 6개 조합 중 합계가 138 부근인 조합이 가장 많고, 합계가 21이나 255에 가까운 극단적 조합은 상대적으로 매우 드뭅니다.
기댓값 = 1~45 평균(23) × 6 = 138
최소합 = 1+2+3+4+5+6 = 21
최대합 = 40+41+42+43+44+45 = 255
역대 1등 당첨 합계가 138 중심으로 분포하는 것은, 그저 가능한 조합의 분포 자체가 138 중심이기 때문입니다. 합계 138 부근이라서 당첨될 확률이 높은 것이 아니라, 가능한 조합 자체가 이쪽에 더 많이 있는 것입니다. 여전히 모든 단일 조합의 확률은 1/8,145,060로 동일합니다.
4. 홀짝 3:3과 분포 균등성
1~45 중 홀수는 23개, 짝수는 22개입니다. 거의 같은 비율이므로, 6개를 무작위로 뽑았을 때 가장 흔한 홀짝 비율은 3:3입니다. 다음으로 흔한 것이 4:2 또는 2:4이고, 6:0이나 0:6은 매우 드뭅니다.
5개 번호대 구간(1-9, 10-19, 20-29, 30-39, 40-45) 분포도 같은 원리입니다. 한 구간에 6개가 모두 몰리는 조합은 가능한 조합 중 극히 일부이므로, 역대 1등 회차에 그런 조합이 등장한 적은 거의 없습니다. 마찬가지로, 이는 분포가 균등한 조합이 당첨될 확률이 높아서가 아니라, 가능한 조합 중 균등 분포 조합이 압도적으로 많기 때문입니다.
NumberLab의 점수 시스템에서 홀짝 3:3과 분포 5개 구간 충족이 고득점을 받는 이유가 여기에 있습니다. 점수는 가능한 조합 분포의 중심에 얼마나 가까운지를 측정하는 지표일 뿐, 당첨 확률을 측정하는 지표가 아닙니다.
5. 통계적 유의성 — 패턴인가 우연인가
어떤 번호가 평균(13.3%)보다 1~2% 더 자주 나왔다고 해서 그것이 의미 있는 패턴이라고 말하기는 어렵습니다. 1,200회 정도의 표본에서, 임의의 번호의 출현 빈도는 평균 약 160회이며, 표준편차는 약 11.5회입니다. 따라서 어떤 번호가 140회 나왔든 180회 나왔든, 그것은 모두 통계적 정상 범위 안의 변동입니다.
마찬가지로, "최근 10회차에 1번이 한 번도 안 나왔다"라는 사실도 의미 있는 신호가 아닙니다. 어떤 번호가 10회 연속 안 나올 확률은 약 23%로, 전혀 드물지 않은 사건입니다. 우리가 인지하는 패턴 중 상당수는 무작위 데이터에서 자연스럽게 발생하는 변동입니다.
6. 그래서 통계는 어떻게 활용해야 하나
위 사항들을 정리하면, 로또 통계 분석의 합리적 활용 방법은 다음과 같습니다.
- 분포 적합도 점수로 활용 — 통계적으로 흔한 모양의 조합을 선호하고 싶다면 합계·홀짝·분포 점수가 높은 조합을 선택하면 됩니다. 단, 이것이 당첨 확률을 높이지 않는다는 점을 명확히 인지해야 합니다.
- 심리적 일관성 도구로 활용 — Hot/Cold 가설은 어느 쪽도 검증되지 않았지만, 본인이 더 만족스러운 가설을 선택해 일관되게 적용하면 구매 만족도가 올라갑니다.
- 편견 점검 도구로 활용 — 직관적으로 "안 나올 것 같은" 조합이 실제로 모든 다른 조합과 동일한 확률을 갖는다는 사실을 통계로 확인하면, 비합리적 회피를 줄일 수 있습니다.
무엇보다, 통계 분석은 구매 결정의 보조 도구일 뿐 핵심 근거가 될 수는 없습니다. 모든 6개 조합의 당첨 확률은 1/8,145,060로 동일하며, 이 사실은 어떤 분석으로도 변경되지 않습니다.