[딥러닝을 위한 수학] CHAPTER 4. 통계

[딥러닝을 위한 수학] CHAPTER 4. 통계

Tags
Math
딥러닝을 위한 수학
Published
February 6, 2025
Author
JH
태그
종류
학문 분야

서론

  • 모형(model)을 구축하기 전에 데이터를 제대로 파악하는 것이 중요
  • 통계량(statistic) : 어떠한 표본에서 계산한, 그리고 그 표본을 어떠한 방식으로 특징짓는 수치

4.1 데이터의 종류

4.1.1 명목형 자료

  • 명목형 자료(nominal data) : 범주형 자료(categorical data)라고도 하며, 서로 다른 값들 사이에 순서 관계가 없는 데이터
  • 예 ) 눈의 색

4.1.2 순서형 자료

  • 순서형 자료(ordinal data) : 순위 또는 순서가 있으나, 값들의 차이에 어떤 수학적 의미가 있는 것은 아닌 데이터
  • 예 ) 설문 조사 문항

4.1.3 구간 자료

  • 구간 자료(interval data) : 값들의 차이에 의미가 있지만, 진정한 영점이 없는 데이터
  • 예 ) 화씨, 섭씨

4.1.4 비율 자료

  • 비율 자료(ratio data) : 차이가 의미가 있을 뿐만 아니라, 진정한 영점이 존재하는 데이터
  • 예 ) 키, 나이, 절대온도(K)

4.1.5 명목형 자료와 심층학습

  • 원핫 부호화(one-hot encoding) : 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

4.2 요약 통계량

4.2.1 평균과 중앙값

  • 산술 평균(arithmetic mean) or 비가중(unweighted) 산술 평균 :
    • 가중 평균(weighted mean) :
      • 여기서 에 부여된 가중치인데, 을 만족함

    4.2.1.1 기하 평균

    • 기하 평균(geometric mean) :
      • 기하 평균은 평균 성장률(average growth rate)을 계산할 때 쓰이거나, 이미지의 잡음을 줄이는 필터로서 사용되기도 함
      • 심층학습에서 기하 평균은 심층학습 모델을 평가하는 데 사용하는 지표 중 하나인 매튜 상관계수(Matthews correlation coefficient, MCC)에 등장함

    4.2.1.2 조화 평균

    • 조화 평균(harmonic mean) :
      • 심층 학습에서 조화 평균은 F1 점수(F1 score)로 등장함
        • F1 점수가 자주 쓰이긴 하지만, 이것으로 심층학습 모형을 평가하는 것은 바람직하지 않음 (참 음성 결과를 무시하기 때문)
        • 그보다는 앞에서 언급한 MCC나 코헨의 가 나음

    4.2.1.3 중앙값

    • 중앙값(median) : 데이터 집합의 값들을 수치 크기 순으로 정렬했을 때, 중앙에 있는 값
      • 데이터 집합의 요소가 짝수일 때는 가운데 두 값의 산술 평균을 중앙값으로 사용함
    • 데이터의 분포가 완벽하게 대칭이면 평균값과 대칭값이 같아짐
      • 그게 아니라면, 평균보다 중앙값이 더 나은 통계량일 가능성이 큼

    4.2.2 변동의 측도

    4.2.2.1 편차 대 분산

    • 편향 표본 분산(biased sample variance) :
    • 비편향(불편) 표본 분산(unbiased sample variance) :
      • 대신 을 사용한 것을 가리켜 베셀 보정(Bessels correction)이라고 부름
      • 은 모분산 에 대한 더 나은 추정치임
    • 표준편차(standard deviation) : 위 식에서 에 해당함

    4.2.2.2 표준오차 대 표준편차

    • 표준오차(standard error, SE) : 표본 평균들의 집합의 표준편차

    4.3 분위수와 상자 그림

    • 분위수(quantile) : 데이터 집합을 고정된 크기(값들의 개수)의 여러 그룹(’분위’)으로 나누는 값
      • 중앙값은 데이터 집합을 같은 크기의 두 그룹으로 나누기 때문에 이분위수(2-quantile) 또는 50 백분위수(50th percentile)라고 부름
      • 흔히 연구자들은 데이터 집합을 사분위(quartile)라고 부르는 네 개의 그룹으로 나눔
    • 상자 그림(box plot) :
      • notion image
      • 데이터 집합을 평가할 때는 이상치들에 주목해서 적절한 처리 방법을 결정해야 함
        • 이상치가 그리 많지 않다면 데이터 집합에서 이상치들을 제거해도 무방
        • 그러나 이상치들이 어떤 특정한 부류(class)를 아주 잘 나타내는 실제 데이터라면 남겨 두는 것이 바람직함
      • 상자 그림을 이용하면 데이터 집합의 분포가 얼마나 정규분포와 비슷한지 파악할 수 있음

    4.4 결측 자료

    • 결측 자료(missing data) : 누락된, 즉 있어야 하는데 없는 데이터
      • 큰 데이터 집합에서 극히 적은 수의 항목들만 결측 자료라면 제거해도 큰 문제가 되지 않음
      • 만일 특징들의 분포가 정규분포에서 멀다면, 평균보다는 중앙값이 더 나은 대안

    4.5 상관관계

    • 상관관계(correlation) : 두 개 이상의 변수 간에 어떤 관계가 있는지를 나타내는 통계적 개념. 즉, 한 변수의 변화가 다른 변수의 변화와 어떤 연관성을 가지는지를 분석하는 것
      • 전통적인 기계학습에는 상관관계가 높은 특징들이 그리 바람직하지 않음

    4.5.1 피어슨 상관계수

    • 피어슨 상관계수(Pearson correlation coefficient) : 두 특징 사이의 선형(linear) 상관관계의 세기(강도)
      • 구간의 수치로, 흔히 로 표기함
      • 한 특징이 일정한 양만큼 증가했을 때 다른 특징도 딱 그만큼 증가했다면, 피어슨 상관계수는 +1
      • 반대로, 한 특징이 일정한 양만큼 증가했을 때 다른 특징이 딱 그만큼 감소했다면 상관계수는 -1
      • 상관계수가 0이라는 것은 두 특징이 연관되지 않았다는 뜻 (즉, 둘은 잠재적으로 독립)

    4.5.2 스피어먼 상관계수

    • 스피어먼 상관계수(Spearman correlation coefficient) : 특징 값들의 순위(rank)에 기초한 상관관계
      • 구간의 수치로, 로 표기함
      • 위 식은 순위들의 고유할 때만 유효함
      • 스피어먼 상관계수는 순위들의 피어슨 상관계수임

    4.6 가설 검정

    4.6.1 가설

    • 귀무 가설 or 영가설(null hypothesis) : 두 데이터 집합이 사실은 같은 모집단에서 나왔을 것이라는, 다시 말해 우리가 의심하는 바가 틀렸을 것이라고 가정하는 가설, 로 표기함
    • 대안가설(alternative hypothesis) : 두 그룹이 같은 모집단에서 나온 것이 아니라는 가설, 로 표기함
    • 양면(two-sided) 검정 or 양측(two-tailed) 검정 : 검정 통계량이 그 분포의 특정 기준보다 큰지 아니면 작은지 알고자 할 때
    • 단면(one-sided) 검정 : 검정 통계량이 특정 기준보다 큰지만(또는 작은지만) 알면 되는경우

    4.6.2 t-검정

    • t-검정(t-test) : 모수적(parametric) 검정의 일종으로, 데이터가 정규분포라고 가정함
      • 웰치의 t 검정(Welch’s t-test) : 두 데이터 집합의 분산이 같다고 가정하지 않는 t-검정
      • t-점수들로 규정되는 t-분포 곡선의 특정 구간에서 곡선 아래의 면적을 계산해서 p-값을 구함
    • p-값 : 만일 귀무가설이 참이라면 두 평균이 다를 확률
      • 일반적으로 이 확률이 우리가 정한 어떤 문턱값보다 작으면 귀무가설을 기각함
      • 의 기각과 승인을 가르는 문턱값을 로 표기하는데, 흔히 쓰이는 값은
        • 그러나 이 값은 너무 관대한 기준일 수 있음

    4.6.2.1 신뢰구간

    • 신뢰구간(confidence interval, CI) : 우리가 비교하는 두 데이터 집합들의 반복된 표본들의 평균 차이들이 일정한 비율(신뢰수준)로 속하게 되는 진 모평균 차이들의 구간
      • 여기서 는 주어진 신뢰수준()과 자유도 에 대한 임계값(critical value)
      • 95% 신뢰구간이라는 것은, 모집단 분포에서 표본들을 추출해서 두 데이터 집합을 만들어서 표본 평균들의 차이를 측정하는 과정을 이를테면 100번 반복해서 각각 신뢰구간을 계산했다고 할 때, 100개 중 95개의 신뢰구간에 진 모집단 평균 차이가 속한다는 뜻임
      • 신뢰구간의 너비는 어떠한 효과가 얼마나 큰지(강한지)를 말해줌
        • 효과가 크면 신뢰구간이 좁음

    4.6.2.2 효과 크기

    • 코헨의 d(Cohen’s d) :
      • 웰치의 t 검정을 사용하는 경우
      • 코헨의 d 값에 대해 가능한 해석 방식
        • d
          효과
          0.2
          작음
          0.5
          중간
          0.8

    4.6.3 맨-휘트니 U 검정

    • 맨-휘트니 U 검정(Mann-Whitney U test) or 윌콕슨 순위합 검정(Willcoxon rank-sum test) : 두 데이터 집합이 같은 모분포에서 비롯한 것인지 판정할 때 도움이 되는 비모수적 검정
      • 데이터 값들 자체가 아니라 데이터 값들의 순위(rank)를 사용함
      • 이 검정을 위한 귀무가설은 “그룹 1에서 무작위로 선택한 값이 그룹 2에서 무작위로 선택한 값보다 클 확률은 0.5이다”임
      • 이 검정의 대안가설은 “그룹 1에서 무작위로 선택한 값이 그룹 2에서 무작위로 선택한 값보다 클 확률은 0.5가 아니다”임 → 따라서, 맨-휘트니 U 검정은 양면 검정임
      • 검정 통계량은 U로, U를 계산하려면 먼저 데이터 집합들의 값들을 모두 합친 후 크기순으로 정렬해서 순위를 매겨야 함
        • 같은 값이 둘 있을 때는 그 값의 순위와 그다음 순위의 평균을 두 값의 순위로 배정함
        • 이제 순위들을 그룹별로 합산해서 그룹 1의 순위합 과 그룹 2의 순위합 를 구하고, 이들로부터 두 값들을 다음과 같이 계산함
        • 둘 중 더 작은 값이 맨-휘트니 U 검정의 검정 통계량 U임
      • 맨-휘트니 U 검정을 위해서는 두 표본의 크기(요소 개수)가 적어도 21이어야 함