[딥러닝을 위한 수학] CHAPTER 3. 확률 2부
3.1 확률 분포
- 확률 분포(probability distribution) : 요구에 따라 값들을 생성하는 함수
- 균등 분포(uniform distribution) : 각 값이 동일한 또는 “고른(균등한)” 확률로 생성되는 확률 분포
3.1.1 히스토그램과 확률
- 히스토그램(histogram) : 이산적인 분류함(bin)들 각각에 몇 개의 항목이 들어갔는지를 보여주는 그래프
3.1.2 이산 확률 분포
3.1.2.1 이항분포
- 이항분포(binomial distribution) : 각 사건에 구체적인 확률이 배정된 상황에서 주어진 횟수만큼 시행(trial)을 거듭할 때 각 사건의 기대 빈도(발생 횟수)
- 과 를 고정하고 를 범위에서 변화시킨다면 각 의 확률을 얻게 되고, 이 확률들은 하나의 확률 질량 함수(probability mass function, pmf)를 규정함
3.1.2.2 베르누이 분포
- 베르누이 분포(Bernoulli distribution) : 이항분포에서 로 고정된 특수 사례
3.1.2.3 푸아송 분포
- 푸아송 분포(Poission distribution) : 드물게 발생하고 사건이 발생할 확률은 구체적으로 알지 못하며, 일정 구간에서 사건의 평균 발생 횟수만 알고있는 경우
- : 일정한 시간 구간에서 사건이 발생한 평균 횟수
- : 사건이 몇 번 발생할지
3.1.3 연속 확률 분포
- 연속 확률 분포에서는 특정한 하나의 값이 선택될 확률이 아니라 선택된 값이 특정한 범위(구간)에 속할 확률을 다룸
- 연속 분포에서 특정한 하나의 값이 선택될 확률은 0임 (분모가 무한대이므로)
- 한 값이 특정 구간에 속할 확률은 곡선 아래의 면적에 해당함
- 위 이미지는 균등 분포, 정규 분포, 감마 분포, 베타 분포를 나타냄
- 연속 분포에는 확률 밀도 함수(probability density function, pdf)가 연관됨
- 정규분포 곡선을 흔히 가우스 곡선(Gaussian curve) 또는 종 곡선(bell curve)라고도 부름
3.1.4 중심 극한 정리
- 중심 극한 정리(central limit theorem) : 표본 평균 집합(들의 집합)에서 생성한 확률 분포는 점점 정규 분포에 접근함
3.2 베이즈 정리
- 베이즈 정리(Bayes’ theorem) : 두 조건부 확률 와 를 제대로 비교하는 방법
- 이를 말로 풀면, 사후 확률(posterior probability) 는 가능도(likelihood) 와 사전 확률(prior probability)의 곱을 주변 확률 또는 증거(evidence) 로 정규화한 것
3.2.1 다시 살펴보는 암 진단 예제
- 유방조영상 결과가 양성일 때의 유방암 보유 확률은 앞에서 말한 베이즈 정리의 ‘사후 확률’ 에 해당함. 이를 로 표기함
- 여기서 는 유방암(breast cancer) 진단이 양성(+)이라는 뜻
- 는 유방조영상 검사가 양성이라는 뜻
- 이 문제에서, 우리는 다음 두 확률을 알고 있음
- 환자가 유방암을 보유했다고 할 때 유방조영상 검사가 양성일 확률 (가능도 )
- 무작위로 선택한 여성의 유방암 보유 확률 (사전 확률 )
- 유방암 보유 여부와는 무관하게 유방조영상 검사가 양성일 주변 확률()은 아래와 같이 구할 수 있음
3.2.2 사전 확률의 갱신
- 유방조영상 검사가 양성이라는 소식을 들은 한 여성이 다른 병원에서 다시 한 번 양성 판정을 받았을 때, 그 여성의 유방암 보유 확률
- 이를 베이즈 확률의 관점에서, 첫 테스트에서 계산한 사후 확률 로 사전 확률 를 갱신해서 다시 사후 확률을 계산할 수 있음
3.2.3 기계학습의 베이즈 정리
- 베이즈 정리의 대표적인 용례 하나는 베이즈 확률을 분류자(classifier)로 사용하는 것인데, 이 분류자를 단순 베이즈(Naive Bayes) 분류자라고 부름
- 분류명(class label) 들과 특징 벡터(feature vector) 들로 이루어진 데이터 집합이 있다고 할 때, 단순 베이즈 분류자의 목표는 각 분류명에 대해, 주어진 한 특징 벡터가 그 분류명에 속할 확률을 구하는 것
- 다른 말로 하면, 각 분류명 에 대해 를 구하는 것이고 이것은 조건부 확률이므로 베이즈 정리를 다음과 같이 적용할 수 있음
- 주변 확률 는 비례개수(scale factor)이므로, 분류를 위해서는 굳이 필요하지 않음
- 를 고정하면, 특징 벡터 는 다음과 같이 표기할 수 있음
- 특징 벡터의 모든 특징이 서로 독립이라고 가정을 도입한다면, 이 결합 확률을 편리한 방식으로 분해할 수 있음
- 이 가정이 참이라고 단순하게(naive; 또는 순진하게) 믿고 넘어간다는 점에서 단순 베이즈라는 이름이 붙음
- 특징들이 독립이라면, 곱의 법칙을 적용해서 결합 확률을 다음과 같이 분해할 수 있음