본문 바로가기

전생의 기억/영상처리

정규분포란?

1. Intro


정규분포,

한글로 뜻을 해석하자니 조금 모호한 부분이 있는것 같아 영어로 그 뜻을 찾아보면,

Normal Distribution이다. 정규분포는 일반적인 분포를 말하고 있다.


정규분포는 통계학에서 사용하는 여려가지 확률분포들 중에서도 가장 중요하게 다루는 분포이기도 하다.

수학적으로 말하는 정규분포는 분포들의 평균값을 중심으로 하는 종모양(bell-shape)의 분포 모양을 가지며, 마치 어린왕자에 나오는 코끼리를 삼킨 보아뱀과 같은 모양을 띄고있다.


정규분포가 중요한 이유는, 자연현상에서 관찰되는 수많은 데이터들이 이 정규분포 형태를 따르기 때문에 더욱 의미가 있다.

 이말인 즉, 대부분의 자연에서 얻어온 데이터들을 수학적으로 표현하는데에 있어서 이 정규분포가 유용하게 사용될 수 있다는 의미이다. 실제로 위대한 수학자인 가우스가 이 정규분포의 개념을 정의하였을 때, 많은 수학자와 과학자들이 이를 신처럼 신봉하였으며, 극단적으로는 관찰데이터가 정규분포를 따르지 않을 경우에는 데이터 관찰이 잘못되었다고 여길 정도였으니, 이러한 점에서 정규분포가 얼마나 위대한 발견인지 확인할 수 있다. 


<코끼리를 삼킨 보아뱀>

<정규분포>



간단하게 예시를 보도록 하자.

다음은 남학생들의 키를 확률별로(키 xxx cm에 속할 확률) 히스토그램을 그린 그래프이다.

확률이 높을수록 해당 집단에서 특정 값이 많이 분포하고 있다는 의미로 해석할 수 있다.

여기서 174~176cm 사이의 키를 가진 집단이 가장 확률이 높기때문에, 평균값도 이 근처에 존재할 것이며,

평균값에서 멀어질 수록 분포의 빈도가 낮아지는 전형적인 정규분포 형태의 그래프를 가지게 된다.



지금까지 정규분포의 예시를 들어가면서 정규분포가 가지는 가치와 그 모양에 대해 알아보았다.


정규분포나 기타 여러 분포들은 일종에 확률분포이다.

확률분포는, 위의 예제와 빗대어 표현하면, '무작위 사람을 뽑았을 때,  키가 X cm일 확률들의 분포' 라고 할 수 있다.

다만, 이 확률분포들이 연속되는 값들에 대해 분포를 표현했는지, 아니면 한정적인 값들에 대해 분포를 표현했는지에 따라 이를 크게 연속확률분포, 이산확률분포 두가지로 나누어 구분하고있다.

그중 정규분포는 대표적인 연속확률분포이다.


정규분포의 표현


정규분포라고 해서 모두 같은 모양을 가지고 있지 않다.

정규분포는 두가지 값에 의해 모양이 달라지는데, 첫째는 평균값이며, 둘째는 표준편차 값이다.

평균값은 정규분포의 중심점을 결정하는 값이기 때문에 정규분포의 중심을 결정하게 되며, 표준편차는 값들이 평균으로부터 떨어진 산포 형태를 결정하기 때문에, 표준편차 값이 작으면 뾰족한 모양의, 크면 뭉퉁한 모양의 정규분포 형태를 뛰게 된다.