[Statistics] 통계학 공부
데이터 분석가인데 통계학이 너무 딸린거같아... 책을 사서 공부
앞으로 이 카테고리에 올라올 통계학은 Pratical Statistics for Data Scientists 책 기반으로 공부한 내용을 정리
수식에 대해서는 책을 구입하여 보는게 더 베스트! :)ㅎㅎ
데이터를 표현하는 변수들은 수천 가지 다른 값을 가지고 있고. 이를 보여주기 위해 여러가지 통계방법이 있는데 이러한 방법 유형은 다음과 같다
위치 추정
1. 평균(mean) - 가장 많이 쓰이는 방법이고 잘 알려진 방법, 모든 값의 총합을 개수로 나눈 값
2. 가중평균(weight mean) - 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
3. *중간값(median) - 데이터에서 가장 가운데 위치한 값
4. 가중 중간값(weighted median) - 데이터를 정렬한 후, 각 가중치 값을 위에서 부터 더할 때, 총합의 중간이 위치하는 데이터 값
5. 절사평균(trimmed mean) - 정해진 개수의 극단값을 제외한 나머지 값들의 평균
6. **로버스트(robust) - 극단값들에 민감하지 않은 데이터
7. ***특잇값(outlier) - 대부분의 값과 매우 다른 데이터 값
* 평균과 중간값의 차이는 실제로 데이터 분석을 진행할때 극단값이 많아질 경우 평균값에 큰 영향을 끼치는데 이러한 경우에는 중간값을 가지고 표현하는게 오히려 평균값보다 더 정확할 때가 있다
** 중간값, 절사평균은 로버스트한 위치에 있는 데이터라고 할 수 있다(극단값에 영향을 받지않음)
*** outlier데이터를 제거해야하는 이유는 머신러닝에서 학습을 시킬때 이러한 outlier때문에 학습이 안될경우가 많다. 따라서 outlier를 구분하여 제거하는 과정이 필요하다, 가끔 이러한 outlier데이터들은 anomaly detection을 할때 보여지기도 한다.
변이 추정
1. 편차(deviation) - 관측값과 위치 추정값사이의 차이 (유의어로는 오차, 잔차)
2. 분산(variance) - 평균과 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수
3. 표준편차(standard deviation) - 분산의 제곱근
4. 평균절대편차(mean absolute deviation) - 평균과의 편차의 절댓값의 평균
5. 중간값의 중위절대편차(median absolute deviation from the median) - 중간값과의 편차의 절댓값의 중간값(라임오지네)
6. 범위(range) - 데이터의 최댓값과 최솟값의 차이
7. 순서통계량(order statistics) - 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
8. 백분위수(percentile) - 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
9. *사분위범위 - 75번째 백분위수와 25번째 백분위수 사이의 차이 (IQR)
* box-plot을 할때 사각형의 윗라인은 75%, 아랫라인은 25% 백분위수를 나타낸다