[Statistics] 통계학 공부

데이터 분석가인데 통계학이 너무 딸린거같아... 책을 사서 공부

앞으로 이 카테고리에 올라올 통계학은 Pratical Statistics for Data Scientists 책 기반으로 공부한 내용을 정리

수식에 대해서는 책을 구입하여 보는게 더 베스트! :)ㅎㅎ

데이터를 표현하는 변수들은 수천 가지 다른 값을 가지고 있고. 이를 보여주기 위해 여러가지 통계방법이 있는데 이러한 방법 유형은 다음과 같다

위치 추정

1. 평균(mean) - 가장 많이 쓰이는 방법이고 잘 알려진 방법, 모든 값의 총합을 개수로 나눈 값

2. 가중평균(weight mean) - 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값

3. *중간값(median) - 데이터에서 가장 가운데 위치한 값

4. 가중 중간값(weighted median) - 데이터를 정렬한 후, 각 가중치 값을 위에서 부터 더할 때, 총합의 중간이 위치하는 데이터 값

5. 절사평균(trimmed mean) - 정해진 개수의 극단값을 제외한 나머지 값들의 평균

6. **로버스트(robust) - 극단값들에 민감하지 않은 데이터

7. ***특잇값(outlier) - 대부분의 값과 매우 다른 데이터 값

* 평균과 중간값의 차이는 실제로 데이터 분석을 진행할때 극단값이 많아질 경우 평균값에 큰 영향을 끼치는데 이러한 경우에는 중간값을 가지고 표현하는게 오히려 평균값보다 더 정확할 때가 있다

** 중간값, 절사평균은 로버스트한 위치에 있는 데이터라고 할 수 있다(극단값에 영향을 받지않음)

*** outlier데이터를 제거해야하는 이유는 머신러닝에서 학습을 시킬때 이러한 outlier때문에 학습이 안될경우가 많다. 따라서 outlier를 구분하여 제거하는 과정이 필요하다, 가끔 이러한 outlier데이터들은 anomaly detection을 할때 보여지기도 한다.

변이 추정

1. 편차(deviation) - 관측값과 위치 추정값사이의 차이 (유의어로는 오차, 잔차)

2. 분산(variance) - 평균과 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수

3. 표준편차(standard deviation) - 분산의 제곱근

4. 평균절대편차(mean absolute deviation) - 평균과의 편차의 절댓값의 평균

5. 중간값의 중위절대편차(median absolute deviation from the median) - 중간값과의 편차의 절댓값의 중간값(라임오지네)

6. 범위(range) - 데이터의 최댓값과 최솟값의 차이

7. 순서통계량(order statistics) - 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

8. 백분위수(percentile) - 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값

9. *사분위범위 - 75번째 백분위수와 25번째 백분위수 사이의 차이 (IQR)

* box-plot을 할때 사각형의 윗라인은 75%, 아랫라인은 25% 백분위수를 나타낸다

'Data > Data Analysis' 카테고리의 다른 글

[Statistics] A/B Testing(A/B 검정) (0)	2019.12.02
[Statistics] 통계학 공부 2 (0)	2019.11.26
[Pandas] DataCamp - Histogram, filter data (0)	2019.11.25
[Pandas] Datacamp - Clean a variable (0)	2019.11.25
[Pyspark] UDF함수에서 return 을 list형식으로 하고싶을 때 (0)	2019.11.15

개발 공부방

[Statistics] 통계학 공부

위치 추정

변이 추정

'Data > Data Analysis' 카테고리의 다른 글

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[Statistics] 통계학 공부

위치 추정

변이 추정

'Data > Data Analysis' 카테고리의 다른 글

'Data/Data Analysis' 관련글

티스토리툴바