[Statistics] 통계학 공부 2
상관관계
머신러닝(딥러닝)에서 중요한 feature를 찾을때 자주사용하는 단어, x가 큰 값을 가지면 y도 큰 값을 갖고, x가 작은 값을 가지면 y도 작은 값을가질때 x와 y는 서로 양의 상관관계를 갖는다고 말함. x와 y가 반비례일때 음의 상관관계를 갖는다고 말함.
- 상관계수는 -1 ~ +1 사이 값을 가진다
temp라는 pandas.dataframe의 각 column별 상관관계를 계산하고 싶을때 다음과 같이 corr함수를 쓰면 알수가 있다.
temp.corr()
여기서는 기본적으로 피어슨 상관계수(Pearson's Correlation)를 이용해서 계산한다.
두개 feature의 관계를 가장 잘표현하는건 산점도(scatterplot)를 그려보는것, 단순하게 x, y축으로 두개의 값을 점으로 표시해서 관계를 파악
표본
빅데이터를 다루는 현 시점에서 표본이라는게 별로 의미없어보일수도 있지만, 데이터 편향을 최소화하기 위해서 표본데이터를 가지고 예측 모델을 개발하고 테스트를 해야함.
표본(sample) - 더 큰 데이터 집합으로부터 얻은 부분집합
모집단(population) - 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
N(n) - 모집단(표본)의 크기
임의표집(랜덤표본추출)(random sampling) - 무작위로 표본을 추출하는 것
층화표집(층화표본추출)(stratified sampling) - 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
단순임의표본(단순랜덤표본)(simple random sample) - 모집단 층화 없이 랜덤표본추출로 얻은 표본
표본편어(sample bias) - 모집단을 잘못 대표하는 표본
임의표집은 말대로 모집단에서 아무거나 뽑는 방식이고, 층화표집은 예시로 사람들이 있고 인종으로 층을 나눈다, 백인, 흑인, 황인(?) 으로 나눠서 각 층(타입)마다 랜덤으로 뽑는 방식.
편향(bias) - 계통적 오차
데이터 스누핑(data snooping) - 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
방대한 검색효과(vast search effect) - 중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성
표본분포
표본통계량(sample statistic) - 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
데이터 분포(data distribution) - 어떤 데이터 집합에서의 각 개별 값의 도수분포
표분분포(sample distribution) - 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포
중심극한정리(central limit theorem) - 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향
표준오차(standard error) - 여러 표본들로부터 얻은 표본통계량의 변량 (표준편차랑 다른거임)