본문 바로가기

Data/Data Analysis

(43)
[Statistics] 회귀와 예측2 용어 정리 제곱근 평균제곱오차 (root mean squared error, RMSE) : 회귀 시 평균제곱오차의 제곱근. 회귀모형을 평가하는 데 가장 널리 사용되는 측정 지표 잔차 표준오차(residual standard error, RSE) : 평균제곱오차와 동일하지만 자유도에 따라 보정된 값 R 제곱 : 0~1까지 모델에 의해 설명된 분산의 비율, 모델이 데이터에 얼마나 적합한지 평가하는 기준 t 통계량 : 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준 가중회귀 : 다른 가중치를 가진 레코드들을 회귀하는 방법 추가 정리 $R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^..
[Statistics] 회귀와 예측 용어 정리 응답변수(반응변수) - 예측하고자 하는 변수 독립변수 - 응답치를 예측하기 위해 사용되는 변수 레코드 - 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터 절편 - 회귀직선의 절편. 즉, X=0일 때 예측값 회귀계수 - 회귀직선의 기울기 적합값 - 회귀선으로부터 얻은 추정치 (예측값) 잔차 - 관측값과 적합값의 차이 (오차) 최소제곱 - 잔차의 제곱합을 최소화하여 회귀를 피팅하는방법 (보통최소제곱) 회귀식 책에는 글이 너무많아서 대충 정리 Y = aX + b b - 절편 a - 회귀계수 (기울기) Y - 응답변수 또는 종속변수 (머신러닝분야에선 목표벡터) X - 독립변수 혹은 예측변수 (머신러닝분야에선 피처벡터) 적합값과 잔차 회귀분석에서 중요한 개념은 적합값과 잔차. 보통 모든 데이터가 정..
[Statistics] 통계학3 통계적 유의성과 p값 p 값: 귀무가설을 구체화한 기회 모델이 주어졌을 때, 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률 알파 : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야하는 '비정상적인' 가능성의 임계확률 책에는 p값을 계산하는게 안나와있어서 링크를 첨부(들어가서 읽어보았는데 정리를 잘해주신것같다 틈틈히 들어가서 봐야지...) https://m.blog.naver.com/PostView.nhn?blogId=yunjh7024&logNo=220840282403&proxyReferer=https%3A%2F%2Fwww.google.com%2F Story 10.2[가설검정] 기각역과 p-value(p 값) 기각역 과 P-value이해를 돕기 위해 이..
[Pyspark] list to pyspark.DataFrame list 자료형을 pyspark dataframe으로 넣을때 다음과 같이 코딩 from pyspark.sql.types import * mylist = [1,2,3,4] spark.createDataFrame(mylist, IntegerType()).show()
[Statistics] A/B Testing(A/B 검정) 회사에 다니면서 A/B테스팅이라는걸 했는데 처음엔 이해를못했다가 알게된 검증기법이다. 단어에서도 보여주다시피 A버전 B버전을 준비해서 어느 버전이 사용자들에게 더 좋은평가를 받았는지 통계를내어서, 좀더 나은 버전을 시청자들에게 적용한다. 자주 쓰이는 용어 처리(treatment) - 어떤 대상에 주어지는 특별한 환경이나 조건(약, 가격, 인터넷 뉴스 제목) 처리군(treatment group) - 특정 처리에 노출된 대상들의 집단 대조군(control group) - 어떤 처리도 하지 않은 대상들의 집단 임의화(randomization) - 처리를 적용할 대상을 임의로 결정하는 과정 대상(subject) - 처리를 적용할 개체 대상 (유의어: 피실험자) 검정통계량(test statistic) - 처리 효..
[Statistics] 통계학 공부 2 상관관계 머신러닝(딥러닝)에서 중요한 feature를 찾을때 자주사용하는 단어, x가 큰 값을 가지면 y도 큰 값을 갖고, x가 작은 값을 가지면 y도 작은 값을가질때 x와 y는 서로 양의 상관관계를 갖는다고 말함. x와 y가 반비례일때 음의 상관관계를 갖는다고 말함. - 상관계수는 -1 ~ +1 사이 값을 가진다 temp라는 pandas.dataframe의 각 column별 상관관계를 계산하고 싶을때 다음과 같이 corr함수를 쓰면 알수가 있다. temp.corr() 여기서는 기본적으로 피어슨 상관계수(Pearson's Correlation)를 이용해서 계산한다. 두개 feature의 관계를 가장 잘표현하는건 산점도(scatterplot)를 그려보는것, 단순하게 x, y축으로 두개의 값을 점으로 표시해..
[Statistics] 통계학 공부 데이터 분석가인데 통계학이 너무 딸린거같아... 책을 사서 공부 앞으로 이 카테고리에 올라올 통계학은 Pratical Statistics for Data Scientists 책 기반으로 공부한 내용을 정리 수식에 대해서는 책을 구입하여 보는게 더 베스트! :)ㅎㅎ 데이터를 표현하는 변수들은 수천 가지 다른 값을 가지고 있고. 이를 보여주기 위해 여러가지 통계방법이 있는데 이러한 방법 유형은 다음과 같다 위치 추정 1. 평균(mean) - 가장 많이 쓰이는 방법이고 잘 알려진 방법, 모든 값의 총합을 개수로 나눈 값 2. 가중평균(weight mean) - 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값 3. *중간값(median) - 데이터에서 가장 가운데 위치한 값 4. 가중 중간값(weighte..
[Pandas] DataCamp - Histogram, filter data - hist 함수 특정 column에 대해서 히스토그램 작성, bins 파라미터는 분포구간을 정해줌 plt.hist(temp['target_column'], bins = 20) 출력결과는 hist함수에는 histtype이라는 변수도 설정할수가있는데 단어의 뜻에서도 보이다시피 히스토그램의 형태를 조정할수가 있음 해당 변수를 'step' 이라는 유형으로 지정시 다음과 같이 그림이 표현 - mean 함수 말 그대로 특정 column의 평균 값을 얻기위한 함수 temp['target_column'].mean() - data filter pandas dataframe을 다룰때 특정조건을 만족하는 raw만 뽑고싶을때가 많은데 이 방법을 사용하면 된다 prglength 라는 column에서 특정 값보다 높은 raw를..