반응형
- hist 함수
특정 column에 대해서 히스토그램 작성, bins 파라미터는 분포구간을 정해줌
plt.hist(temp['target_column'], bins = 20)
출력결과는
hist함수에는 histtype이라는 변수도 설정할수가있는데 단어의 뜻에서도 보이다시피 히스토그램의 형태를 조정할수가 있음
해당 변수를 'step' 이라는 유형으로 지정시 다음과 같이 그림이 표현
- mean 함수
말 그대로 특정 column의 평균 값을 얻기위한 함수
temp['target_column'].mean()
- data filter
pandas dataframe을 다룰때 특정조건을 만족하는 raw만 뽑고싶을때가 많은데 이 방법을 사용하면 된다
prglength 라는 column에서 특정 값보다 높은 raw를 뽑고싶을 때
full_term = nsfg['prglngth'] >= 37
temp[full_term]
만일 해당 조건과 반대로 적용하고 싶을때
- 그냥 위에있는 조건을 반대로 건다
- 앞에 ~ 를 붙여서 조건을 바꾼다
temp[~full_term]
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Statistics] 통계학 공부 2 (0) | 2019.11.26 |
---|---|
[Statistics] 통계학 공부 (0) | 2019.11.25 |
[Pandas] Datacamp - Clean a variable (0) | 2019.11.25 |
[Pyspark] UDF함수에서 return 을 list형식으로 하고싶을 때 (0) | 2019.11.15 |
[Pyspark] sorted와 sort 의 차이 (2) | 2019.11.14 |