본문 바로가기

Data/Data Analysis

[Pandas] DataCamp - Histogram, filter data

반응형

- hist 함수

특정 column에 대해서 히스토그램 작성, bins 파라미터는 분포구간을 정해줌

plt.hist(temp['target_column'], bins = 20)

출력결과는

hist함수에는 histtype이라는 변수도 설정할수가있는데 단어의 뜻에서도 보이다시피 히스토그램의 형태를 조정할수가 있음

해당 변수를 'step' 이라는 유형으로 지정시 다음과 같이 그림이 표현

- mean 함수

말 그대로 특정 column의 평균 값을 얻기위한 함수

temp['target_column'].mean()

- data filter

pandas dataframe을 다룰때 특정조건을 만족하는 raw만 뽑고싶을때가 많은데 이 방법을 사용하면 된다

prglength 라는 column에서 특정 값보다 높은 raw를 뽑고싶을 때

full_term = nsfg['prglngth'] >= 37
temp[full_term]

만일 해당 조건과 반대로 적용하고 싶을때

- 그냥 위에있는 조건을 반대로 건다

- 앞에 ~ 를 붙여서 조건을 바꾼다

temp[~full_term]

 

반응형