Data/Data Science
2020. 1. 2.
[Pyspark] pyspark 내장 ML 모델사용
사용한 모델은 총 3개로(크게보면 두개) : 2개의 클러스터링 1개의 지도학습(Gradient Boostring Tree) pyspark에서 다음과 같이 선언 from pyspark.ml.clustering import KMeans, BisectingKMeans from pyspark.ml.classification import GBTClassifier 모델선언은 sklearn과 비슷하게 선언하면되는데 feature을 넣어줄때 약간 다른점이있다. 바로 train이나 test 데이터셋에 features라는 column이 있어야만 학습이 진행된다. 따라서 feature로 선택한 column들을 한번에 모아서 features라는 column을 새로 선언해줘야한다. 당연히 여기에 사용되는 pyspark 함수가 ..