vectorassembler Data/Data Analysis 2021. 4. 20. [Pyspark] pyspark Pipeline을 이용한 Data Normalizatioon Pyspark에서 Min Max Normalization을 처리할때, Pipeline이 없을 경우 다음과 같이 처리를 해야함 1. 먼저 처리하고싶은 column을 vector화 진행 2. vector화 모델에 fit처리 3. vector화된 column을 다시 MinMaxScaler 모델에 대입 4. MinMaxScaler에 대하여 Fit처리 하지만 Pipeline이 있을경우 두번씩 쓰였던 fit, transform문이 한줄로 줄여진다. -> 코드는 깔끔한게 최고! from pyspark.ml.feature import MinMaxScaler from pyspark.ml.feature import VectorAssembler from pyspark.ml import Pipeline try: df = Da.. Data/Data Science 2020. 1. 2. [Pyspark] pyspark 내장 ML 모델사용 사용한 모델은 총 3개로(크게보면 두개) : 2개의 클러스터링 1개의 지도학습(Gradient Boostring Tree) pyspark에서 다음과 같이 선언 from pyspark.ml.clustering import KMeans, BisectingKMeans from pyspark.ml.classification import GBTClassifier 모델선언은 sklearn과 비슷하게 선언하면되는데 feature을 넣어줄때 약간 다른점이있다. 바로 train이나 test 데이터셋에 features라는 column이 있어야만 학습이 진행된다. 따라서 feature로 선택한 column들을 한번에 모아서 features라는 column을 새로 선언해줘야한다. 당연히 여기에 사용되는 pyspark 함수가 .. 이전 1 다음