본문 바로가기

재융

Notice

Recent Posts

Popular Posts

Recent Comments

Link

Calendar

Tags

더보기

Archives

Visits

Today

Yesterday

개발 공부방

Data/Data Analysis

[MySQL] with recursive 구문 활용법

Data/Data Analysis 2024. 9. 14. [MySQL] with recursive 구문 활용법 SQL관련 코딩에 대해서 공부하던중에 "0시~23시까지 속한 특정데이터 합산을 구해야함" 라는 문제가 있었고, 여기서 주의할점은 합산에 필요한 데이터에서 특정 시간대가 존재하지않을수도 있었다. 예시로, 계산에 사용되는 데이터에는 11시 데이터가 없을가능성이 있다. 따라서 11시에 해당되는 값은 0이 되어야한다. 그렇다면 0시~23시까지 있는 테이블을 만들어서 계산에 활용된 테이블을 join시켜줘야하는데, 0시~23시까지 있는 테이블을 어떻게 만들지가 관건이였다. 찾아보니 아래와같이 with recursive구문을 사용하면 쉽게 생성이 가능했다. WITH RECURSIVE DIGIT AS ( SELECT 0 as number UNION ALL SELECT number + 1 FROM ..

[Snowflake] strtok 여러 delimiter를 사용하여 split 대체함수

Data/Data Analysis 2021. 11. 22. [Snowflake] strtok 여러 delimiter를 사용하여 split 대체함수 pyspark에서는 기존에 split함수를 이용하여 다음과 같이 여러 delimiter가 있을때 작업하면된다. import pyspark.sql.functions as F temp = 'hi|you:what's"up' F.split(temp, '\||:|"') => ['hi', 'you', 'what's', 'up'] 하지만 snowflake에서는 위처럼 작동하지않는다. 별도로 strtok라는 함수를 사용하여 split해줘야한다. temp = 'hi|you:what's"up' strtok(temp, "\||:|"") => ['hi', 'you', 'what's', 'up'] 요 몇일간 써보면서 느낀거지만, snowflake는 여러면에서 복잡한것같다...

[Pyspark] 'Detected implicit cartesian product for LEFT OUTER join between logical plans' 에러 해결방법

Data/Data Analysis 2021. 7. 12. [Pyspark] 'Detected implicit cartesian product for LEFT OUTER join between logical plans' 에러 해결방법 길게 안쓰겠다 다음과 같은 명령어면 해결된다 spark.conf.set( "spark.sql.crossJoin.enabled" , "true")

[Pyspark] pyspark Pipeline을 이용한 Data Normalizatioon

Data/Data Analysis 2021. 4. 20. [Pyspark] pyspark Pipeline을 이용한 Data Normalizatioon Pyspark에서 Min Max Normalization을 처리할때, Pipeline이 없을 경우 다음과 같이 처리를 해야함 1. 먼저 처리하고싶은 column을 vector화 진행 2. vector화 모델에 fit처리 3. vector화된 column을 다시 MinMaxScaler 모델에 대입 4. MinMaxScaler에 대하여 Fit처리 하지만 Pipeline이 있을경우 두번씩 쓰였던 fit, transform문이 한줄로 줄여진다. -> 코드는 깔끔한게 최고! from pyspark.ml.feature import MinMaxScaler from pyspark.ml.feature import VectorAssembler from pyspark.ml import Pipeline try: df = Da..

[Pyspark] 차원축소 pyspark.ml.feature의 PCA 사용

Data/Data Analysis 2021. 4. 9. [Pyspark] 차원축소 pyspark.ml.feature의 PCA 사용 [참조] spark.apache.org/docs/1.5.1/ml-features.html#pca Feature Extraction, Transformation, and Selection - SparkML - Spark 1.5.1 Documentation ML - Features This section covers algorithms for working with features, roughly divided into these groups: Extraction: Extracting features from “raw” data Transformation: Scaling, converting, or modifying features Selection: Selecting a subset from a l spa..

[Pyspark] sparkSQL groupBy concat사용하기

Data/Data Analysis 2021. 2. 24. [Pyspark] sparkSQL groupBy concat사용하기 하나의 row에서 문자열들을 모두 합치는건 concat함수를 사용하면 되긴하지만, 가끔 여러 row에서 문자열들을 합쳐야할때가 있다. 그럴때 다음과 같은 코드를 활용하면 된다 select time, Id, concat_ws('', collect_list(item)) as concat from welcome group by 1,2 collect_list와, concat_ws 함수를 활용하면 SQL의 GROUP_CONCAT함수 효과를 맛볼수(?)있다.

[Pyspark] 비어있는 dataframe만들기

Data/Data Analysis 2021. 1. 18. [Pyspark] 비어있는 dataframe만들기 pyspark로 작업하다보면 비어있는 dataframe이 필요할때 있는데 간단히 정리 schema = StructType([StructField("UserId", StringType(), True)]) spark.createDataFrame([], schema).createOrReplaceTempView('Info') 이런식으로 StructField('컬럼명', 컬럼 타입, True) 로 설정한다. 여러 column일 경우엔 StructType안의 list에 콤마 구분으로 StructField를 늘리면된다

[Pyspark] pyspark에서 percentile사용하기

Data/Data Analysis 2020. 12. 10. [Pyspark] pyspark에서 percentile사용하기 pyspark에서는 별도로 percentile함수가 없어보인다. 구글에 찾아봐도 결국엔 함수를 만들어서 사용하는것 같긴하지만... 혹시 함수가 있다면 댓글 부탁드립니다! 기존에는 percentile함수를 createOrReplaceTempView함수를 사용해서 SQL 테이블을 만들어서 SQL구문으로 percentile함수를 호출했는데. 이방식을 바로 pyspark에서 적용해보았다. temp.select('date', 'Country', 'User')\ .groupBy('date').agg(F.expr('percentile(User, 0.9)').alias('percentile90'))\ .show(100,False) 이런방식으로 pyspark에서도 바로 percentile함수를 사용 할 수가 있다

[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때

Data/Data Analysis 2020. 11. 24. [Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때 pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데 result.coalesce(1).write.mode('overwrite').json(s3_address) 충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도. 그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고 https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time 결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다 result.repartition(1).write.mode('overwrite').json(s3_address)

[Pyspark ] pivot 함수 사용방법

Data/Data Analysis 2020. 11. 18. [Pyspark ] pivot 함수 사용방법 다음과 같이 result란 pyspark dataframe이 있다고할때. 날짜별로, Reason column을 pivot시켜서 사람수를 보고싶을때 다음과같이 코드를 사용해서 pivot을 진행할수있다 result\ .groupBy('date')\ .pivot('Reason')\ .agg(F.sum('count_user'))\ .orderBy('date')\ .show(100,False) 출력은 다음과같다

[Pyspark] groupBy 개수 중복제거 countDistinct

Data/Data Analysis 2020. 11. 12. [Pyspark] groupBy 개수 중복제거 countDistinct 데이터 분석을 할때 groupBy를 굉장히 많이 사용하는데. 이런 경험이 있었다. 예를들어서 df란 pyspark.DataFrame이 다음과 같이 있다면 date accountId timestamp another 2020-11-02 A 1 B 2020-11-02 A 2 C 2020-11-02 A 3 B 2020-11-02 A 4 D 2020-11-02 B 1 A 2020-11-02 B 2 C 여기서 날짜 그리고 accountId를 묶어서 another의 개수와 평균 timestamp를 계산하려고하면 이렇게 쓸수있을것이다 df.groupBy('date', 'accountId')\ .agg(F.count(F.col('another')).alias('count'), F.avg(F.col('timestamp')..

[Pandas] apply, map, groupby등 모르는거 정리

Data/Data Analysis 2020. 11. 4. [Pandas] apply, map, groupby등 모르는거 정리 Apply pyspark 에서 udf성격을 띄는 pandas function 이다. # 한 컬럼만 적용할 경우 def stars(values): if values >= 95: return 3 elif values >= 85: return 2 else: return 1 df.values.apply(stars) # 여러 컬럼이 필요할 경우 def stars(df): if df.country == 'canada': return 3 elif df.score >= 95: return 3 elif df.score >= 85: return 2 else: return 1 df.apply(stars, axis='columns') Map 위처럼 함수를 사용하지않고 한줄의 코드로도 작성이 가능하다 # 만일 한 column에..

[SQL] RANK(), ROW_NUMBER(), DENSE_RANK()

Data/Data Analysis 2020. 8. 5. [SQL] RANK(), ROW_NUMBER(), DENSE_RANK() RANK() 함수는 중복 순위 다음은 해당 개수만큼 건너뛰고 반환 예를들어서 다음과 같은 A테이블이 있다하면 pay user 4.00$ A 3.00$ B 3.00$ C 2.00$ D select rank() over(order by pay desc) as rank, pay, user from A 다음과 같이 출력이된다 rank pay user 1 4.00$ A 2 3.00$ B 2 3.00$ C 4 2.00$ D ROW_NUMBER() 함수는 중복 순위 상관없이 순차적으로 반환 select row_number() over(order by pay desc) as rank, pay, user from A rank pay user 1 4.00$ A 2 3.00$ B 3 3.00$ C 4 2.00$ D DENS..

[SQL] ARRAY_CONTAINS 함수

Data/Data Analysis 2020. 7. 20. [SQL] ARRAY_CONTAINS 함수 SQL에서 array안에 특정 값이 들어있는지 판단여부를 위해 ARRAY_CONTAINS함수를 사용한다. 만일 어떤 테이블에서 다음과 같이 데이터가 있을 때 accountId word jaeyung hi jaeyung hello jaeyung what 우리는 jaeyung이라는 유저가 쓴 단어중에 hi라는 단어의 유무를 알고싶다. 사용방법은 다음과 같다 select accountId, collect_set(word) as array_list from A group by 1 having array_contains(array_list, 'hi') 이렇게 되면 array_list에 있는 단어중에 hi 유무를 판단 할 수가 있다

[Pyspark] UDF 함수에 parameter값 추가

Data/Data Analysis 2020. 5. 8. [Pyspark] UDF 함수에 parameter값 추가 데이터 전처리를 하는중, udf에 파라미터를 넘겨줘서 파라미터에 따라서 함수를 실행하는걸 원했다 다음과 같이 진행 파라미터값을 넘겨줄 땐, F.lit()함수를 이용해서 파라미터 값을 넘겨주면된다. 즉, F.lit('play')일 경우에는 reason 함수에서 logtype == 'play' 쪽 알고리즘이 실행되고 아니면 그 밑에 알고리즘이 실행이된다. import pyspark.sql.functions as F def reason(string, logtype): if logtype == 'play': try: return string.split(",")[0] + "," + string.split(",")[1] except: return string.split(",")[0] # unplay else: tr..

[SQL] ROW_NUMBER(), LEAD(), LAG()

Data/Data Analysis 2020. 4. 29. [SQL] ROW_NUMBER(), LEAD(), LAG() 설명전에 해당 sql은 pyspark.sql 이라는 점 확인! row_number() - 행 번호 매겨주는 sql함수 LEAD() - 다음 행 값을 가져오는 sql 함수 LAG() - 이전 행 값을 가져오는 sql 함수 아래와 같은 테이블이 있을때 (shot) user timestamp shot_id jaeyung 12:34:54 123 jaeyung 12:45:34 234 jaeyung 12:50:55 456 seung 12:55:23 334 seung 13:01:34 523 seung 13:12:43 646 1. row_number() spark.sql(""" select user, timestamp, shot_id, row_number() over(partition by user order by t..

이전 1 2 3 다음

티스토리툴바