본문 바로가기

재융

Notice

Recent Posts

Popular Posts

Recent Comments

Link

Calendar

Tags

더보기

Archives

Visits

Today

Yesterday

개발 공부방

Data/Data Science

[deeplearning.ai] Coursera 필기정리 3

Data/Data Science 2020. 7. 11. [deeplearning.ai] Coursera 필기정리 3 Train/dev/test Train - 뜻 그대로 특정모델을 학습시키는데 사용되는 데이터 셋 Dev - Cross Validation와 같이 검증에 사용되는 데이터 셋 Test - 학습된 모델의 성능을 측정하기위한 데이터 셋 Test 데이터셋은 꼭없어도 된다. Dev 데이터셋으로도 성능평가가 가능함 Bias / Variance 딥러닝이 발전하므로 편향과 편차의 문제가 많이 줄었다고함 밑의 그림처럼. 4가지 경우가 있는데. 만일 어떤 classification문제에서 판단을 잘 못 내리는 확률이 0%에 가까울 때 Train Set에서의 에러는 낮고, Dev Set에서는 높을때 -> High Variance Train Set에서의 에러가 높고, Dev Set 도 높지만 둘이 유사한 에러 비율을 가질 때 -..

[deeplearning.ai] Coursera 필기정리 2

Data/Data Science 2020. 7. 6. [deeplearning.ai] Coursera 필기정리 2 Computing a Neural Network's Output 이미 딥러닝에 대해서 공부하신분들이라면 지겹게 들으셨겠지만 복습차원에서... 한개의 neural에는 한개의 로지스틱 회귀분석과 activation 값을계산하는 과정이 포함되어있다(밑 그림의 원안에 좌우함수). x는 특성 값이다. activation function의 역할은 현재 들어있는 노드의 정보를 다음 노드에 넘겨줄지 말지를 결정하는 함수이다. 그리고 hidden layer가 한개가있을때 밑에 그림과 같은 구조로 나타나게 되고. 이전에 배웠던 vectorizaton을 이용하여 결과 값 z, a을 도출한다. Vectorizing across multiple examples 트레이닝 샘플에서 벡터화시키는 방법 사실 되게 부끄러운 얘기지만 요..

[deeplearning.ai] Coursera 필기정리 1

Data/Data Science 2020. 7. 2. [deeplearning.ai] Coursera 필기정리 1 Logistic Regression cost function 로지스틱 회귀란 binarary classification을 위한 알고리즘이라고하는데. 회귀분석 모델에서 W와 b파라미터를 트레이닝시키기 위해서는 cost function을 정의해야함 한가지 방법은 L = 1/2(y' - y) 인데 로지스틱 회귀분석법에서는 이렇게 잘하지않는다고함. 이유는 이러한 공식으로 하게된다면 local optimization 문제를 갖게되고 global optimization을 못찾게된다고함. 즉, Gradient Descent가 잘안나온다는 단점이있음. 따라서 로지스틱 회귀분석법에는 다른 방식의 cost function을 이용하게됨. regression loss함수를 사용한다고 나옴(빨간 밑줄 공식). J(w,b)=m1..

[ML] Coursera 필기 정리

Data/Data Science 2020. 6. 30. [ML] Coursera 필기 정리 영상을 보면서 내 나름대로 얻은 정보를 필기로 정리. 꼭... 끝을 보겠노라 불끈 Cost Function 손실함수, 어떤 특정 예측 알고리즘이 얼마나 잘 동작하고있는지 확인하는 지표 값. 실제값과 예측값이 얼마나 차이가 나는지 알수가있는 함수임. (MSE 알고리즘등) Gradient Descent 위에서 말한 손실함수를 최소한의 값으로 줄이는게 목적인데. 이를 사람손으로 일일히 작업할수가없어서 자동으로 최소값을 찾아주는 알고리즘. 제일 처음으로 접하는 알고리즘 SGD가 그 예시이다. 세타는 예측 알고리즘의 파라미터 값이고. 알파는 우리가 딥러닝모델을 작업할때 흔히 말하는 Learning Rate이다. 예측 알고리즘의 파라미터는 동시에 업데이트가 되어야한다. 이 Learning rate가 너무 높아서도,..

[Coursera IBM] Data Science 필기2

Data/Data Science 2020. 6. 29. [Coursera IBM] Data Science 필기2 도움이됐던 내용만 기록중... - API? REST API? API란 Application Programming Interfaces의 약자 Coursera에서는 예제로 Pandas 의 함수들을 API로 예를 들어서 설명함, 추가로 파이썬을 이용한 코드에서 전처리 된 데이터를 tensorflow api를 통해서 결과를 얻을수가있다라는 예로 설명함. REST API란 REpresentational State Transfer APIs의 약자로 http를 통해서 데이터를 이용하여 웹 서비스에서 post/get을 하는 방식으로 처리된 결과값을 얻는방법을 REST API라고 설명. 현재 상용화되는 예제로 Watson Speech Model을 예로들고, 클라이언트에서 음성파일을 Watson Speech to Text..

[Coursera IBM] Data Science 필기

Data/Data Science 2020. 6. 18. [Coursera IBM] Data Science 필기 - The V's of Big Data Velocity, Volume, Variety, Veracity, Value - Data mining Data mining is the process of automatically searching and analyzing data, discovering previously unrevealed patterns. It involves preprocessing the data to prepare it and transforming it into an appropriate format. Insights and patters are mined and extracted using various tools and techniques ranging from simple data..

[Sklearn] PCA 차원축소

Data/Data Science 2020. 5. 7. [Sklearn] PCA 차원축소 데이터 차원축소가 필요해서 sklearn에서 제공하는 PCA를 사용. sklearn에서 제공하는건 사용법이 간단해서 자주쓰인다. # sklearn의 PCA함수 import from sklearn.decomposition import PCA # pca 함수 호출 # n_components는 변환후의 차원 수 pca = PCA(n_components = 1) x = [[1,2,3]] # pca도 데이터의 유형에따라서 학습이 필요 pca.fit(x) print(pca.transform(x)) # 3차원에서 1차원으로 바뀐 array 반환

[딥러닝] LSTM & Anomaly Detection

Data/Data Science 2020. 4. 29. [딥러닝] LSTM & Anomaly Detection https://jaehyeongan.github.io/2020/02/29/LSTM-Autoencoder-for-Anomaly-Detection/ LSTM Autoencoder for Anomaly Detection · jaehyeong's ds jaehyeongan.github.io https://machinelearningmastery.com/lstm-autoencoders/ A Gentle Introduction to LSTM Autoencoders An LSTM Autoencoder is an implementation of an autoencoder for sequence data using an Encoder-Decoder LSTM architecture. Once fit, the encoder..

[ML] Anomaly Detection 알고리즘 정리

Data/Data Science 2020. 3. 22. [ML] Anomaly Detection 알고리즘 정리 1. OneClassSVM https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html sklearn.svm.OneClassSVM — scikit-learn 0.22.2 documentation scikit-learn.org 2. Isolation Forest https://ko.logpresso.com/documents/anomaly-detection LOGPRESSO: 이상탐지 이제 이상거래나 내부유출탐지는 단순한 임계치 기반의 탐지규칙이 아닌 머신러닝 기반 탐지 기술이 필요합니다. ko.logpresso.com

[Pytorch] Linear Regression Prediction

Data/Data Science 2020. 3. 11. [Pytorch] Linear Regression Prediction 간단한 Linear Regression모델 선언 import torch.nn as nn class LR(nn.Module): def __init__(self, in_size, output_size): super(LR, self).__init__() self.linear = nn.Linear(in_size, output_size) def forward(self, x): out = self.linear(x) return out # Linear Regression model 생성 model = LR(1, 1) # Linear Regression bias, weight 변수 확인 model.state_dict() """ OrderedDict([('linear.weight', tensor([[-0.3027]]))..

[Pytorch] Differentiation in Pytorch

Data/Data Science 2020. 3. 11. [Pytorch] Differentiation in Pytorch coursera pytorch 코드 내용 간단 정리 - 미분값을 알고싶은 변수는 tensor 선언동시에 requires_grad 값을 True로 설정 - backward() 함수는 미분을 적용하는 함수 - 미분함수에 변수를 넣을시 값을 얻고싶다면 .grad 로 얻을수있음 x = torch.tensor(2, requires_grad = True) y = x**2# y(x) = x^2 , y= 2^2 = 4 y.backward() # y'(x) = 2x 미분 x.grad # y'(x) = 2 * 2 = 4 u = torch.tensor(1, requires_grad = True) v = torch.tensor(2, requires_grad = True) f = u*v + u**2 f.backward() # ..

[Pytorch] LSTM 간단한 공부

Data/Data Science 2020. 1. 4. [Pytorch] LSTM 간단한 공부 2020년 새롭게 시작하는 프로젝트에서 LSTM을 사용해서 만드려고하는 작업이 있는데. 예전부터 말만하고 실행에 옮기지못하여 마음에 걸렸지만 이번년도엔 무조건 해봐야겠다... 먼저 계획한 프로젝트에서는 LSTM(RNN)의 many to one 유형을 사용하려고한다. 모델은 다음그림과 같을꺼고... 마지막 레이어에 softmax layer를 추가하여 LSTM Classification model로 만들면될꺼같다. 그리고 항상 궁금했던게 RNN, LSTM등 이러한 모델들은 input에 길이에 상관없다고했는데. 정확한 의미를 이해못했다. 이번에 공부하면서 알게된바로는 input의 dimension은 고정이되, input의 개수가 상관없다는건데. 글로는 내가 설명을 잘못하니... 코드에서 보자면... 간단하게 ..

[Pyspark] pyspark 내장 ML 모델사용

Data/Data Science 2020. 1. 2. [Pyspark] pyspark 내장 ML 모델사용 사용한 모델은 총 3개로(크게보면 두개) : 2개의 클러스터링 1개의 지도학습(Gradient Boostring Tree) pyspark에서 다음과 같이 선언 from pyspark.ml.clustering import KMeans, BisectingKMeans from pyspark.ml.classification import GBTClassifier 모델선언은 sklearn과 비슷하게 선언하면되는데 feature을 넣어줄때 약간 다른점이있다. 바로 train이나 test 데이터셋에 features라는 column이 있어야만 학습이 진행된다. 따라서 feature로 선택한 column들을 한번에 모아서 features라는 column을 새로 선언해줘야한다. 당연히 여기에 사용되는 pyspark 함수가 ..

[ML] Semi-Supervised Learning (label_propagation)

Data/Data Science 2019. 11. 1. [ML] Semi-Supervised Learning (label_propagation) 머신러닝에서는 크게 두가지로 나뉘는데 1. 지도학습(supervised learning) 2. 비지도학습(unsupervised learning) 지도학습중에서 추가로 나누자면 준지도학습(semi-supervised learning)이란 기법이있다. 이 기법은 우리가 흔히 데이터를 다룰때 일부한테만 정답지가 있고 일부한테는 정답지가 없을때 사용하는것인데 예를 들어서 다음 그림을 보자 위에 라벨링이 되어있는 데이터를 볼때 점선처럼 두개 부류로 나눌수가있다. 하지만 데이터가 적고, 단순한 모양으로인해 실제 데이터에서는 제대로 분류(작동)를 못할수가있다. 이때 추가로 라벨링이 되어있지않은 데이터를 넣을때 밑에그림과 같이 데이터 분포도를 띄우게되고. 여기서 semi-Supervised Learning을 하게되면..

[LSTM] 단계별 수식 정리

Data/Data Science 2019. 9. 23. [LSTM] 단계별 수식 정리 인터뷰중 LSTM에 관련하여 단계별로 물어보는질문이 있어서 좋은 사이트를 발견하여 정리 [출저]: https://dgkim5360.tistory.com/entry/understanding-long-short-term-memory-lstm-kr Long Short-Term Memory (LSTM) 이해하기 이 글은 Christopher Olah가 2015년 8월에 쓴 글을 우리 말로 번역한 것이다. Recurrent neural network의 개념을 쉽게 설명했고, 그 중 획기적인 모델인 LSTM을 이론적으로 이해할 수 있도록 좋은 그림과 함께 한.. dgkim5360.tistory.com 사실 난 AI를 전공한게 아니라서 개념자체를 공부하기가 매우 어려웠다. 현재 많은 딥러닝 라이브러리가 편의성을 제공..

[Pandas] 4분위수? pandas.Dataframe.describe함수

Data/Data Science 2019. 8. 27. [Pandas] 4분위수? pandas.Dataframe.describe함수 기준선을 정하려고 전체 데이터의 describe함수를 사용해보았는데 사실 count, mean, std, min 밖에 잘안보았다. 근데 이번에 기준선을 정할때 describe함수를 이용하면 좋다고 얘기를들어서 밑에 25%, 50%, 75%가 무엇인지 찾아보았고 이것들은 통계쪽에서 4분위수 라고 부르는것들이였다 즉, 25% 라는 뜻은 25%의 데이터들이 해당 값보다 낮다 라고 이해하면 될꺼같다.

이전 1 2 3 다음

티스토리툴바