일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 자연어처리 #glove #글로브 #glove vector #벡터 임베딩
- 3d cad #인공지능 #resnet
- 파이썬 #알고리즘 #코딩인터뷰 #리트코드 #DFS
- 특이값분해 # SVD #머신러닝 #차원축소 # 인공지능
- 딥러닝 #모멘텀 #momentum #핸즈온머신러닝 #하이퍼파라미터튜닝
- PCA #주성분 분석 #머신러닝 #선형대수 #sklearn
- 딥러닝 #머신러닝 #AdaGrad
- cyclegan #GAN
- 자연어처리 #기계번역 #attention #global attention # local attention
- BERT #자연어처리
- 파이썬 #알고리즘 #데크 #원형큐 #코딩테스트
- 자연어처리 #question-answering #dynamic memory #attention
- 배치 정규화 #batch normalization # 딥러닝 #머신러닝
- char-CNN #자연어처리 # 단어임베딩 #wordembedding #LSTM
- Today
- Total
목록전체 글 (14)
누누와데이터

개념 핸즈온 머신러닝 2 책에서는 Adagrad의 원리를 다음과 같이 소개한다. 한쪽이 길쭉한 그릇 모양의 손실함수가 있다고 가정해보자. Gradient descent 알고리즘은 global minimum으로 곧장 향하지 않고 가장 가파른 경사를 따라 빠르게 내려가기 시작해서 골짜기 아래로 느리게 이동한다. AdaGrad 알고리즘은 global minimum의 방향을 좀 더 일찍 감지하고 global minimum쪽으로 좀더 정확한 방향을 잡아서 이동한다. 일반적인 Gradient descent 알고리즘의 경우에는, 모든 파라메터에 대해 동일한 step-size (학습률) 이 적용된다. 이에 반해 Adaptive 방법은, 각각의 매개변수에 맞춰서 학습률을 변화시키는 학습을 진행하면서, 학습률을 점차 줄여..

개념 (1) 나타난 배경 경사하강법을 시행할 때, 학습률이 너무 작은 경우, 극솟값에 다다르는 속도가 너무 느리게 되어 많은 학습이 필요하다. 또한 처음 시작점(보통 딥러닝에서는 처음 시작점은 무작위로 주어짐)이 global minimum 보다 local minimum에 더 가까운 경우, 경사하강법에서 local minimum에 도달하면, f'(x)=0이 되어 더이상의 업데이트가 진행되지 않는다. (2) 기본 원리 볼링공이 매끈한 표면의 완만한 경사를 따라 굴러간다고 하자. 볼링공은 처음에는 느리게 출발하지만, 종단속도에 도달할 때까지는 빠르게 가속될 것이다. 이것이 보리스 폴랴크가 1964년에 제안한 Momentum 최적화의 간단한 원리이다. 반대로 표준적인 경사하강법은 경사면을 따라, 일정한 크기의 ..

1.기존의 Deep Neural Network 정규화 방식의 문제 Neural Network를 안정적으로 잘 학습시키려면, (1) Input 부분에서 정규화 기법을 사용하고 (2)각 층의 weight를 √(n/2) 로 나누어 표준화를 진행한다. 하지만 Layer가 깊어질수록 input 부분에서 정규화한 효과가 없어진다(내부 공변량 변화 : Internal Covariate Shift) 이전 파라미터들이 업데이트 됨에 따라 다음에 번에 있는 Hidden Layer들의 입력 분포가 변경 됩니다. 이는 Layer가 깊을수록 심화될 수 있습니다. 2.Internal Covariate Shift Internal Covariate Shift(내부 공변량 변환)는 학습 도중 신경망 파라미터 변화에 의해서 발생되는 신..