일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 자연어처리 #question-answering #dynamic memory #attention
- 파이썬 #알고리즘 #코딩인터뷰 #리트코드 #DFS
- 자연어처리 #기계번역 #attention #global attention # local attention
- 특이값분해 # SVD #머신러닝 #차원축소 # 인공지능
- 파이썬 #알고리즘 #데크 #원형큐 #코딩테스트
- 자연어처리 #glove #글로브 #glove vector #벡터 임베딩
- char-CNN #자연어처리 # 단어임베딩 #wordembedding #LSTM
- 3d cad #인공지능 #resnet
- 딥러닝 #머신러닝 #AdaGrad
- cyclegan #GAN
- BERT #자연어처리
- PCA #주성분 분석 #머신러닝 #선형대수 #sklearn
- 딥러닝 #모멘텀 #momentum #핸즈온머신러닝 #하이퍼파라미터튜닝
- 배치 정규화 #batch normalization # 딥러닝 #머신러닝
- Today
- Total
목록분류 전체보기 (14)
누누와데이터
1. Introduction # Goal of this paper - 모네의 그림과 실제 그림을 일일이 대조 시켜서 학습하지 않아도, 대상 이미지에 모네의 화풍을 적용시킬 수있다 - 이를 위해서 모네의 그림에 대한 도메인 dataset과 풍경 그림에 대한 도메인 dataset만 있으면 된다. - 논문의 목적은 paired training examples이 없어도, image collection에서 특별한 특징들을 발견하고 이러한 것들을 어떻게 다른 image collection에 적용시킬 수 있는지를 설명하는 것이다. # Paired vs Unpaired - paired training data 은 x_i, y_i 각각이 대응되 paired dataset 이다. - unpaired training dat..
1. Introduction & Related Work - Language model의 pre-training은 많은 자연어 처리 tasks에서 효과가 있다. - 여기서 말하는 pre-training 방법은 다른 문제에 학습시킨 가중치들로 초기화하고 pre-train 모델을 downstream task에 적용하는 것이다. - downstream task의 예시 Sentence-level tasks : natural language inference, paraphrasing, … Token-level tasks : named entity recognition, question answering, … - pre-training을 하기 위한 task로 Language model를 채택한다. - Language..
Effective Approaches to Attention-based Neural Machine Translation는 attention 기법이 기계번역이 적용되기 시작하던 초창기에 이에 대한 성능을 높이는 방법을 소개한 논문이다. 2022년 현재는 self-attention에 기반한 transformer방법들이 기계번역 성능을 높이는 데, 주로 많이 쓰이지만 이 때 당시만 하더라도 encoder-decoder기반의 모델에서 attention을 접목시켜서 해결하는 것이 주된 방식이였던 것 같다. 논문에서는 Global approach 과 Local approach 두가지 방식을 소개하면서 Bahdanau attetion보다 성능이 좋으면서 연산과정은 더 간단함을 보이고 있다. 특히 Local appro..
Ask Me Anything Dynamic Memory Networks for Natural Language Processing 논문은 2016년 ICML에서 발표된 논문이다. Dynamic memory 개념을 통해서, input으로 여러 문장들이 입력되어도 이들 간의 관계를 유기적으로 고려할 수 있다는 것이 인상적이였다. 1. Introduction 대부분의 자연어 처리와 관련된 작업들은 question-answering problem이다 question-answering과 관련된 tasks의 예는 다음과 같다. (1)Machine translation : 기계번역 (2)Named entity recognition(개체명 인식작업) : 단어를 보고 어떤 유형인지 or 어떤 집단에 속하는지를 추측하는 것..
1. Introduction 일반적인 NLM 의 특징과 단점 • 언어 모델은 단어들에 대한 시퀀스를 확률 분포로 나타낸 것이다. • 그리고 전통적인 방법은 (1) n차 마르코프 가정과 (2) counting과 subsequent smoothing에 대한 n-gram 확률 추정을 나타낸다. • Neural language model은 n-gram 데이터의 sparsity 문제를 단어에 대한 매개변수화를 통해 임베딩 벡터를 표현함으로써 해결한다. • NLM이 count-based 방법보다 앞선 성능을 보여주지만, 이러한 모델에도 단점이 있다 . 예컨대, NLM은 eventful, eventfully, uneventful, and uneventfully 와 같은 단어들이 벡터 공간에서 서로 구조적으로 연관된 ..
1. Introduction 각 단어들은 semantic vector space로 나타내어진다. 이러한 단어 표현은 information retrieval, document classification, question answering, named entity recognition, parsing에 사용되어진다 Word vector를 표현하는 일반적인 방법 (1) global matrix factorization methods, such as latent semantic analysis (LSA) LSA의 특징 : LSA는 효율적으로 통계적 정보를 나타내지만, 단어간의 유사성을 분석하는 일에는 취약하다.. (2) local context window methods, such as the skip-gram..
개념 핸즈온 머신러닝 2 책에서는 Adagrad의 원리를 다음과 같이 소개한다. 한쪽이 길쭉한 그릇 모양의 손실함수가 있다고 가정해보자. Gradient descent 알고리즘은 global minimum으로 곧장 향하지 않고 가장 가파른 경사를 따라 빠르게 내려가기 시작해서 골짜기 아래로 느리게 이동한다. AdaGrad 알고리즘은 global minimum의 방향을 좀 더 일찍 감지하고 global minimum쪽으로 좀더 정확한 방향을 잡아서 이동한다. 일반적인 Gradient descent 알고리즘의 경우에는, 모든 파라메터에 대해 동일한 step-size (학습률) 이 적용된다. 이에 반해 Adaptive 방법은, 각각의 매개변수에 맞춰서 학습률을 변화시키는 학습을 진행하면서, 학습률을 점차 줄여..
개념 (1) 나타난 배경 경사하강법을 시행할 때, 학습률이 너무 작은 경우, 극솟값에 다다르는 속도가 너무 느리게 되어 많은 학습이 필요하다. 또한 처음 시작점(보통 딥러닝에서는 처음 시작점은 무작위로 주어짐)이 global minimum 보다 local minimum에 더 가까운 경우, 경사하강법에서 local minimum에 도달하면, f'(x)=0이 되어 더이상의 업데이트가 진행되지 않는다. (2) 기본 원리 볼링공이 매끈한 표면의 완만한 경사를 따라 굴러간다고 하자. 볼링공은 처음에는 느리게 출발하지만, 종단속도에 도달할 때까지는 빠르게 가속될 것이다. 이것이 보리스 폴랴크가 1964년에 제안한 Momentum 최적화의 간단한 원리이다. 반대로 표준적인 경사하강법은 경사면을 따라, 일정한 크기의 ..
1.기존의 Deep Neural Network 정규화 방식의 문제 Neural Network를 안정적으로 잘 학습시키려면, (1) Input 부분에서 정규화 기법을 사용하고 (2)각 층의 weight를 √(n/2) 로 나누어 표준화를 진행한다. 하지만 Layer가 깊어질수록 input 부분에서 정규화한 효과가 없어진다(내부 공변량 변화 : Internal Covariate Shift) 이전 파라미터들이 업데이트 됨에 따라 다음에 번에 있는 Hidden Layer들의 입력 분포가 변경 됩니다. 이는 Layer가 깊을수록 심화될 수 있습니다. 2.Internal Covariate Shift Internal Covariate Shift(내부 공변량 변환)는 학습 도중 신경망 파라미터 변화에 의해서 발생되는 신..
SVD (Singular Value Decomposition) 공식 SVD 역시 PCA와 유사항 행렬 분해 기법을 이용한다. 하지만. PCA의 경우, 정방행렬(행과 열의 크기가 같은 행렬)만을 고유벡터로 분해할 수 있지만, SVD는 정방행렬뿐만 아니라, 행과 열의 크기가 다른 행렬에도 적용할 수 있다. 위의 그림에서, 행렬 U와 V에 속한 벡터는 특이벡터(singular vector)이다. 특히 U에 속한 벡터를 Left Singular Vector, V에 속한 벡터를 Right Singular Vector라고 한다. 모든 특이벡터는 서로 직교하는(orthogonal) 성질을 가진다. 위의 식에서 U와 V의 가운데에 있는 diagonal은 대각행렬이며, 대각행렬은 행렬의 대각에 위치한 값만 0이 아니고 ..