전체 글 9

[딥러닝] GPT 논문읽기

논문제목 : Improving Language Understanding by Generative Pre-Training저자 : Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever논문링크https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 1. Introduction자연어 이해 분야에서는 다양한 과제들이 존재하지만, 각 문제를 해결할 충분한 라벨 데이터가 부족해 모델 학습이 어렵다. 이를 극복하기 위해 GPT는 대규모 비지도 텍스트 데이터를 활용하는 생성적 사전학습(generative pre-training) 방식을 도입했다.생성적..

딥러닝 2025.05.27

[딥러닝] LSTM의 gate (초간단 정리)

LSTM RNN의 장기 의존성 문제를 완화한 RNN개선 모델로, Cell state구조를 제안하고 3가지 gate(vector)를 추가한 구조이다. 1. Cell State Cell states는 정보를 유지하는 기억창고라고 보면 된다. gate에 의해 결정된 정보를 저장하는 역할을 수행한다. 2. Forget gate (망각 게이트)Foget gate는 이전 셀 상태에서 불필요한 정보를 삭제하는 gate로, 정보를 버릴지 말지의 여부는 Sigmoid layer에 의해서 결정된다. ht−1과 xt를 받아 계산한 결과 ft를 0과 1 사이의 값으로 Ct−1에 보내 주는데, 이때 ft의 값이 0이면 버리고 1이면 유지하는 식으로 작동한다. 3. Input gate (입력 게이트) Input gate는 현재..

딥러닝 2025.05.05

[딥러닝] Seq2Seq 논문 읽기

논문링크: https://arxiv.org/abs/1409.3215Sequence to Sequence Learning with Neural Networks/ Ilya Sutskever, Oriol Vinyals, Quoc V. Le, 2014 [짧은요약] 딥 뉴럴 네트워크(DNN)는 이미지 분류나 음성 인식 등에서 엄청난 성과를 냈지만, 입력과 출력 모두가 시퀀스인 문제에는 적용이 어려웠다. 기존 네트워크는 고정된 입력과 고정된 출력을 전제로 하기 때문에, 시퀀스처럼 길이가 유동적인 입력/출력을 다루기엔 구조적인 제약이 있었기 때문이다. 이 논문에서는 LSTM(Long Short-Term Memory)을 두 개 연결해 이 문제를 해결한다. 인코더 LSTM: 입력 시퀀스를 읽고, 이를 하나의 고정된 벡터..

딥러닝 2025.05.05

[딥러닝] GRU 논문읽기

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine TranslationProceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014.저자: Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio논문링크: https://arxiv.org/pdf/1406.1078 [전체 흐름]이 논문에서는 두 개의 RNN으로 구성된 새로운 RNN Encoder..

딥러닝 2025.03.30

[딥러닝]LSTM 논문읽기

LONG SHORT-TERM MEMORY BASED RECURRENT NEURAL NETWORK ARCHITECTURES FOR LARGE VOCABULARY SPEECH RECOGNITION (저자: Has¸im Sak, Andrew Senior, Franc¸oise Beaufays)논문링크: https://arxiv.org/abs/1402.1128  [전체 흐름]기존 RNN은 시퀀스 데이터 처리에 강점이 있지만 기울기 소실/폭발 문제 때문에 긴 시퀀스를 다루는 데 어려움이 있었다. 또한 소규모 음성 인식(task-level)에서는 좋은 성능을 발휘하지만 대규모 어휘 음성 인식(Large Vocabulary Continuous Speech Recognition, LVCSR)에서는 제한적으로만 사용되는 ..

딥러닝 2025.03.28

[딥러닝] RNN(Recurrent Neural Network) 순환신경망 정리

RNN은 유닛간의 연결이 순환적 구조로 구성된 딥러닝 모델 중 하나이다. 시계열 데이터(sequence data)를 처리하는데 강점이 있다.* sequence data : 어떤 순서를 가진 데이  일반적인 DNN 모델의 한계점*독립적 데이터를 가지고 예측할 때, 이전 시점의 정보를 반영하지 않는다.*독립적 데이터? 데이터를 가지고 예측 할 때, 관측치의 순서가 중요하지 않은 경우 DNN 모델에서는 t시점의 관측값과 t-1시점의 관측값이 서로 관련이 없다고 보고, 각 시점에서의 정보만을 활용해 활성화함수를 적용하여 예측을 한다. 학습과정) 각 layer로 넘어갈 때 입력값들과 가중치(weight)가 곱해지고, 추가적으로 활성화 함수가 쓰임. input된 데이터를 hidden Layer로 보낼 때 활성화 함..

딥러닝 2025.03.24

[딥러닝] CNN (Convolutional Neural Network)합성곱 신경망 정리 + CNN Architectures

CNN(Convolutional Neural Network) 합성신경망은 이미지 처리와 패턴 인식에 탁월한 성능을 보여주는 신경망이다.쉽게 말해, 우리가 개와 고양이 이미지를 분류할 때 사용되는 신경망이라고 보면 된다.  CNN의 기본 Layer 3가지Convolutional Layer / Pooling Layer / Fully Connected Layer 1. Convolutional Layer  합성곱 층 Convolutional Layer은 입력 데이터에서 중요한 특징을 추출하는 층으로,  kernel을 사용하여 입력 데이터와 kernel 간의 합성곱 연산을 수행한다. 합성곱 연산합성곱의 연산은 Kernel(필터) 라는 nxm 크기의 행렬로 이미지를 처음부터 끝까지 겹치며 훑으면서 kernel과 겹..

딥러닝 2025.03.18