딥러닝 LSTM(Long Short Term Memory)

728x90

Vanilla RNN

디그리데이션 문제 존재 . 역전파 시 웨이트 여러 번 리커런트해서 그래디언트가 연쇄적으로 곱해지는 연산때문에 기울기 소실 문제

단기 기억

LSTM은 RNN의 기울기 소실 문제 해결하고자 등장함.

LSTM (Long short term memory) 의미 = 장기기억과 단기기억이 있다. 장기 의존성과 단기 의존성을 모두 기억할 수 있다는 의미

w 계산하기

밑에 표현한 부분만 w 존재.

LSTM(Long Short-Term Memory)은 RNN의 한 종류로서, 시퀀스 데이터의 장기 의존성(Long-Term Dependency)을 더 잘 학습하기 위해 고안된 모델입니다. LSTM은 내부적으로 게이트(gate) 메커니즘을 사용하여 어떤 정보를 기억하고 어떤 정보를 잊을지를 조절하면서 시퀀스 데이터를 처리합니다. 이때, LSTM의 가중치(weight) 개수를 세는 순서와 방법을 설명해드리겠습니다.

1. 입력 게이트 (Input Gate):
   - 입력 데이터와 이전 시점의 은닉 상태(hidden state)를 기반으로 어떤 정보를 업데이트할지 결정합니다.
   - 가중치 개수: `n_feature x n_lstm_units` (입력 데이터의 피처 수와 LSTM 레이어의 유닛 수에 따라 다름)

2. 망각 게이트 (Forget Gate):
   - 이전 시점의 은닉 상태와 현재 입력을 기반으로 어떤 정보를 잊을지 결정합니다.
   - 가중치 개수: `n_feature x n_lstm_units` (입력 데이터의 피처 수와 LSTM 레이어의 유닛 수에 따라 다름)

3. 셀 상태 (Cell State):
   - 이전 시점의 셀 상태와 입력 게이트, 망각 게이트의 출력을 기반으로 새로운 셀 상태를 업데이트합니다.
   - 가중치 개수: `n_lstm_units x n_lstm_units` (LSTM 레이어의 유닛 수에 따라 다름)

4. 출력 게이트 (Output Gate):
   - 현재 입력과 이전 시점의 은닉 상태를 기반으로 어떤 정보를 출력할지 결정합니다.
   - 가중치 개수: `n_feature x n_lstm_units` (입력 데이터의 피처 수와 LSTM 레이어의 유닛 수에 따라 다름)

5. 은닉 상태 (Hidden State):
   - 출력 게이트의 출력과 현재 셀 상태를 기반으로 새로운 은닉 상태를 계산합니다.
   - 가중치 개수: `n_lstm_units x n_lstm_units` (LSTM 레이어의 유닛 수에 따라 다름)

요약하면, LSTM의 총 가중치 개수는 다음과 같습니다:

n_weight = 4 * n_feature * n_lstm_units + 4 * n_lstm_units^2

여기서 `n_feature`는 입력 데이터의 피처 수이고, `n_lstm_units`는 LSTM 레이어의 유닛 수입니다.

LSTM은 이러한 게이트와 셀 상태를 통해 장기 의존성을 감지하고 기억할 수 있는 구조를 가지고 있습니다.

- Lstm을 쓰는 이유 : 타임스탬프가 반복되어도 그래디언트 연산이 다른 값이 나오므로 디그리데이션이 발생지 않는다.

개선된 아키텍쳐의 순전파 관점, 역전파 관점 양쪽에서 이해해 보기

GRU(GATED recurrent unit)

- LSTM보다 많이 사용되지는 않으나 LSTM을 개선한 모형임. LSTM만큼 4배의 W까지 필요하지는 않은 것 같다는 시각으로 W(파라미터)를 3배 정도로 간소화함.

- 파라미터가 경량화되었으므로 학습 속도 빨라졌는데 성능은 LSTM만큼 나옴.

- Cell state 없앰

-2종류의 게이트를 2개의 fc layer로 구성

- 1- 는 왼쪽으로 갈 지 오른쪽으로 갈지 양자 택일하는 것.

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

Django restful (0)	2023.10.18
AlexNet ImageNet Claasification with Deep Convolutional Neural Networks _ Geoffery E. Hinton (0)	2023.08.31
딥러닝 RNN (0)	2023.08.29
[프로그래머스] 파이썬 최댓값 만들기 ver. 2 (0)	2023.08.07
[논문 요약] 추천 시스템 기법 연구동향 분석 - 콘텐츠 기반 접근 방식 (1)	2023.08.04

에리히프롬

딥러닝 LSTM(Long Short Term Memory)

GRU(GATED recurrent unit)

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

티스토리툴바

딥러닝 LSTM(Long Short Term Memory)

GRU(GATED recurrent unit)

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바