LSTM / GRU는 게이트 개념의 활용으로 분명 vanishing gradient, exploding gradient 문제를 줄여주었으나, 구조적 기반은 여전히 RNN을 그대로 사용하고 있었