Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1225-0112(Print)
ISSN : 2288-4505(Online)
Applied Chemistry for Engineering Vol.31 No.5 pp.520-525
DOI : https://doi.org/10.14478/ace.2020.1057

Development of Machine Learning Model for Predicting Distillation Column Temperature

Hyukwon Kwon*,**, Kwang Cheol Oh*, Yongchul G. Chung**, Hyungtae Cho*, Junghwan Kim*,†
*Green Materials and Processes R&D Group, Korea Institute of Industrial Technology, Ulsan 44413, Republic of Korea
**School of Chemical & Biomolecular Engineering, Pusan National University, Busan 46241, Republic of Korea
Corresponding Author: Korea Institute of Industrial Technology, Green Materials and Processes R&D Group, 55 Jongga-ro, Ulsan 44413, Republic of Korea Tel: +82-52-980-6629 e-mail: kjh31@kitech.re.kr
July 24, 2020 ; August 25, 2020 ; August 26, 2020

Abstract


In this study, we developed a machine learning–based model for predicting the production stage temperature of distillation process. It is necessary to predict an accurate temperature for control because the control of the distillation process is done through the production stage temperature. The temperature in distillation process has a nonlinear complex relationship with other variables and time series data, so we used the recurrent neural network algorithms to predict temperature. In the model development process, by adjusting three recurrent neural network based algorithms, and batch size, we selected the most appropriate model for predicting the production stage temperature. LSTM128 was selected as the most appropriate model for predicting the production stage temperature. The prediction performance of selected model for the actual temperature is RMSE of 0.0791 and R2 of 0.924.



증류공정 내부 온도 예측을 위한 머신 러닝 모델 개발

권혁원*,**, 오광철*, 정용철**, 조형태*, 김정환*,†
*한국생산기술연구원 친환경재료공정연구그룹
**부산대학교 화공생명공학부

초록


본 연구에서는 증류공정의 제품 생산단 온도 예측을 위한 머신러닝 기반 모델을 개발하였다. 증류공정의 제어는 제품 생산단의 온도를 통해 이루어지고 있어 제어를 위해 정확한 온도 예측이 필요하다. 증류공정에서 온도는 다양한 변수 들과 복잡한 비선형의 관계를 형성하고 있으며 시계열 데이터의 특성이 있어 이를 예측하기 위해 순환신경망 기반 알고리즘을 이용하였다. 모델 개발 과정에서 적절한 예측 알고리즘을 선정하기 위해 세 가지 순환신경망 기반 알고리 즘과 배치 사이즈 조절하여 제품 생산단 온도를 예측하기 위한 가장 적저한 모델을 선정하였다. LSTM128 모델이 제품 생산단 온도를 예측하기 위한 가장 적절한 모델로 선정되었다. 선정된 모델을 활용하여 실제 공정 운전데이터에 적용 한 결과 RMSE 0.0791, R2 0.924의 성능을 보였다.



    1. 서 론

    증류공정은 제품의 순도가 요구사양에 부합되도록 운전⋅제어되어 야 한다[1]. 제품의 조성은 일반적으로 높은 투자비와 유지비를 가지 는 별도의 장치를 통해 측정이 가능하지만 실시간 측정이 어려워 시 간지연이 발생하여 제어 성능이 저하될 수 있다. 그를 대신하여 온도 와 같은 실시간 측정이 쉽게 가능한 변수를 예측하여 순도 추론을 통 해 운전 제어가 가능하다. 이러한 제어 방식을 추론 제어라고 한다 [2,3]. 일반적인 추론 제어 방법은 선형 예측 제어 기법을 통하여 측정 이 어려운 조성을 대신하여 온도를 제어하는 기법이다. 하지만 외란 이 측정되지 않는 조성에 직접 영향을 주는 경우 추론 제어가 어려운 문제가 있다[4]. 이 문제를 해결하기 위해 비선형의 예측 기법이 필요 하다.

    인공신경망은 머신 러닝을 수행하기 위한 기법으로, 증류공정에 적 용하여 온도를 예측하는 모델 개발에 사용될 수 있다. 인공 신경망을 기반으로 한 예측 모델을 실제 공정에 적용하는 방법은 크게 두 가지 가 있다. 첫 번째는 공정의 제어기로 사용하는 방법이다. 모델이 제어 되고 있는 공정의 역학 관계를 훈련한 다음 공정을 제어하는데 직접 사용한다. 두 번째는 모델 예측 제어(model predicted control, MPC)와 같은 공정을 예측하는 모델을 개발한 후에 공정제어에 적용하는 방법 이다. 두 번째 방법이 화학공정의 제어에서 인공 신경망 모델을 적용 하는데 더 일반적으로 사용된다[5]. Bahar (2004)등은 산업용 다 성분 증류탑의 제어를 위해 이동 창 인공 신경망(moving window artificial neural network) 추정기를 이용하는 추론 제어 방법을 개발했다. 이동 창 인공 신경망 추정기는 단의 온도로부터 제품 조성을 추정하도록 설계되었다. 모델 예측 제어는 증류공정의 제어를 위해 인공 신경망 추정기와 함께 사용되었다[6]. Banerjee와 Jana (2018)은 일정한 제품 순도를 달성하기 위해 확장 일반 모델 제어기와 제어기 시뮬레이션에 필요한 상태 추정을 위해 인공 신경망 모델을 기반으로 관측기를 개 발했다[7]. Singh (2005)는 인공 신경망을 활용하여 증류공정의 물질 조성을 예측하는 모델을 개발했다[1]. Das Neves (2018) 등은 에틸렌 글리콜을 용매로 사용하여 무수 에탄올을 생산하는 증류 공정에서 외 란이 발생한 이후 새로운 설정치를 예측하기 위해 인공 신경망을 사 용하는 지능형 제어 시스템(intelligent control system)을 개발했다. 지 능형 제어시스템은 증류공정의 원료 변화에 대한 새로운 운전 조건을 예측할 수 있었으며 인공 신경망이 적용되지 않은 시스템과 비교할 때 탁월한 성능을 보여주었다[8]. Mazinan (2012)는 증류공정 시스템 에서 인공 지능(artificial intelligence, AI)을 기반으로 예측 제어 시스 템을 제안했다. 인공 신경망 기반 모델을 통해 증류공정의 거동에 대 한 정확한 예측을 수행한 후 모델 예측 제어 방법을 이용하여 제어에 활용하였다[9].

    이처럼 인공 신경망은 다양한 증류공정에서 추론 제어나 모델 예측 제어에 활용하기 위한 모델 개발 연구에 주로 사용되어 왔지만 실제 적용에 있어서 증류공정의 제품 생산단의 온도는 공정 외란 발생 시 즉시 변하는 것이 아니라 시간이 소요된다는 점으로 인한 예측 한계 가 있다. 또한 제품 생산단의 온도는 이전 시간의 온도에 영향을 받는 시계열 데이터의 특성이 있어 예측의 정확도가 떨어지는 문제가 발생 한다.

    온도 등의 시계열 자료 예측을 위한 방법은 다양하게 연구되어 왔 다[10]. 특히 머신러닝 기법인 순환신경망은 컴퓨터 기술 발전에 따라 다양한 시계열 자료를 예측하기 위해 사용되어 왔다. 순환신경망은 내부에서 과거 정보가 저장되고 지속해서 미래에 전달되도록 하는 순 환구조를 가진 시계열 방식이 추가된 인공신경망으로 시간적 순서가 중요한 시계열 데이터 예측에 적합한 모델이다.

    Raghavan (2011)등은 이상적인 반응 증류공정에 적용 가능한 상태 추정 시스템의 설계 및 구현을 연구하였다. 시스템의 성능을 확인하 기 위해 시간 지연을 고려하지 않은 인공신경망과 시간지연을 고려한 순환신경망 기반 모델을 비교하였으며 순환신경망 기반 추정기의 성 능이 더 좋음을 보여주었다[11].

    실제 산업에서 사용되고 있는 연속 증류공정은 비선형의 복합적인 구조를 가진다. 또한, 각 장치들에서 측정되는 데이터는 시간 지연이 존재하며 이전 시간의 데이터가 다음 시간에 영향을 주는 시계열 데 이터이다. 따라서 본 연구에서는 시간 지연을 적용할 수 있으며 시계 열 데이터 분석에 적합한 순환신경망을 이용하여 연속 증류공정의 제 품 생산단 온도를 예측하는 모델을 개발했다. 대상 증류공정의 온도 를 예측하는데 가장 적절한 모델을 선정하기 위해 순환신경망 계열의 세 가지 알고리즘을 비교하고 성능을 평가하였다.

    2. 이론 배경

    2.1. 혼합부탄 증류공정

    본 연구의 대상 공정은 혼합부탄 원료로부터 순도 99% 이상의 노 말부탄을 분리하는 증류공정이다. 혼합부탄 원료는 78단 증류탑의 35 단으로 유입되도록 설계되었으며 주요 제품인 노말부탄은 64단에서 생산된다. 증류탑의 상부 생산품은 탑 하부의 생산품과 섞여 노말부 탄 순도 75% 이상의 제품으로 생산되도록 운전되고 있다. Figure 1은 대상 증류공정의 개략도를 나타낸 그림이다. 그림에서 알 수 있듯 증 류 공정의 주요 장소에 컨트롤러와 센서가 설치되어 있는 것을 알 수 있으며 이 장치들과 연동된 분산제어시스템(distributed control system, DCS)을 통해 데이터가 수집되고 있다. 본 연구에서는 DCS를 통해 수 집된 데이터를 통해 머신 러닝 모델의 학습을 진행하여 증류 공정의 제품 생산단 온도를 예측하는 모델을 개발한다. 학습에 사용한 데이 터는 2019년 7월 18일~23일 동안 30 s 간격으로 수집된 17162개의 데 이터이며 온도 예측에 사용된 변수는 혼합부탄 유량, 재비기 스팀 유 량, 탑 하부 압력, 환류량 등이다.

    2.2. 순환신경망

    본 연구에서는 시계열 분석을 위한 세 가지 종류의 신경망 모델을 사용하였다. 첫 번째 RNN (recurrent neural networks)은 과거 데이터 를 저장하고 시간의 흐름에 따라 전달하여 출력 값 계산에 반영하는 특징을 가지고 있으며 새로운 데이터가 입력될 때마다 반복 적용되기 때문에 순환신경망이라고 한다. 신경망에서 새로운 출력 값을 계산하 는 함수를 활성화 함수라고 한다. RNN은 활성화 함수로 tanh를 사용 하며 활성화 함수에 이전 시간의 출력 값 ht-1과 입력 값 xt을 이용하 여 새로운 값 ht을 계산한다. RNN을 수식으로 표현하면 다음과 같다.

    h t = tanh ( W [ h t 1 , x t ] )
    (1)

    식 (1)에서 W 값은 각 층의 가중치 행렬이다. 하지만 RNN은 Figure 2에서 보이는 것처럼 tanh 함수의 값은 -1~1 사이의 값을 가지기 때문 에 연산이 반복되면 기울기가 0으로 수렴하는 기울기 소실 문제가 발 생하여 과거의 정보를 제대로 전달할 수 없게 된다.

    두 번째 LSTM (long short term memory)은 RNN의 기울기 소실 문 제를 극복하기 위해 제안된 알고리즘이다[12]. 기울기 소실 문제를 해 결하기 위해 LSTM은 과거 데이터를 저장하는 메모리 셀을 도입했다. Figure 3은 LSTM의 구조를 나타낸 그림으로 RNN의 구조와 비교했 을 때 여러 가지 게이트와 셀이 추가된 것을 확인할 수 있다.

    f t = σ ( W f [ h t 1 , x t ] + b f )
    (2)

    i t = σ ( W i [ h t 1 , x t ] + b i )
    (3)

    o t = σ ( W o [ h t 1 , x t ] + b o )
    (4)

    c ˜ t = tanh ( W c [ h t 1 , x t ] + b i )
    (5)

    C t = f t C t 1 + i c c ˜ t
    (6)

    h t = o t * tanh ( C t )
    (7)

    식 (2)에서 (7)의 ft, it, ot는 각각 망각, 입력, 출력 층의 값을 출력하 는 게이트이며 W, b 값은 각각 게이트의 가중치 행렬과 편향을 나타 낸다. σ는 활성화 함수, ct 는 셀 상태 Ct 를 업데이트 하기 위한 후보 값이다. Ct 는 출력 게이트 값 ot와 함께 연산되어 LSTM의 출력 값 ht 를 내보낸 후 이 값을 다음 신경망에서 연산하도록 전달한다. Ct는 입 력 게이트(it), 망각 게이트(ft) 및 출력 게이트(ot)를 통해 관리된다. 입 력 게이트, 망각 게이트, 출력 게이트는 각각 입력 값을 얼마나 반영 할지, 과거 정보를 얼마나 반영할지, 그리고 얼마나 출력할지를 결정 한다. 이 과정이 반복되어도 계산 과정에서 RNN과 다르게 합 연산(+) 이 존재하여 기울기가 0으로 수렴하는 기울기 소실 현상을 어느 정도 방지할 수 있다.

    세 번째 GRU (gated recurrent unit)[13-15] 은 LSTM과 마찬가지로 RNN에서 나타나는 단점을 보완한 모델이다. Figure 4에서 보이는 것 처럼 GRU는 LSTM과 유사한 구조를 가졌지만 망각 게이트와 입력 게이트의 역할을 하나의 업데이트 게이트로 처리한다는 큰 차이가 있 다. GRU를 구성하는 수식은 다음과 같다.

    r t = σ ( W r [ h t 1 , x t ] )
    (8)

    z t = σ ( W z [ h t 1 , x t ] )
    (9)

    h ˜ t = tanh ( W r [ h t 1 * r t , x t ] )
    (10)

    h t = z t * h t 1 + ( 1 z t ) * h ˜ t
    (11)

    식 (8)~(11)의 rt, zt는 각각 리셋 게이트와 업데이트 게이트, ht는 셀 상태의 후보군, ht는 셀의 상태를 나타낸다. 업데이트 게이트에서 활성화 함수인 sigmoid 함수를 통해 출력된 ut 값은 현재 시간 t의 정 보를 반영하는 정도를 나타내고 1 - ut 는 이전 시간의 은닉층 값에 곱 해주어 은닉층이 반영되는 정도를 나타낸다. 리셋 게이트는 과거의 정보를 리셋 시키는 것이 목적으로 sigmoid 함수를 활성화 함수로 이 용하여 0~1 사이의 값으로 출력해 리셋 시키는 정도를 결정한다. 직 전 시간 t-1의 은닉층 값과 현 시간 t의 정보에 가중치를 곱하여 얻을 수 있다. 과거와 현재 정보를 이용하여 업데이트 시에 이용하는 비율 을 정하는 게이트이다. GRU에서는 현재 시간 t에서의 정보 후보 값를 계산하게 되는데 이전 시간 t-1의 은닉층의 정보에 리셋 게이트의 결 과를 곱하여 이용한다. 마지막으로 업데이트 게이트의 값과 후보 값 을 결합하여 현 시점의 은닉층을 계산한다.

    본 연구에서는 시계열 데이터에 대한 분석이 가능한 세 가지 인공 신경망인 RNN, LSTM, GRU를 사용하여 예측을 수행하고 성능 평가 를 통해 가장 적절한 신경망을 선정한다.

    2.3. 최적화 기법

    최적화 기법은 신경망 알고리즘이 데이터를 학습할 때 입력 값과 출력 값을 사용하여 출력 값에 영향을 주는 가중치를 업데이트하는 방법으로 그 방식에 따라 여러 종류가 있다. 신경망의 예측 결과와 실 제 결과 사이의 오차를 계산하여 손실함수를 만들고 그 기울기를 이 용하여 가중치를 업데이트한다. 출력층의 결과 값과 실제 결과 값 사 이의 오차를 손실함수라고 하며 본 연구에서는 손실함수로 평균 제곱 오차(mean squared error, MSE)를 사용했다. MSE를 계산하는 식은 다 음과 같다.

    M S E = 1 N i = 1 N ( x i y i ) 2
    (12)

    식 (12)에서 N은 전체 데이터 개수이며 xi는 실제 값, yi는 인공신경 망의 결과 값을 나타낸다.

    Adam (adaptive moment estimation)[16]은 다양한 최적화 기법 중 RMSprop[17]와 Momentum[18] 알고리즘의 장점을 결합하여 개발된 최적화 기법이다. Adam 알고리즘은 구현하기가 쉽고 계산이 효율적 인 방법이다. Adam 알고리즘을 구성하는 식은 다음과 같다.

    m t = β 1 m t 1 + ( 1 β 1 ) L W
    (13)

    υ t = β 2 υ t 1 + ( 1 β 2 ) ( L W ) 2
    (14)

    m ^ t = m t 1 β 1 t
    (15)

    υ ^ t = υ t 1 β 2 t
    (16)

    W t = W t 1 η υ ^ t + m ^ t
    (17)

    이전 시간의 기울기와 기울기의 제곱을 각각 지수이동평균을 통해 저장한다. 저장된 mt, υt 값들은 각각 기울기와 학습률에 어느 정도의 영향을 미칠지를 계수 β1, β2를 통해 결정되며 경사 하강법의 기본 식 에 적용되어 가중치 업데이트를 수행한다. 이때, β1, β2, η는 각각 사용 자가 직접 결정을 해주는 초매개변수로 일반적으로 0.9, 0.999, 0.001 의 값으로 설정한다. 이러한 알고리즘을 통해 Adam은 모델 파라미터 의 최적점을 빠르고 정확하게 수렴시킬 수 있어 본 연구의 최적화 기 법으로 사용한다.

    3. 결과 및 고찰

    3.1. 개발 조건

    본 연구의 예측 대상은 혼합부탄으로부터 노말부탄을 생산하는 증 류공정의 제품 생산단 온도이며 입력 데이터는 유입되는 혼합부탄 유 량, 재비기의 스팀 유량, 환류량, 탑 하부 압력이다. 데이터 수집 기간 은 2019년 7월 18일부터 23일까지 30 s 간격으로 센서를 통해 이루어 졌으며 총 데이터 개수는 17162개이다. 전체 데이터 중 70%를 학습용 데이터, 30%를 테스트용으로 이용하여 모델 개발을 진행하였다. Adam 최적화 기법에서 사용하는 학습률(learning rate)는 0.001로 적용하였 으며 각 신경망의 히든 유닛은 20개로 설정하여 학습을 진행하였다. 모델 개발 과정에서 예측 성능을 향상시키기 위해 세 가지 모델 알고 리즘을 사용하였으며 배치 사이즈에 대한 조절이 이루어졌다. 배치 사이즈는 모델 가중치를 업데이트하는 과정에서 사용되는 데이터의 단위 개수로 이 값에 따라 모델의 성능이 달라져 최적의 크기를 찾는 것이 중요하다. 이 외 모델 학습에 필요한 조건은 Table 1에 정리되어 있다.

    3.2. 성능 평가

    개발된 모델을 활용하여 실제 공정 데이터에 대해 예측을 수행하고, 예측 성능을 평가하기 위해 실제 온도와 예측 온도 간의 평균 제곱근 오차(root mean square error, RMSE) 및 결정계수(R2)를 사용하였으며 그 식은 다음과 같다.

    R M S E = 1 N i = 1 N ( x i y i ) 2
    (18)

    R 2 = ( i = 1 N ( x i x ¯ ) ( y i y ¯ ) i = 1 N ( x i x ¯ ) 2 i = 1 N ( y i y ¯ ) 2 ) 2
    (19)

    아래 Tables 2~4은 각각 RNN, LSTM, GRU 알고리즘과 Adam 최적 화 기법을 사용하며 배치 사이즈를 조절했을 때 제품 생산단 온도 예 측 성능을 평가한 결과와 학습 시간을 나타낸 것이다. 표에서 알 수 있듯 학습 시간은 배치 사이즈가 커질수록 감소하는 경향을 보이고 있다. RNN 모델에서는 표에서 파란색으로 표시된 배치 사이즈가 256 일 때 가장 높은 성능을 보이고 있다. 이는 LSTM, GRU에서도 비슷 한 양상으로 나타나고 있으며 LSTM에서 배치 사이즈가 128일 때 가 장 높은 예측 성능을 보여 해당 공정 모델에 가장 적합한 모델 (LSTM128)로 선정되었다. GRU 모델에서는 배치 사이즈가 256일 때 가장 좋은 성능을 보였다. Figure 5는 선정된 모델인 LSTM128을 활용 하여 실제 온도를 예측한 결과를 나타낸 그림이다. 그림을 통해 알 수 있듯 실제 온도와 예측 온도기 거의 일치하고 있는 것을 확인할 수 있다.

    4. 결 론

    본 연구에서는 증류공정의 제품 생산단 온도 예측을 위한 머신 러 닝 기반 모델을 개발하였다. 증류공정의 제어는 제품 생산단 온도를 통해 이루어지고 있으며 이 온도는 공정 내 다양항 변수들과 비선형 의 복잡한 관계를 가진다. 머신 러닝은 비선형의 복잡한 관계에 있는 데이터를 학습하고 이를 이용하여 변수을 예측할 수 있는 기법이며 특히 RNN, LSTM, GRU 신경망들은 시계열 데이터에 대한 분석을 수 행할 때 주로 사용된다. 따라서 본 연구에서는 세 가지 순환신경망 알 고리즘을 사용하여 증류공정의 제품 생산단 온도 예측 모델을 개발하 였다. 각각의 신경망 알고리즘을 적용한 모델의 예측 성능을 향상시 키기 위해 배치사이즈를 조절하였으며 그 결과 LSTM128 모델이 가장 적절한 모델로 선정되었다. 선정된 모델을 활용하여 실제 공정 제어 에 적용할 수 있는 방법에 대한 연구를 진행하여 효율적인 공정 운전 을 할 수 있을 것으로 기대된다.

    감 사

    본 논문은 한국생산기술연구원 민간수탁활성화지원사업 “기업체 에너지공정 최적화 지원 사업(KITECH EE-20-0019)”의 지원으로 수 행한 연구입니다.

    Figures

    ACE-31-5-520_F1.gif
    Schematic diagram of distillation column.
    ACE-31-5-520_F2.gif
    Structure of RNN.
    ACE-31-5-520_F3.gif
    The structure of LSTM network.
    ACE-31-5-520_F4.gif
    The structure of GRU network.
    ACE-31-5-520_F5.gif
    Result of actual and predicted temperature with LSTM-Adam model.

    Tables

    Parameters of Machine Learning Model Development
    A Results of Prediction with RNN Algorithms for Each Batch Size
    A Results of Prediction with LSTM Algorithms for Each Batch Size
    A Results of Prediction with GRU Algorithms for Each Batch Size

    References

    1. V. Singh, I. Gupta, and H. O. Gupta, ANN based estimator for distillation-inferential control, Chem. Eng. Process., 44, 785-795 (2005).
    2. R. Senthil, K. Janarthanan, and J. Prakash, Nonlinear state estimation using fuzzy Kalman filter, Ind. Eng. Chem. Res., 45, 8678-8688 (2006).
    3. C. Venkateswarlu and S. Avantika. Optimal state estimation of multicomponent batch distillation, Chem. Eng. Sci., 56, 5771-5786 (2001).
    4. H. Lee and J. H. Lee, Linear model predictive control of an entrained- flow gasifier for an IGCC power plant, Korean Chem. Eng. Res., 52, 592-602 (2004).
    5. J. C. MacMurray and D. M. Himmelblau, Modeling and control of a packed distillation column using artificial neural networks, Comput. Chem. Eng., 19, 1077-1088 (1995).
    6. A. Bahar and O. Canan, Artificial neural network estimator design for the inferential model predictive control of an industrial distillation column, Ind. Eng. Chem. Res., 43, 6102-6111 (2004).
    7. S. Banerjee and A. K. Jana, Observer-based extended generic model control of a reactive batch distillation, Chem. Eng. Sci., 179, 185-197 (2018).
    8. T. G. das Neves, W. B. Ramos, G. W. de Farias Neto, and R. P. Brito, Intelligent control system for extractive distillation columns, Korean J. Chem. Eng., 35, 826-834 (2018).
    9. A. H. Mazinan, A new algorithm to AI-based predictive control scheme for a distillation column system, Int. J. Adv. Manuf. Technol., 66, 1379-1388 (2013).
    10. S. Bae and J. Yu, Predicting the real estate price index using deep learning, Korea Real Estate Rev., 27, 71-86 (2017)
    11. S. R. Vijaya Raghavan, T. K. Radhakrishnan, and K. Srinivasan, Soft sensor based composition estimation and controller design for an ideal reactive distillation column, ISA Trans., 50, 61-70 (2011).
    12. S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Comput., 9, 1735-1780 (1997).
    13. K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, Learning phrase representations using RNN encoder-decoder for statistical machine translation, In Proc. Conference on Empirical Methods in Natural Language Processing, 1724-1734 (2014).
    14. J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555 (2014).
    15. R. Jozefowicz, W. Zaremba, and I. Sutskever, An empirical exploration of recurrent network architectures, In: International Conference on Machine Learning, 2342-2350 (2019).
    16. D. P. Kingma and J. L. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980 (2014).
    17. G. Hinton, N. Srivastava, and K. Swersky, Neural networks for machine learning, Coursera, Video Lectures, 264.1 (2012).
    18. I. Sutskever, J. Martens, G. Dahl, and G. Hinton, On the importance of initialization and momentum in deep learning, In: International Conference on Machine Learning, 1139-1147 (2013).