Nội dung text [NLP Class] Transformer-Encoder.pdf
Transformer Encoder Transformer Encoder
Encoder Layers Decoder Layers Attention is the Core
3 Input Embedding Inputs Multi-Headed Attention Add & Norm Feed Forward Add & Norm Output Embedding Outputs (shifted right) Multi-Headed Attention Add & Norm Multi-Headed Attention Add & Norm Feed Forward Add & Norm Linear Softmax Output Probabilities https://arxiv.org/pdf/1706.03762.pdf 1 Lược bỏ kiến trúc Seq2Seq 2 Sử dụng Attention làm lõi chính của model 3 Loss Function vẫn sử dụng Cross Entropy Kiến trúc Architecture
4 Embedding Conv Conv Conv Conv Conv Conv FFNN FFNN FFNN FFNN FFNN FFNN Dễ dàng thực thi song song Khai thác tốt phụ thuộc cục bộ (local dependencies) Lớp Convolution Motivation