Nội dung text Distillation Foundation.pdf
Chắt lọc tri thức Distillation
Đào tạo mô hình nhỏ hơn nhằm mục đích chắt lọc tri thức từ mô hình lớn hơn Chắt lọc tri trức Knowledge distillation Đầu vào Model thầy giáo Số lượng tham số lớn Model học sinh Số lượng tham số nhỏ Logits Distillation Loss Logits Classification Loss
Chắt lọc tri trức Knowledge distillation Model thầy giáo ResNet Model học sinh LeNet Dog Cat 6 2 Logits Softmax 0.982 0.018 Dog Cat 5 3 Logits Softmax 0.88 0.12 Kém tự tin hơn
Làm sao để model học sinh tự tin hơn? Softmax 0.88 0.12