1 相关工作
1.1 意图识别与槽位填充
1.2 联合模型
1.3 知识蒸馏
2 研究工作
2.1 基于ALBERT的意图识别与槽位填充联合模型构建
2.1.1 预训练模型ALBERT
2.1.2 基于ALBERT的联合模型
2.2 联合模型知识蒸馏策略
2.2.1 基于BiLSTM的学生模型
2.2.2 基于ALBERT的知识蒸馏
3 实验与分析
3.1 数据集
表1 部分训练语料Tab.1 Part of the training corpus |
| 编号 | 文本 | 领域 | 意图 | 槽位 |
|---|---|---|---|---|
| 1 | 请帮我打开uc。 | app | LAUNCH | {name:uc} |
| 2 | 去深圳怎么坐车? | map | ROUTE | {endLoc_city:深圳} |
| 3 | 北京到成都的汽车时刻表。 | bus | QUERY | {Dest:成都,Src:北京} |
| 4 | 给我放一部最新的电影。 | cinemas | QUERY | {} |
3.2 评价指标
3.3 实验分析
表2 ALBERT模型训练参数Tab.2 Training parameter of ALBERT model |
| 实验参数 | 参数值 | 参数说明 |
|---|---|---|
| Learning rate | 5×10-5 | Adam优化器学习率 |
| Batch_size | 12 | 每次模型更新的训练样本数 |
| epoch | 15 | 训练迭代轮数 |
| temperature | 3.5 | 蒸馏温度T |
| Max_seq_length | 32 | 句子最大长度 |
表3 测试集实验结果Tab.3 The experimental results of the test set |
| 模型 | 领域分类精度/% | 意图识别精度/% | 槽位填充F1值/% | 句准确率/% | 时间/s |
|---|---|---|---|---|---|
| BERT-base | 96.11 | 95.55 | 81.97 | 78.33 | 7.86 |
| ALBERT-base | 94.44 | 96.11 | 83.04 | 77.74 | 7.37 |
| BiLSTM | 86.66 | 91.66 | 68.12 | 58.33 | 0.38 |
| KD BiLSTM(蒸馏模型) | 90.56 | 92.77 | 73.57 | 67.22 | 0.39 |
表4 验证集实验结果Tab.4 The experimental results of validation set |
| 模型 | 领域分类精度/% | 意图识别精度/% | 槽位填充F1值/% | 句准确率/% | 时间/s |
|---|---|---|---|---|---|
| BERT-base | 95.55 | 93.88 | 84.49 | 76.66 | 7.61 |
| ALBERT-base | 93.33 | 93.89 | 82.35 | 77.22 | 7.35 |
| BiLSTM | 85.00 | 88.88 | 67.92 | 57.77 | 0.37 |
| KD BiLSTM(蒸馏模型) | 88.89 | 89.44 | 73.89 | 63.33 | 0.42 |
3.4 不同权重对ALBERT模型的影响分析
表5 不同权重值对ALBERT模型的影响 单位:%Tab.5 Influence of different weight values on ALBERT model |
| 模型 | 领域分类精度 | 意图识别精度 | 槽位填充F1值 | 句准确率 |
|---|---|---|---|---|
| Wi=1,Wd=1,Ws=1 | 93.88 | 95.00 | 80.61 | 77.22 |
| Wi=1,Wd=1,Ws=2 | 94.44 | 96.11 | 83.04 | 77.74 |
| Wi=1,Wd=1,Ws=3 | 95.56 | 95.56 | 82.17 | 76.67 |
| Wi=1,Wd=1,Ws=4 | 93.89 | 95.00 | 80.61 | 72.22 |
| Wi=2,Wd=1,Ws=1 | 95.00 | 95.00 | 81.66 | 76.67 |
| Wi=1,Wd=2,Ws=1 | 93.89 | 97.22 | 76.25 | 72.22 |
| Wi=2,Wd=2,Ws=1 | 94.44 | 96.67 | 81.20 | 75.56 |
3.5 探究类别权重对模型的影响
表6 探究类别权重对模型的影响单位:%Tab.6 The influence of class weight on the model |
| 模型 | 领域分类精度 | 意图识别精度 | 槽位填充F1值 | 句准确率 |
|---|---|---|---|---|
| ALBERT | 94.44 | 96.11 | 83.04 | 77.74 |
| KD BiLSTM | 90.56 | 92.77 | 73.57 | 67.22 |
| BERT(no_adjust) | 93.33 | 92.77 | 82.09 | 74.44 |
| ALBERT(no_adjust) | 93.33 | 94.44 | 81.65 | 75.00 |
| KD BiLSTM(no_adjust) | 83.89 | 91.67 | 70.64 | 60.00 |