9.2.4 GPT-2与BERT的多头注意力的区别