10.2 视觉大模型的进一步发展:Transformer与卷积的融合