10.2 视觉大模型的进一步发展：Transformer与卷积的融合