@Griffin- Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

titile: Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models url: https://arxiv.org/pdf/2402.19427.pdf