Transformers 长程上下文综述
科技资讯

Transformers 长程上下文综述

64472 8

多头自注意力开销很大,序列长度的O(n²)复杂度意味着不太可能让经典的Transformer模型处理超长文本序列。这篇文章重点介绍在大规模下更有前景的解决办法。