当前位置：首页 > news >正文

上下文丢失

news 2025/10/14 0:55:29

2025.10.14

位置编码外推失效是Transformer模型在长文本推理中出现上下文丢失的最常见架构限制，因为训练时使用的固定位置编码（如正弦编码）无法有效外推至超出训练长度的序列位置，导致位置信息丢失。

残差连接梯度消失主要影响训练而非推理时的上下文丢失；

前馈网络宽度不足影响模型容量但非长序列上下文依赖；

层归一化计算误差累积在长序列中可能发生但非主要因素。

http://www.hskmm.com/?act=detail&tid=30463

相关文章：

数据结构序列

上下文学习（In-context Learning, ICL）

提示词工程实践指南：从调参到对话的范式转变

Multi-Head Attention机制

高级语言程序设计第一次作业

Python-weakref技术指南

从众多知识汲取一星半点也能受益匪浅【day11（2025.10.13）】

王爽《汇编语言》第四章笔记

MySql安装中的问题

题解：AT_agc050_b [AGC050B] Three Coins

go:generate 指令

图形学中的变换

Unity URP 体积云

使用DirectX绘制天空盒并实现破坏和放置方块

编写DX12遇到的坑

编写DX12时使用的辅助类

DirectX12初始化

登录校验---Filter过滤器