我先在 ChatTime 目录里全局搜索与“文本/时间序列/提示/特殊标记”相关的关键词,锁定模型如何区分两类输入与输出的代码位置,然后打开关键文件精读以回答你的问题。
搜索 time series|timeseries|time-series|时间序列|text|prompt|TS|special|token|delimiter|split|<TS|<TEXT|[TS]|时序
(**/ChatTime/**
)、200 结果的文本
为定位输入输出区分逻辑的实现位置,我将打开 ChatTime 的 prompt 与 model 相关文件,查找如何使用 Serializer/time_flag 来包裹和解析时序片段。预计能找到具体正则或标记分隔方案。
读取 [](file:///workspace/ChatTime/utils/prompt.py)
读取 [](file:///workspace/ChatTime/utils/tools.py)
读取 [](file:///workspace/ChatTime/model/model.py)
读取 [](file:///workspace/ChatTime/training/pretrain.py)
读取 [](file:///workspace/ChatTime/training/finetune.py)
读取 [](file:///workspace/ChatTime/README.md)
我已通读 ChatTime 代码,下面用最直接的方式说明:它通过“数值序列专用标记+词表扩展”的组合,精确地区分文本与时序,在输出阶段再用同样的标记提取时序,忽略自然语言。
输入阶段:如何区分文本 vs 时间序列
- 离散化与标记包裹
- 在 model.py 的
predict
/analyze
中,原始数值序列先经utils/tools.py::Discretizer
离散化为有限中心值(先 MinMaxScaler 归一化后划桶,再用桶中心)。 - 然后用
utils/tools.py::Serializer
序列化为字符串序列:每个数值会被包裹在成对的时间标记中:- 默认标记 time_flag 是
###
,精度prec=4
,分隔符是空格。 - 形成形如
###-0.1234### ###0.0000### ###0.5678### ...
的“时序令牌流”。 - 缺失值会写成
###Nan###
(nan_flag)。
- 默认标记 time_flag 是
- 在 model.py 的
- 提示模板中的位置隔离
- prompt.py 的模板把内容分栏:
- 文本上下文(如“指导性文字/背景信息”)写在 “### Instruction:” 下面(自然语言,不带时间标记)。
- 时序串写在 “### Input:” 下面(只含空格分隔的
###数值###
片段)。
- prompt.py 的模板把内容分栏:
- 词表扩展保障“时序原子化”
- 在预训练脚本 pretrain.py 中,会将所有可能的离散中心值经
Serializer.serialize
变成形如###-0.1234###
的字符串,并通过tokenizer.add_tokens(...)
加到 Llama 的词表里。 - 这样每个
###x.xxx###
会被当作“单个新词”,不是若干字符的组合,保证模型对时序 token 的边界识别非常稳定,不会与普通文本混淆。
- 在预训练脚本 pretrain.py 中,会将所有可能的离散中心值经
小结:输入里“文本”和“时序”被物理上放在不同栏位(Instruction vs Input),语义上又通过专用的 ###…###
包裹把时序与自然语言隔离;词表扩展进一步把这些包裹后的数值变成独立 token,令模型在编码阶段天然区分两者。
输出阶段:如何区分文本 vs 时间序列
- 预测任务(
ChatTime.predict
)- 生成后先用模板切分:
sample["generated_text"].split("### Response:\n")[1]
拿到回答区文本。 - 用
Serializer.inverse_serialize
的正则精确抽取时序 token:- 正则模式:
rf"{time_flag}(.*?){time_flag}"
,即匹配所有形如###…###
的片段。 - 对每个匹配,尝试转成浮点数;失败(如
Nan
)则转为np.NaN
。
- 正则模式:
- 再用
Discretizer.inverse_discretize
把离散中心还原回原尺度的连续值。 - 若模型生成的
###…###
片段不足目标长度,会自动用NaN
补齐;多样本采样后用np.nanmedian
聚合,进一步提升稳健性。
- 生成后先用模板切分:
- 分析/问答任务(
ChatTime.analyze
)- 仍把时序作为
###…###
输入,问题文本放 Instruction。 - 输出不再解析
###…###
,而是通过re.findall(r"\([abc]\)", response)[0]
抓取选择题答案(文本型结果),与数值输出路径完全分离。
- 仍把时序作为
小结:输出时只对 ###…###
片段做“时序解码”,其余自然语言一律忽略;在问答任务则不读取任何 ###…###
数字,而是按题型抽取文本答案。
为什么这种区分精确可靠
- 专用包裹符号:时序值必须处于
###
成对标记内;正则只会抓取这种模式,天然屏蔽普通文本。 - 词表原子化:训练前把所有可能的
###数值###
加入词表,LLM 以“单 token”方式生成,减少被拆分或误解码的机会。 - 模板分栏:文本与时序位于不同 Prompt 字段(Instruction vs Input/Response),降低模型与后处理的歧义。
- 容错与聚合:不足长度补 NaN,多样本中位数聚合,进一步稳住最后的数值序列。
如果你希望改用别的包裹符(例如避免与模板里的 “### Response:” 视觉相似),可以在 Serializer(time_flag=...)
中替换成更独特的标记(如 ⟦ ⟧
),训练与推理端保持一致即可。