当前位置: 首页 > news >正文

ChatTime的一些理解

我先在 ChatTime 目录里全局搜索与“文本/时间序列/提示/特殊标记”相关的关键词,锁定模型如何区分两类输入与输出的代码位置,然后打开关键文件精读以回答你的问题。

搜索 time series|timeseries|time-series|时间序列|text|prompt|TS|special|token|delimiter|split|<TS|<TEXT|[TS]|时序 (**/ChatTime/**)、200 结果的文本

为定位输入输出区分逻辑的实现位置,我将打开 ChatTime 的 prompt 与 model 相关文件,查找如何使用 Serializer/time_flag 来包裹和解析时序片段。预计能找到具体正则或标记分隔方案。

读取 [](file:///workspace/ChatTime/utils/prompt.py)

读取 [](file:///workspace/ChatTime/utils/tools.py)

读取 [](file:///workspace/ChatTime/model/model.py)

读取 [](file:///workspace/ChatTime/training/pretrain.py)

读取 [](file:///workspace/ChatTime/training/finetune.py)

读取 [](file:///workspace/ChatTime/README.md)

我已通读 ChatTime 代码,下面用最直接的方式说明:它通过“数值序列专用标记+词表扩展”的组合,精确地区分文本与时序,在输出阶段再用同样的标记提取时序,忽略自然语言。

输入阶段:如何区分文本 vs 时间序列

  • 离散化与标记包裹
    • 在 model.py 的 predict/analyze 中,原始数值序列先经 utils/tools.py::Discretizer 离散化为有限中心值(先 MinMaxScaler 归一化后划桶,再用桶中心)。
    • 然后用 utils/tools.py::Serializer 序列化为字符串序列:每个数值会被包裹在成对的时间标记中:
      • 默认标记 time_flag 是 ###,精度 prec=4,分隔符是空格。
      • 形成形如 ###-0.1234### ###0.0000### ###0.5678### ... 的“时序令牌流”。
      • 缺失值会写成 ###Nan###(nan_flag)。
  • 提示模板中的位置隔离
    • prompt.py 的模板把内容分栏:
      • 文本上下文(如“指导性文字/背景信息”)写在 “### Instruction:” 下面(自然语言,不带时间标记)。
      • 时序串写在 “### Input:” 下面(只含空格分隔的 ###数值### 片段)。
  • 词表扩展保障“时序原子化”
    • 在预训练脚本 pretrain.py 中,会将所有可能的离散中心值经 Serializer.serialize 变成形如 ###-0.1234### 的字符串,并通过 tokenizer.add_tokens(...) 加到 Llama 的词表里。
    • 这样每个 ###x.xxx### 会被当作“单个新词”,不是若干字符的组合,保证模型对时序 token 的边界识别非常稳定,不会与普通文本混淆。

小结:输入里“文本”和“时序”被物理上放在不同栏位(Instruction vs Input),语义上又通过专用的 ###…### 包裹把时序与自然语言隔离;词表扩展进一步把这些包裹后的数值变成独立 token,令模型在编码阶段天然区分两者。

输出阶段:如何区分文本 vs 时间序列

  • 预测任务(ChatTime.predict
    • 生成后先用模板切分:sample["generated_text"].split("### Response:\n")[1] 拿到回答区文本。
    • Serializer.inverse_serialize 的正则精确抽取时序 token:
      • 正则模式:rf"{time_flag}(.*?){time_flag}",即匹配所有形如 ###…### 的片段。
      • 对每个匹配,尝试转成浮点数;失败(如 Nan)则转为 np.NaN
    • 再用 Discretizer.inverse_discretize 把离散中心还原回原尺度的连续值。
    • 若模型生成的 ###…### 片段不足目标长度,会自动用 NaN 补齐;多样本采样后用 np.nanmedian 聚合,进一步提升稳健性。
  • 分析/问答任务(ChatTime.analyze
    • 仍把时序作为 ###…### 输入,问题文本放 Instruction。
    • 输出不再解析 ###…###,而是通过 re.findall(r"\([abc]\)", response)[0] 抓取选择题答案(文本型结果),与数值输出路径完全分离。

小结:输出时只对 ###…### 片段做“时序解码”,其余自然语言一律忽略;在问答任务则不读取任何 ###…### 数字,而是按题型抽取文本答案。

为什么这种区分精确可靠

  • 专用包裹符号:时序值必须处于 ### 成对标记内;正则只会抓取这种模式,天然屏蔽普通文本。
  • 词表原子化:训练前把所有可能的 ###数值### 加入词表,LLM 以“单 token”方式生成,减少被拆分或误解码的机会。
  • 模板分栏:文本与时序位于不同 Prompt 字段(Instruction vs Input/Response),降低模型与后处理的歧义。
  • 容错与聚合:不足长度补 NaN,多样本中位数聚合,进一步稳住最后的数值序列。

如果你希望改用别的包裹符(例如避免与模板里的 “### Response:” 视觉相似),可以在 Serializer(time_flag=...) 中替换成更独特的标记(如 ⟦ ⟧),训练与推理端保持一致即可。

http://www.hskmm.com/?act=detail&tid=28308

相关文章:

  • ChatTS的一些理解
  • 一生一芯学习:基础设施(2)
  • 实验报告3(使用单链表简单实现图书管理系统)
  • 大端与小端
  • 【黑马python】2.Python 字符串
  • 实验报告2(简单实现图书馆管理系统)
  • 实验报告1(switch语句,二维数组)
  • 【实现自己的 kafka!】kafka 的关键概念
  • 12. 对话框
  • 2024ICPC区域赛香港站
  • AI产品经理要了解的算法有哪些?
  • 一位印度小哥逆袭成为谷歌数据科学家的心路历程 - 教程
  • 基于selenium的网页自动搜索
  • MacOS Nginx
  • 缓存的击穿、雪崩、穿透在你项目中的场景是什么
  • [WC2021] 表达式求值
  • Set集合
  • AI时代下,如何看待“算法利维坦”?
  • JAVA - LinkedList 与 ArrayList 区别和 LinkedList 的四大接口解析
  • 苍穹外卖第三天(Swagger、@RequestParam和@RequestBody的使用场景、@PostMapping和@RequestMapping的区别、对象属性拷贝、@Insert注解)
  • Git 多账号管理
  • Hyper Server 2019安装I226-V网卡驱动
  • P10201 永恒
  • CF1209H tj
  • AirBattery - 在Mac上实时监控所有苹果设备电量
  • HTML学习日记
  • 10.10每日总结
  • 二分图与网络流 Trick
  • 10月10号
  • win11 系统如何进行硬盘分区?固态硬盘怎么分区?SSD 固态硬盘分区教程