当前位置: 首页 > news >正文

图的分类法:解耦数据和图表类型

HKUST 25 Fall COMP 6411D Data Visualization 课堂笔记

可视化的可视化

当我第一眼看到 slide 中“chart taxonomies” ,我有两个反应:

  • 图表数量也太多了
  • 这个分类方式并不是很直观,Comparsion / Relationship / Distribution / Composition 这些术语都是一些很高层的抽象概念,并且分类本身比较繁琐,比如 Qlik 的分类是一个不规则的树结构,层层分类。并且分类方式并不唯一,比如可以看到 Bar Chart 在 Qlik 中出现多次

../../Extra/Images/IMG_20250927170623812.png

是否能够找到一个更加直观、客观、唯一的分类方式?

25-象限分类图

我对图形的分类通过三个性质判断

  • 数据是“自变量”还是“因变量”
  • 数据是可量化的 (value) 还是不可量化的 (label)
  • 自变量/因变量的数量

比如 Single Line plot 就是 “单个自变量 value 到单个因变量 value” 的一种图像

可视化必然包括表达者和观众主观性

所谓“自变量”“因变量”并非出自数学函数的定义,而是出自观众的角度定义,大致来说“自变量”是观测前已知的,是观众的出发点,是切入数据的角度;而“因变量”是观测前未知的,是观众想要知道的,是观测的结果。一种简单的判断方式是自变量可以展示在图像的标题中,“1-12 月英伟达股价变化”,只看标题已经大概知道我们的自变量可能是月份,包含一月、二月、...,而具体股价是多少需要查看图表才能知道

当然以上定义也是一种主观定义方式,即使是同一张图,观众也可能有多种观测的角度,比如如下的 Dot Chart,可能存在多个解释角度:

  • 我可以将 x-y axis 当作两个自变量,即二维空间作为观测角度,去观测不同颜色/形状的 label 在二维空间的分布,此时是 “两个自变量 value 到两个因变量 label” 的图像;
  • 同样也可以将 label 看作自变量,观察数据在二维空间的未知信息,此时是 “两个自变量 label 到两个因变量 value” 的图像
  • 分布这个概念是一个高级的抽象概念,我还可以说以二维空间作为观测角度,去观测不同颜色/形状的 label 在二维空间的“数量”(尽管当点的数量很多时很难直观从 dot 图上得到具体的数值,只能直观感知个大概), 此时是“两个自变量 value 到三个因变量,两个 label 一个 value” 的一种图像

并且不仅和观众相关因人而异,和数据的具体数值也相关。当然如果存在切入角度较多的问题,也说明此时表达着应该尽可能调整作图方式确保呈现信息唯一确定。

../../Extra/Images/IMG_20250927170624080.png

数据是可量化/不可量化的同样存在这个问题,比如连续、密集的时间,毫无疑问是 value;是男性还是女性,毫无疑问是 label;那月份呢,似乎可以作为 label 写成一月、二月、...,也可以认作是以一个月为粒度的时间 value,随着可量化的数值离散化稀疏化,value 和 label 的界限会愈加模糊。

表达者/观众的主观性必然导致无法完全客观分类,但本文尽量朝着这个方向呈现。

分类结果

我根据前文提到的三个性质,将图表分为 5x 5=25 个种类,并将部分在课程中介绍过的表格放入对应象限中:

../../Extra/Images/IMG_20250927170624319.png

大致来说,此图左下角 “Single 自变量-Single 因变量” 是最直观、信息量最少的图表,左上、右下是信息量较多的图表,而右上是信息量最多的图表,这个分类方法具有局限性,难以归类表征数据结构的“图/网络结构”数据表格。其中 Box 图表因变量包含 value 和 label,其中 label 指的是“是否是 Outliner"

BTW,“25-象限分类图” 在 “25-象限分类图”中的位置属于 “单 label (图的种类)-多 label(自变量-因变量) ”

自动数据可视化

给这种分类方法设想了一个假想应用场景,在科研实验/写文章绘制图表时,我总要画一些时间思考到底使用什么图表,特别是对于有复杂变量的系统在做大量实验时,我需要花相当一部分时间思考从哪个角度观测系统找到相关性,然后再画一些时间思考用什么图表展示,最后告诉 Chat GPT 让他完成对应的 matplotlib 代码,如果不直观,可能还要多想几种呈现方式。

这种分类方法解耦了数据结构和图表之间的依赖关系,也许可以实现一个 Chart Compiler,输入数据并指定数据的分类,其就能自动识别找到有几种图表符合,自动返回几种不同的图表给用户评估。这或许能够节省做实验的时间

老师推荐了来自 UW Interactive Lab [1] 的工作 voyage[2] 和 dacro[3] 工作,该方向叫做 automated visualization design。其中将数据和图像解耦只是第一步,确认数据可以允许由什么 chart 呈现 (hard constraints),而 hard constraints 所允许的 design space 中仍存在大量的选项,第二步则是通过某种需要某种“评分机制”量化排序找到最佳的图表。这面临着两个问题:

  1. Design space 非常大
  2. 可视化判断标准相当主观,难以判断

靠用户收集的数据仅仅只是占 design space 中一小部分,所以“评分机制”需要某种泛化性。 voyager 的思想主要是用预先设定规则启发式搜索,而 draco 的方法采用了 learning based 方法尝试学习泛化判断标准。


  1. https://idl.uw.edu/about ↩︎

  2. https://idl.uw.edu/papers/voyager ↩︎

  3. https://idl.uw.edu/draco/ ↩︎

http://www.hskmm.com/?act=detail&tid=19143

相关文章:

  • IDEA 2024的零卡死配置
  • 数据结构
  • Python + MediaPipe 手势绘画高级应用:从基础到创意交互 - 实践
  • Crypto 2021 s Accepted papers
  • Github 12.3kstar, 3分钟起步做中后台?Go+Vue 脚手架,把权限、代码生成、RBAC 都封装好了
  • 250927
  • 完整教程:多线程——单例模式
  • A Twisty Movement
  • 完整教程:iOS 混淆与反调试反 Hook 实战,运行时防护、注入检测与安全加固流程
  • Attention进阶史(MHA, MQA, GQA, MLA)
  • 2025北京个性旅行自由行口碑推荐北京汇通清源国际旅游公司,满足独特需求,自由随心
  • 2025推拉门品牌推荐榜:聚焦玻璃推拉门,钛镁合金推拉门选择指南
  • 9-27
  • 图解KV Cache
  • [K230学习笔记 00] 前言
  • 博弈论
  • [CEOI 2025] theseus 做题记录
  • 2025 年钣金加工厂家最新推荐排行榜发布:江门,珠三角钣金加工厂选择指南
  • 全文 -- Vortex: Extending the RISC-V ISA for GPGPU and 3D-Graphics Research - 指南
  • 2025.9.26 - 9.30
  • Codeforces Round 1053 (Div. 1) D. Attraction Theory
  • 通过AWS SSO设备代码认证进行AWS凭证钓鱼攻击(2024年更新)
  • 解码数据结构栈
  • 第七章 手写数字识别V4
  • 什么?你的蓝牙用不了了?
  • 模板库
  • 30.Linux DHCP 服务器 - 详解
  • [K230学习笔记] 前言
  • 集训队作业3——qoj#11723
  • 2025 年推拉门品牌推荐排行榜发布:聚焦玻璃推拉门,钛镁合金推拉门,厨房推拉门,阳台推拉门,淋浴隔断推拉门选择指南!