原文:
towardsdatascience.com/information-at-a-glance-do-your-charts-suck-8b4167a18b88
让我们面对现实:你辛苦工作的那份报告——没有人真的会去读它。
在最佳情况下,人们可能会快速浏览,在色彩鲜艳的图表的吸引下短暂停留。
但如果你正确地设计了图表,那么只需一眼,人们就应该能够理解数据在说什么——至少在高级别上。
快速传达信息的能力是将普通图表与优秀图表区分开来的关键。让我们看看心理学中的一些技巧,我们可以利用这些技巧使我们的图表更容易解读。
预注意特征
预注意特征是图表的设计元素,可以在不直接注意它们的情况下感知到。
它们是我们第一次看某物时立即吸引我们注意力的特征。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/32bd312954731e3372ecfeb38df02dd2.png
我们的眼睛自然会被这些特征吸引,使它们容易识别。因此,它们可以用来引导观众的注意力到我们希望它去的地方。
考虑这个例子——在这个数字网格中,有多少个 2?
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6f4b9b75c6c47565f6ffaa9fd4e0c0b3.png
现在怎么样?
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7fce9bf81f978de1b074b903dfb3de7d.png
通过额外的突出显示,识别 2 的速度要快得多。我们不再是一行一行地扫描,我们的眼睛会快速跳转到突出显示的数字之间。
通过清晰展示重要信息,我们可以更好地表达我们想要传达的内容。这使我们能够更加简洁而富有表现力。
例如,我们可以在条形图中使用颜色来表示关注的类别。按大小排序条形有助于使图表更容易导航。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2fe6bccbcbe7d48b76fe1ef089a20f02.png
我们还可以使用粗体文本和方框来指明哪些内容是重要的,以及哪些事物是相互关联的。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/068b15c939d79e34910904f680e2808c.png
由 DALL-E,OpenAI 生成的图像
注意:上述信息图是使用 AI 生成的,几乎未提供指导,但它仍然展示了使用粗体文本和清晰部分突出重要信息的良好原则——即使文本和信息是无意义的。
如果 ChatGPT 可以使用这些原则,那么我们还有什么借口!
(令人惊讶的是,ChatGPT 在太阳系统计数据的 99.86%上是正确的,尽管它在上面的例子中犯了错误)
我们还应该记住,如果过度使用,这些特征可能会分散注意力,因为我们的注意力会被同时拉向许多不同的方向。
在下面的例子中,很难知道应该按什么顺序阅读,而且确定关键要点也不是很快就能做到的。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/73bc3fb2d7f29cb0bb831aef512217fd.png
由 DALL-E,OpenAI 生成的图像
视觉数据编码
数据可以以不同的方式进行视觉编码。用视觉元素来表示数字,而不是用数字表,会使它更容易消化。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bf61a97630fe2fb7c55a221d89ca98db.png
然而,不同的编码技术更适合不同类型的数据。
定量
定量数据包括测量值,可能包括诸如高度、重量或文章上的掌声数量(这里有一个非常微妙的提示)。
对于这类数据,位置、长度、角度和面积都相当有效。而使用饱和度、密度和形状来表示数值,你可能会很难展示出任何有意义的含义。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9b12753c0d9867c56c3fc1cd1ab35b32.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/92b33ee9ce7c8d7c8e5bcb8afa7645a5.png
你可能可以看出,从饼图中,黄色(C)是这里最大的类别。但如果我们尝试找到第二高的类别,我们可能会遇到困难。然而,在柱状图中,这些类别的排名顺序立即显而易见。
另一方面,如果我们询问包含在类别 A 中的总比例是多少,使用面积来编码数据的饼图将是完成这项工作的更好工具。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/47f2d3cf4670f4820ff1b59c718e3594.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/56c4cb861ad32131c76df991ae2272cb.png
数据编码方法并不平等——如果你没有选择正确的,数据就不会讲述你原本想要讲述的故事。
位置是编码多种不同类型数据的一个非常有效的工具。看看这个散点图…
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a7f2e9db77a0bb442fd1f2e03ad9e9db.png
我们可以在数据点中看到一种趋势。
可以使用数据编码的第二种方法(在这种情况下是斜率)来加强这一点,使趋势更加立即明显,并表明这是图表的关键要点。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b340d682d3499f70d360559b24c8ca4b.png
名义数据
名义数据指的是命名的数据点。这通常在图表的标签上找到。
选择正确的方法将决定读者理解类别和标签之间关系有多容易。
两种常见的方法是连接和色调:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8449a13b32c562ad5435abc1af415b3d.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/045382e835116b017f17d95207527c14.png
数据标签的连接和色调
有时,连接对于读者理解哪个类别是哪个类别可能更清晰,但过度使用时,它可能会使图表显得相当杂乱。
另一方面,如果你有多个可以使用相同色彩方案的图表,色调是一个强大的工具。随着读者的阅读进程,他们可以根据颜色来发展对哪个类别是哪个类别的直觉。
序数数据
序数数据由具有自然顺序或等级的分类数据组成。在这里,位置、饱和度和色调将是编码数据的最有效工具。
话虽如此,饼图或条形图对于这类数据仍然可以是一个有效的工具,我们只需结合一些其他编码方法来帮助理解。
仅使用形状、面积或体积来表示数据将使其难以解释。
让我们可视化这个数据集:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d7b686a1afb55fb67251e9045a8cb50b.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0900156619a30411e8e563212c795a4b.png
希望到现在为止,我们可以看到为什么这不是一个有用的可视化。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bb2fd1f85f05b3b57c865abfaa6683bb.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8e070d4c3582a0969f848eb96364a4b5.png
这张世界地图结合了位置(国家位置)和色调来快速展示各国之间的比较。如果我们想了解更多关于某个国家的信息,我们可以悬停在它上面。
这确实意味着我们将我们的可视化限制在数据的仅一列(销售额)。如果我们仍然想展示两者,我们可以这样做:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/254a50fd174dfdb07a0c01583429fc4a.png
在这里,我们使用色调来表示销售额,位置表示国家,大小表示客户满意度评分。也许大小比例有点误导,因为南非上方的小点代表 3.8/5,但经过一些小的调整,我们得到了一个能够提供对复杂数据集直观理解的图表。
格式塔理论
格式塔理论描述了视觉元素如何被人类大脑解释和理解,以及元素之间的关系是如何推断的。
我们在这里不会深入探讨其历史或背景,但如果你感兴趣,也许可以看看这篇文章(非关联)。
格式塔理论可以通过一系列原则来概括。让我们看看一些例子:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/69016bdd41f4e371ddefc3d641fedb37.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/523e13df97bbeaeb66d1debb02f9eca3.png
en.wikipedia.org/wiki/Olympic_symbols#Olympic_rings(右图由作者编辑)
原则 #1. 图形与背景
通常,粗体、高饱和度和深色被认为是前景(图形),而浅色、低饱和度的特征被认为是背景(背景)。
在上面的例子中,这一点很明显;我们可以看出我们不是在观察一个带有环形切口的白纸。深色区域显然位于白色区域之上——至少看起来是这样。
当我们想要将一个群体与整个人群进行比较时,我们可以使用这个原则来设计图表。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6a10b3dc94ae7468e775cd77c3ebb6fb.png
与代表更广泛人群的微妙灰色条带相比,粗体蓝色显得突出并吸引注意力。
这一原则也体现在图表背景中出现的网格线上。
让我们回顾一下奥运五环,以了解原则 2…
原则 #2. 完整性(简单性)
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c8002ca7ffdbec9a2df0cab47d036b20.png
en.wikipedia.org/wiki/Olympic_symbols#Olympic_rings
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/18e9432b6ad31512d0511521fe01cd7c.png
en.wikipedia.org/wiki/Olympic_symbols#Olympic_rings(作者编辑的图片)
在上述示例中,我们将图像解释为 5 个相互连接的环。
我们也可以将这个标志解释为一系列波浪线段,甚至是一条大型的环状曲线。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1b9aada260aa6c70323a68060848d296.png
en.wikipedia.org/wiki/Olympic_symbols#Olympic_rings(作者编辑的图片)
原则 #2 表示我们寻求对我们呈现的最简单解释——在这种情况下是环。
那么,我们如何利用这一点来帮助我们设计更好的图表呢?
简单为上。
无论你把什么放在读者面前,他们很可能会按字面意思理解。
试图表现得聪明并不是加分项——这可能会让它变得没有必要地复杂。
我们想要传达的信息应该是最容易获取的,我们希望坚持读者熟悉的图表类型。
原则 #3. 近因
近因效应原则指出,彼此靠近的物体被视为相关或有共同之处。
散点图是这一点的绝佳例子。人脑擅长识别簇和分组。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/49f59c09e7824a053bad9ae3a81a1136.pnghttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6a9a15c3797f3c79dffb0befabf81f0f.png
近端点和条形图的簇似乎有共同之处
对于数据设计,这意味着我们应该:
将标题和标题安排在相应的图表附近,
在条形图上使用相关条形的簇,
使用负空间来强调其他元素之间的近距离。
原则 #4. 公共区域
原则 #4 表示被同一区域包围的物体被视为彼此相关。
这是维恩图图表所依赖的原则:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e24f35f3018d432710df519abb4acecb.png
原则 #3 和 #4 结合起来是设计图表布局和结构化信息图的实用工具。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0a4393fac35762db2cbddfd6cd832f12.png
我们可以使用边框框、标题、负空间,并将相关事物放置在一起,使我们的报告更容易导航。
原则 #5. 相似性
相似性原则表明,具有某些共同属性或视觉上相似的对象被认为是相关的。
对于数据设计,这有几个后果:
一致的色彩编码以将类别联系起来,
不同页面之间的一致布局——相同的组件应位于相同的位置,以便读者知道在哪里找到它,
在图表和图中一致地使用形状、线条样式或标记来表示相同类型的数据或类别。
这一原则还指导我们应该首先选择使用哪些类型的图表:
应该始终使用相同类型的图表来展示相同类型的数据,
使用读者可能之前见过的类似图表。
这些指南提高了用户理解你的图表如何工作的可能性。
结论
设计有效的数据展示不仅仅是关于美学——清晰度和理解力对于成功至关重要。
通过我们讨论的技术,我们可以设计出能够瞬间且轻松传达洞察力的可视化。当涉及到帮助读者关注重要内容并使数据的故事对所有人都易于理解时,每个选择都很重要。
*除非另有说明,所有图像均为作者所有。
*本文使用了 AI 生成一些数据集和图形。