《数据可视化基础》讲故事并提出要点
对于数据库可视化而言,我们最终的目的还是通过图片的形式更加生动的向读者传递数据当中的故事。
以下介绍一些,在讲故事过程中,可视化需要注意的问题。
少即是多
在本章的其余部分,将讨论制作单个图和图集的策略,这些图和图集可以帮助你的读者与你的内容在整个讲述的阶段建立并保持联系。首先,也是最重要的是,您需要向观众展示他们实际上可以理解的图形。即使在完全遵循之前提到的图形可视化的建议之后,仍有可能做出令人迷惑的图形。如果发生这种情况,你就可能已成为两种常见误解的受害者。首先,你可能认为读者可以在看到你的图形的时候,立即推断出你要提出的观点;其次,你也可能认为读者可以快速处理复杂的可视化效果并了解所显示的关键趋势和关系。但是读者并不具备这样的能力。因此,我们需要尽一切可能帮助读者理解图片的含义,让读者和我们一样看到数据当中相同的内容。这通常意味着少即是多。尽可能简化图。删除所有可能导致图片解读偏移的内容。只将重点保留。
永远不要以为你的读者可以快速处理复杂的可视化图形。
现代可视化软件的简便性使我们能够进行复杂的数据可视化。借助几乎无限的可视化功能,在一个图片当中增加更多的数据维度的想法就会特别的吸引人。实际上,复杂,多方面的可视化效果可能看起来非常令人印象深刻,但它们不太可能传达清晰的故事。例如👇,该图显示了2013年纽约市以外所有航班的到达延误。这个图可能需要你反应很长时间才能明白图片当中的含义。

但是,如果我们想要表示美国航空和达美航空到达延迟时间最短。那么通过简单的条形图可以更好地传达这种见解(👇)。因此,即使不需要复杂的可视化技能,我们也可以正确的传达需要的信息

另外,如果还想知道这些航空公司延误的航班是否和他们的航班数有关。则可以在第二个条形图,突出显示美国航空和达美航空都是纽约市地区的主要承运商

需要注意的是, 这两个条形图都放弃了第一张图当中所示的距离变量。总的来说, 即使我们拥有很多的数据变量,但我们不需要可视化的与我们内容无关的维度。
当您尝试一次显示太多数据时,您可能最终什么也没显示。
构建复杂的图片
但是,有时候我们确实想显示更复杂的图,这些图一次包含大量信息。在这些情况下,如果我们在显示复杂的图片之前先显示一个简化版本的图,就可以使读者更轻松的接受。
所以,强烈建议在演示中使用相同的可视化方法。
首先显示一个容易消化的小图,永远不要直接跳到一个复杂的图片上。
例如,👇显示了联合航空在2013年按工作日细分的从纽瓦克机场(EWR)出发的航班总数。

一旦我们看到并理解了这个图形,那么处理10个航空公司和3个机场的相同信息就更加容易了。


使你的图片令人难忘
简单且干净的图形(例如简单的条形图)具有避免分散注意力,易于阅读的优点,并使读者专注于要传达的观点。但是,简单可能有一个缺点:图片最终可能看起来是相同的。它们并不能令人难忘。如果连续快速地向你显示十个条形图,您将很难将它们分清楚,然后记住它们所显示的内容。例如,下面两个图。这两个图在视觉上十分的相似。但是,这两个图片除了它们都是条形图外没有其他共同点。👇👉显示了乘飞机出纽约市地区的航班数量,而👇👈显示了美国家庭中最受欢迎的宠物。这两个图都没有任何元素可以帮助读者直观地感知图形涵盖内容,因此,两个图都不是令人难忘的。

对人类感知的研究表明,视觉上更复杂,更独特的图片更令人难忘。然而,视觉上的独特性和复杂性并不能影响记忆力,因为他们可能会阻碍人们快速了解信息或难以区分数值的细微差别。在极端情况下,图片可能会令人难忘,但完全令人困惑。即使很好的展示数据所有的信息,但这样的图也不是一个好的数据可视化。在另一个极端,图片可能很清楚,但容易让人忘记和无聊。总的来说,我们希望在两个极端之间取得平衡,使我们的图片既令人难忘又清晰。
通过添加反映数据特征的视觉元素(例如,数据集所涉及的事物或对象的图形),我们可以使图片更加令人难忘。通常采用的一种方法是以重复图像的形式显示数据值本身。例如,我们可以用狗,猫,鱼和鸟的重复图像替换👆👈中的条形图,并按比例绘制,以使每只完整的动物对应五百万个家庭。因此,从外观上看,👇的图仍可作为条形图,但是我们现在增加了一些视觉上的复杂性,使该图更令人难忘,并且我们还使用直接反映数据含义的图像显示了数据。快速浏览一下图,读者就会记得狗和猫比鱼或鸟多得多。重要的是,在这种可视化中,我们使用图像来表示数据,而不是仅仅使用图像来装饰可视化或注释轴。在心理实验中,后一种选择往往会分散注意力。

保持一致,但不要重复
在多面板图形需要注意的问题中讨论复合图形时,我提到对于较大图形的不同部分使用一致的视觉语言非常重要。跨图也是如此。如果我们制作三个图,它们都是故事的一部分,那么我们需要设计这些图,使它们看起来一样。但是,使用一致的视觉语言并不意味着一切都应该看起来完全一样。相反。重要的是,描述不同分析的图形看起来在视觉上是截然不同的,以便您的读者可以轻松地识别出一种分析在哪里结束而另一种在哪里开始。通过对总体故事的不同部分使用不同的可视化方法,可以最好地实现这一目标。如果你已经使用过条形图,则接下来使用散点图,箱形图或折线图。否则,不同的分析会在听众的脑海中模糊不清,并且很难区分故事的一部分和另一部分。例如,相较于👇👉的图,👇👈的图更加让人迷惑。

在准备演示文稿或报告时,针对每种不同的分析使用不同类型的可视化图形
我们在使用一个数据集进行可视化的时候,可能面临每一个小图都是基于相同数据类型来进行可视化的情况。例如,让我们考虑有关Facebook股票的故事,分为两个部分:(i)从2012年到2017年,Facebook股票价格迅速上涨;(ii)价格上涨已经超过了其他大型科技公司。您可能想用两个图形形象的说明这两个问题。如👇的图所示。但是,虽然👇a具有明确的目的并应保持原样,但👇b则是重复的,并掩盖了要点。我们并不特别在乎Alphabet,Apple和Microsoft股价的确切时间变化,我们只想强调一下它的增长速度低于Facebook的股价。

👇则突出强调了准备讲述故事的一组数据时应遵循的一般原则:从一个尽可能接近原始数据的图形开始,在随后的图形中,显示了越来越多的派生数据。派生的数据(例如,增长百分比,平均值,拟合模型的系数等)对于总结大型和复杂数据集中的关键趋势很有用。但是,由于它们是派生的,因此不太直观,所以我们首先介绍原始数据的情况。另一方面,如果我们试图通过显示原始数据来表示数据的相关趋势,那么最终将需要太多的图片和/或重复性的结果。

