SCI论文中的描述性统计(descriptive statistics)是什么?

《论语·为政第二》里有说“视其所以,观其所由,察其所安”,对于科学研究来说,就是需要通过实验或调查等手段获取数据,进行必要的统计分析,对科学研究进行数据画像。那么因此,SCI论文中统计学内容一般包含描述统计分析。所谓描述性统计(descriptive statistics)即将调查样本中包含的大量数据资料进行整理和计算,对调查总体所有变量的有关数据进行统计学上的总结。简单来说,就是将一系列复杂的数据集用几个有代表性的数据进行描述,进而能够直观地解释数据的变动,主要包括数据的离散程度分析、集中趋势分析、频数分析、分布以及一些基本的统计图形。描述统计是推断性统计的基础。

以下是SCI论文中一些包含描述性统计内容的实例:

定量研究中,在收集数据后,统计分析的第一步是进行描述性统计,即描述回答样本数据的特征,如一个变量的平均值(如年龄),或两个变量之间的关系(如年龄和创造力)。在描述性统计的基础上,下一步研究工作是推论统计(Inferential statistics),用来帮助研究者决定样本的数据是否证实或反驳研究的假设,以及假设的结论是否可以推广到更大的总体中去,对统计总体的未知数量特征做出以概率形式表述的推断。

描述性统计有三种主要方法

1.频数分析,与各个体的变量值出现的次数有关。

2.集中趋势分析,与变量数值的平均值有关。

3.离散程度分析,与各个体的变量值之间差异程度有关。

在单变量分析中,一次只能评估一个变量,或者在双变量中比较两个变量之间关系或在多变量分析中比较多个变量之间的关系。

下面用一个研究实例来说明一下描述性统计的三种方法

实例1:某课题想按性别研究不同业余时间休闲活动的流行程度。研究项目分发一份问卷调查,并询问被调查者在过去一年中,他们做了以下每一项休闲活动的次数,三种活动分别为:

  • 去图书馆读书,简称为图书馆;

  • 在电影院看电影,简称为电影院;

  • 游览国家级公园,简称公园。

统计的数据集是对调查结果的收集。通常,可以使用描述性统计来找出每种活动的总体频率(分布)、每种活动的平均值(中心趋势)以及每种活动的离散程度(可变性)。

01 频数分析(Frequency distribution)

频数分布(frequency distribution),亦称“次数分布”,是数据的基本统计整理方式之一,即可以用数字或百分比总结变量每个测量值的频数或频率。频数一般是指每个数据出现的次数,而频率是指每个数据出现的次数与总次数的比值,是一种相对频数。

在SCI论文中,往往使用两种图表表达频数分布:简单频数分布表(Simple frequency distribution table)和分组频数分布表(Grouped frequency distribution table)。

简单频数分布表:

对于实例1,根据性别变量,在左边一栏列出所有可能的答案。计算每个答案的回答数或百分比,并将其显示在对应的右侧列中。

Gender Number
Man 242
Woman 235
No answer 37

从以上表格可以得出结论:在本项研究中,男性参与调查的人数比较多。

分组频数分布表:

对于实例1,在分组频率分布中,可以对每个答案的数值进行分组,并将每组的响应数相加,还可以将每个数字转换为百分比。

Library visits in the past year Percent
0-3 8%
4-8 18%
9-12 40%
13-16 26%
17+ 8%

从上面这张表中可以看到,大多数人在过去的一年里去图书馆4到16次。

02 集中趋势度量(Measures of Central Tendency)

集中趋势度量表明数据集的中心或平均值,能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。平均值(mean)、中位数(median)和众数(mode)是估计集中趋势度量的三种方法。

平均值,是求平均值最常用的方法。这里的平均数是指算术平均数,即一组数据的和除以这组数据的个数所得的平均值,也叫算术平均值。

例如图书馆平均访问次数的数据集为{15, 3, 12, 0, 24, 3},则平均数为(15 + 3 + 12 + 0 + 24 + 3)/6 = 9.5

中位数,是正好位于数据集中间的值。为了找到中位数,将每个数据值从最小到最大排序。然后,中间数是中间数。如果中间有两个数字,则计算它们的平均值。对于数据集{15, 3, 12, 0, 24, 3},则中位数为(3 + 12)/2 = 7.5。当数据集中数据的大小趋势悬殊较大时,中位数比平均数更能代表整体水平,而数据大小趋势悬殊较小时,中位数和平均数都可以代表这组数据的整体水平。

众数,是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。对于数据集{0, 3, 3, 12, 15, 24},最频繁出现的众数是3。

1. 差异量数(Measures of Variability)

差异量数也称离中趋势量数,是指描述一组数据离中差异情况和离散程度的量数。差异量数的种类很多,主要包括极差(Range,R)、标准差 (Standard deviation, σ)、方差(Variance, σ2 ) 、四分位距(interquartile range, IQR)。下面简单介绍一下前三种方法:

极差(Range),又称范围误差或全距,是用来表示样本数据中最大值与最小值之间的差距,即最大值减最小值后所得之数据。

例如,过去一年来参观图书馆的次数为有序数据集:{0、3、3、12、15、24},则极差为:24–0=24。

标准差(Standard deviation)是数据的平均变异量,主要描述数据的离散程度,其符号为σ。它告诉大家,数据中平均每个分数离平均值有多远。标准差越大,数据集的离散程度就越大。例如,两组数的集合 {0,4, 9, 15} 和 {5, 6, 7, 10} 其平均值都是 7 ,但第二个集合具有较小的标准差。

计算标准差的步骤通常主要有三步:计算平均值、计算方差、计算标准差。例如,对于一个有八个数据的数据集{7,13,15,18,20,24,30,31},其标准差可通过以下步骤计算:

1)计算平均值:

2)计算方差:

3)计算标准差:

方差(variance)是每个样本值与全体样本值的平均数之差的平方值的平均数,同样用来描述数据的离散程度,实际上就是标准差的平方,其符号为σ²。在统计学史上,方差早于标准差出现,但由于统计学家发现,方差和样本值不在同一个数量级内(因为是平方过来的),不便于比较样本值与偏差之间的关系。后来,统计家为了保证计算偏差值和实际样本值的单位统一(这个值和实际值的单位是平方关系) ,因此提出了把这个值再开平方一次,以保证它和样本值同样是一次幂单位。

以上面的数据集{7,13,15,18,20,24,30,31}为例:

如果以统计变量来说,描述性统计又可以分为单变量描述性统计、双变量描述性统计以及多变量描述性统计。

所谓单变量描述性统计是每次只关注一个变量的数据。下面本文举一个单变量描述性统计的集中趋势度例子,使用集中趋势度量的多种差异度量方法分别检查每个变量的数据是很重要的。像SPSS和Excel这样的软件工具或自己编写Python、R小程序都可以很容易地计算数据集的差异(离散)评价数值。

例1中采取到一年内访问图书馆次数的数据集{3,3,8,7, 14,18,20, 25, 22, 15, 9, 5,20,31},那么对它进行集中趋势度则有:

Small tips:在对数据进行统计分析时,如果研究者只考虑平均值作为中心趋势的度量,那么数据集的中心可能会被异常值所扭曲,这与中位数或众数不同,比如像“某研究团队的张三和李四月薪3K,王五月薪100W”,那么这个研究团队的平均月薪为33万一样。

同样道理,虽然极差(全距)对极值很敏感,但也应考虑标准差和方差,以获得比较准确的差异(离散)度量。

双元描述性统计和多元描述性统计在收集了不止一个变量的数据时,可以使用双元或多元描述性统计来探索它们之间是否有关系。

在双变量分析中,同时研究两个变量的频率和变异性,看它们是否同时变化。在进行进一步的统计测试之前,还可以比较这两个变量的中心趋势。多元分析与二元分析相同,但有两个以上的变量。

双元描述性统计描述的一个重要工具就是列联表(Contingency Table)。列联表又称为条件次数表、情形分析表,它对一组数据用两种不同方法进行分析的行和列组成。在列联表中,每个单元格表示两个变量的交集。通常,自变量(如性别)沿纵轴出现,因变量沿横轴出现(如活动)。阅读表格时,可以观察到自变量和因变量是如何相互关联的。例如,过去一年图书馆的参观次数根据性别来进行统计。

Number of visits to the library
in the past year
Group 0–4 5–8 9–12 13–16 17+
Men 38 66 34 82 20
Women 36 48 43 63 22

Small tips:当原始数据的数值转换成百分比时,SCI论文读者理解列联表会更容易。百分比使得每一行看起来好像都有相同的100个被观察者或被调查者,从而使每一行与另一行具有可比性。在创建基于百分比的列联表时,在末尾为每个变量添加一列为样本总量N。

Visits to the library in the past year 
(Percentages)
Group 0–4 5–8 9–12 13–16 17+ N
Men 18% 37% 20% 13% 12% 240
Women 15% 20% 18% 35% 11% 235

从上面这张表中可以更清楚地看出,相近比例的喜欢泡图书馆的男性和女性每年都要去图书馆17次以上。此外,男性去图书馆的次数通常在5到8次之间,而女性则在13到16次之间。

对于双元及多元数据统计描述的一个重要工具是散点图(Scatter plots)。散点图是用来表达两个或三个变量之间关系的图表。这是一种关系强度的视觉表现。

在散点图中,沿x轴绘制一个变量,沿y轴绘制另一个变量。每个数据点由图表中的一个点表示。

下面介绍一个散点图示例。以例1中参观图书馆和电影院的描述统计,需要在调查数据中了解那些经常去图书馆的人是否倾向于少去电影院看电影。散点图可以设计为,沿x轴是电影院观看电影次数,沿y轴是访问图书馆读书的次数。

从散点图可以看出,随着电影院里看电影的数量减少,图书馆的访问量也随之增加。基于对可能的线性关系的可视化直观评估,研究者可进一步对数据进行的相关性分析和回归测试。

用好统计学方法,是撰写SCI论文的利器!最迟写成于万历年间的《增广贤文》 有言:“画龙画虎难画骨...”,这句话凸现了透过现象认识本质是很难的,那么SCI论文中的描述性统计部分常常可以让我们降低一下这种难度。

作者简介:晨星,男,湖北武汉人,副高职称,理学博士,高级程序员,IAMG(国际数学地球科学协会)会员,省级医学人工智能与大数据专委会委员,部级行业智库特约研究员。

(0)

相关推荐

  • 问卷调查常用的SPSS数据分析方法(上篇)

    在介绍了问卷设计应注意的问题.量表类问卷及非量表类问卷题项设计后,接下来面临的将是问卷数据分析问题,有很多非统计专业的同学也都在问这个问题,爱马君将结合实例详细讲解问卷数据常用的SPSS统计分析方法, ...

  • 不要再问统计学了!

    大家好,我是宝器! 昨天在知乎看到一个问题:从零开始学数据分析,什么程度可以找工作,如何计划学习方案? 提问者背景是:在coursera 上面学data science 中的R programming ...

  • 干货 | 利用SPSS进行高级统计分析第一期

    作者:彭彭 Hello, 这里是行上行下,我是喵君姐姐~ 你是否还在为分析实验数据而感到头疼?你是否还在苦于自己不知道如何选择合适的模型来分析数据? 本期我们就来为大家带来了利用SPSS软件进行高级统 ...

  • 每个数据科学家都必须了解的5大统计概念

    统计和数据科学的重要支柱 任何数据科学家都可以从数据集中收集信息-任何优秀的数据科学家都将知道,扎实的统计基础可以收集有用和可靠的信息. 没有它,就不可能进行高质量的数据科学. > Photo ...

  • 医学统计学考前复习提纲

    第1章 绪论 一.名解 1.Statistic统计量:由样本观测值获得的统计指标称为统计量. 2.Statistics统计学:收集.分析.解释与呈现数据资料同时处理数据中变异的一门学科. 3.Medi ...

  • 六西格玛绿带+黑带教材(第3部分:统计概念)

    第3部分:统计概念 目的: 复习基本的统计学概念. 目标: 解释以下基本统计概念. 1.  误差 2.  连续数据和离散数据 3.  平均值.方差.标准差 4.  正态曲线 5.  用Z值将数据标准化 ...

  • 重磅干货!SCI论文中摄氏度°C符号的正确输法

    大家可能知道中文的摄氏度是一个字符,而且输入方法比较简单,可以用搜狗输入法,还可以输入 'sheshidu',第五个一般就是℃,甚至可以在网上或文献中复制粘贴.而英文的摄氏度°C 却是两个字符,前面一 ...

  • SCI论文中摄氏度°C符号的正确输法

    大家可能知道中文的摄氏度是一个字符,而且输入方法比较简单,可以用搜狗输入法,还可以输入 'sheshidu',第五个一般就是℃,甚至可以在网上或文献中复制粘贴.而英文的摄氏度°C 却是两个字符,前面一 ...

  • SCI论文中如何掌握好主动语态与被动语态的界线

    在sci论文中,很多学者会因为语言习惯的问题,大量的使用被动语态.然而,随着观念的不断进步,主动语态已经逐渐成为学术论文首选的语态形式.今天,小编就和大家讨论讨论在SCI论文写作中如何掌握好主动语态与 ...

  • sci论文中图片上传注意事项

    写sci论文,少不了要用图片来展现相应内容,就无法避免会遇到上传图片的问题.为解决上传图片问题,避免因图片上传出错误,被退回反复修改,我们需要了解sci论文中图片上传注意事项,知实学术网整理汇总了一些 ...

  • 收藏!如何在SCI论文中转述和总结别人的论文和成果

    SCI论文写作离不开前人的研究,在自己的论文中引用别人的研究也是一个很有技巧的工作.但是,你知道该如何正确引用他人的研究吗?本期,笔者就来和大家聊一聊SCI论文写作的另一个套路--如何在自己SCI论文 ...

  • 如何在SCI论文中转述和总结别人的论文和成果

    SCI论文写作离不开前人的研究,在自己的论文中引用别人的研究也是一个很有技巧的工作.但是,你知道该如何正确引用他人的研究吗?本期,笔者就来和大家聊一聊SCI论文写作的另一个套路--如何在自己SCI论文 ...

  • 【原创汇总】stata中描述性统计表格的输出

    导读: 描述性统计通常对收集来的数据进行直接的频率.频数等描述,描述性统计分析一般对样本的最小值.最大值.平均值.标准偏差等进行分析,这些数据有助于了解样本数据特征,能够清晰的看到各个统计量的分布情况 ...

  • JASP统计软件在国内科研论文中的使用跟踪

    小兵给大家搜集有关JASP统计软件在国内期刊论文中的使用情况,以供大家了解JASP的成长过程. [1]胡传鹏, 孔祥祯, Eric-Jan Wagenmakers,等. 贝叶斯因子及其在JASP中的实 ...

  • ​SCI论文发表中wos号和doi号的区别

    学术论文发表必须要被数据库检索收录才是对论文价值的最大肯定,对于SCI论文发表来说就更为关键了,国内很多单位对SCI论文的考核就是以检索为标准,见刊与否就不是那么重要了,SCI论文的检索有相应的编号, ...