【1.3.5】Excel 作图操作

一、饼图

饼图(pie chart)是用圆形和圆内扇形的面积来表示数据值大小的图形。每个圆形面积 代表 100%,圆内扇形面积表示各组成部分的数据占全部数据的比例。

【例 3.5】根据数据集 01 中的数据,绘制 2011 年三次产业增加值的饼图,以反映产业 的结构比例。

【解】图 3.17 是 Excel 工作表与制图结果的部分截图。

Excel 解决方案:

  1. 打开文件或者键入数据,准备好建立图表的数据
  2. 调用菜单“插入”—“图表”或单击“常用”工具栏中“图表向导 ”按钮
  3. 如图 3.16 所示的“图表向导”,选择饼图第二个子类型,按“下一步”
  4. 数据区域选点 B1:D2,按“下一步”
  5. 填写标题、选择图例位置、选择数据标志的表现方式,按“下一步”
  6. 选“作为其中的对象插入”,按“完成”后即在工作表中生成一个粗糙的立体饼图 7 输出图形的初始状态较难看,双击感觉不满意的地方,进行修饰

饼图多用于表现分类数据,并且适合分类较少的情况。如果有太多的类别,图形就不太 好看。

二、条形图

条形图(bar chart)是用宽度相同的条子的高低或长短表示数据变动特征的图形。条形 图可以横置也可以竖置,有单式、复式和分段式等多种形式。

【例 3.6】根据数据集 03 中的数据,我们汇总 2011 年度考核的情况如表 3.4,绘制条 形图

【解】图 3.18 与图 3.19 是 Excel 工作表与制图结果的部分截图。

Excel 解决方案:

  1. 打开文件或者键入数据,准备好建立图表的数据
  2. 调用菜单“插入”—“图表”或单击“常用”工具栏中“图表向导 ”按钮
  3. 如图 3.16 所示的“图表向导”,选择“柱形图”的第一个子类型,按“下一步”
  4. 数据区域选点 A1:B6,按“下一步”
  5. 填写标题、选择图例和数据标志等,按“下一步”
  6. 选“作为其中的对象插入”,按“完成”后在工作表中生成一个粗糙的竖着的条形图 7. 双击感觉不满意的地方,进行修饰 我们还可以在“图表向导”中选择“条形图”来绘制横着的条形图,方法类似

##三、直方图、折线图与曲线图

【例 3.7】上一章完成了树苗高度的次数分布表,根据表 2.2 的数据绘制直方图、折线 图和曲线图。

【解】

(1)直方图(histogram)是在平面坐标上, 以横轴根据各组组距的宽度标明各组组距, 以纵轴根据次数的高度标示各组次数绘制成的统计图。纵轴的左侧标明次数,右侧标明频率, 如果没有频率,直方图只在左侧标明次数。如图 3.20 所示。

图 3.20 是依据等组距式变量数列绘制的直方图。对于不等组距式变量数列,由于组距 不同,频数的差异不能直接表明变量分布的特征。绘制直方图时,应先计算出各组的频数密 度,之后再以组距为宽度,以频数密度为高度绘制,频数密度=频数÷组距。所以从表面上 看,是以直方条的高度表示次数,但实际上直方图是以面积来表示次数的。

条形图和直方图很相似,但两者是有区别的:条形图的“条”是可以分开的,而直方图的“条”是紧靠在一起的;条形图用高度(或长度)表示次数,多用于反映分类数据,直方 图用面积表示次数,多用于反映数值型数据。

(2)折线图(polygon)是在直方图的基础上,用折线连接各个直方形顶边中点,并在 直方图形两侧各延伸一组,使折线与横轴相连。也可根据各组组中值与次数求出各组的坐标 点,并用折线连接各点而成。折线所覆盖的面积等于直方图条形的面积,表示总次数。图 3.21 是根据直方图图 3.20.基础上绘制的折线图。

(3)当变量数列的组数非常多时,折线便趋于一条平滑的曲线,它是一种概括描述变 量数列分布特征的理论曲线。曲线图是连续型随机变量频数分布常用的形式。曲线图绘制的 方法出在折线图的基础上,将连接各组次数坐标点的折线加工修匀为比较平滑的曲线,如图 3.22 所示。

从直方图到折线图再到曲线图这样的作图路线,是我们获得现象分布状态的一般方法。 有些现象的分布状态是相对固定的,比如人口的死亡率的曲线一般都是 U 字型的,又称为 浴盆曲线;经济学中的供给曲线是正 J 字型曲线,表现随着价格的增加,供给量以更快的速 度增加;需求曲线是倒 J 字形曲线,表现为随着价格横轴的增加,需求量以较快的速度减少。 正态分布曲线是一个左右完全对称的倒 U 字型,即钟型曲线,但大部分现象所呈现的状态 还是像上例中的倒 U 字型,但往往会或左或右地有些偏斜,具体的计量将在下章论述。

我们还可以用折线图来反映累积频数或频率的状态,这类图形中最著名的是洛伦茨曲线(Lorentz curve),它反映了收入分配的公平与否。

四、茎叶图与箱线图

【例 3.8】根据数据集 03 中提供的“薪水”数据,用 SPSS 绘制茎叶图与箱线图。(SPSS 数据文件编号:data3_08)

【解】 用 SPSS 可以方便地绘制茎叶图与箱线图,还可以方便地得到直方图。

SPSS 解决方案:

  1. 调入 SPSS 数据集 Data3_08
  2. 选择菜单“分析-描述统计-探索”,把“薪水”移入“因变量列表”框,见图 3.23
  3. 点“绘制”按钮,可看到“箱图”和“茎叶图”已被选中,可以再选中“直方图”
  4. 按继续,在输出栏中选“图”后按确定

先看茎叶图(Stem-and-Leaf Plot),它的思路是将数组中的数按位数进行比较,将数的大 小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主 干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少,它比直方图 保留了更多原始资料的信息。将茎叶图逆时针方向旋转 90 度,就是一个直方图,见图 3.24。

再看箱图(Boxplot),它由三部分组成,第一部分是矩形框,箱图的主体,下中上三条 线分别表示变量值的第一、第二和第三四分位数,变量的 50%的观测值落在这一区域中; 第二部分是触须线,中间的纵向直线,除奇异值和极值以外的变量值称为本体值,上端横线 是本体值的最大值;下端横线是本体值的最小值;第三部分是奇异值和极值,奇异值,使用 “o”标记,超出 1.5 倍四分位差;极值,使用“*”标记,超出 3 倍四分位差。可见,箱图 的作用是帮助我们识别数据中的异常值。

“薪水”的箱图告诉我们,有两个数据是低于本体值的奇异值,编号分别是 466 和 265, 265 对应的数值是该数据组的最小值;高于本体值的数据很多,不仅有奇异值,还有极值, 其中最大的极值是编号为 35 的,它也是该数据组的最大值。请查看编号 265 和 35 对应的数 值,另外什么是四分位数和四分位差将会在下章介绍。

最后一提,由于在菜单中选中了直方图,因此得到图 3.26。该图反映了薪水的分布状态, 因为较高的薪水较多,所以以最高的直方条为界,右边的数据多于左边的数据,这就是分布 右偏,具体的测度也会在下章介绍。

教师:无论是制表还是制图,Excel 和 SPSS 都为我们准备了良好的操作平台,大家一定要多 练、多实践,它能提高我们处理数据的效率,事半功倍。

参考资料

  • 《统计学》 南京财经大学 陈耀辉、王芳、王庚、韩中、张艳芳、黄莉芳
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn