中国司法文明指数调查数据挖掘报告(2014)
上QQ阅读APP看书,第一时间看更新

前言

《中国司法文明指数报告2014》通过对9个省市司法文明状况进行实地动态监测,从普通人的视角,调查和评估可能影响人民群众日常生活的司法文明状况、展现司法文明程度的综合指标,以直接调查数据为基础,以直观图形呈现和反映了人民群众对本地司法文明发展的满意程度。我们从统计方法、数据深度分析、原始数据质量判断和基于面板数据的深度挖掘展望四个方面介绍本项目的数据挖掘工作方案。其中,统计方法部分主要就数据挖掘的常见手段,即频数分析、交叉分析和比较分析三种方法做出简要介绍;数据深度分析部分则以具体题目为例,就主体问题间交叉分析及不同受访人群间答案比较分析的步骤与意义进行简单介绍;原始数据质量判断部分则主要围绕数据质量的分析、筛选及其可能隐含的内在规律予以展开;基于面板数据的深度挖掘展望部分着重介绍如何依托多年连续数据,发现隐藏在数据下的内在联系,揭示我国司法文明的内在特点,进而帮助各地司法部门有针对性地进行建设与改革。

一、数据挖掘采用的统计方法

(一)频数分析

调查问卷中的任意问题均可做频数分析,从而便于统计受访者面对各项问题的主观感受及倾向。

(二)交叉分析

1.主体问题和受访者属性间的交叉分析

通过对主体问题答案和受访者自身属性之间关联分布的深入挖掘,探究问卷调查结果中是否具有群体性特征。

2.主体问题间的交叉分析

通过对不同主体问题间的关联分布的深入挖掘,可达成以下三种目的:

a.检验问卷抽样是否具有代表性;

b.检验受访者对待问卷的认真程度;

c.深入挖掘数据背后隐含的受访者主观感受。

(三)比较分析

通过对同一主体问题不同受访人群答案的分布情况进行比较,描述数据间对应关系,进而挖掘不同群体受访者主观感受间的异同。

鉴于频数分析、基于主体问题和受访者属性间交叉统计的分析方法较为基础,实现方式较为简单,它们多被用于客观描述调查数据所反映的表层现象及题目间可能存在的浅层关联,相关结论可参考零点公司《2014中国司法文明指数报告》,本文对此不再赘述。

本文将重点阐述如何凭借主体问题间交叉分析、比较分析和基于面板数据的数据挖掘等统计分析手段,深入研究中国民众主观意愿与司法系统客观行为间的内在联系及深层规律。我们通过对5张问卷合计191道主体问题的深入挖掘,可得到至少400项有意义的统计分析结果。

二、数据深度分析

现仅以“公众卷”为例,通过对该问卷中36道主体问题进行深入挖掘,至少可得到有意义的交叉分析35项,数据比较分析74项(其中仅“公众卷”内部问题比较分析52项,和其他各卷相关问题比较分析22 项)。以问卷中A3及A4题为范例,简要阐述数据挖掘过程。

image

A3.您曾经在学校、工作单位或社区等接受过哪种普法教育? 【可多选】/A301-A308

参加普法宣传讲座…………1

浏览网络、微博等自媒体的法治新闻…………5

收看(听)电视台或电台法制节目…………2

旁听法庭审判…………6

阅读报刊上的法制栏目或文章…………3

学校、单位或社区设有普法宣传专栏…………4

其他【请注明】______

1.探究普法教育形式与民众听审经历间的内在联系

A1. 您曾经去过法院旁听审判吗?【单选】/A101

从未去过…………1

去过…………2

经常去…………3

假设在收到的480份调查问卷中,以普法教育手段(A3)的各选项选择情况为区分条件,分析接受不同形式普法教育的民众所具有的听审经历分布特性,通过交叉统计得到表0—1:

表0—1普法教育形式与听审经历交叉分析表

1

续前表

2

以普法手段为横坐标,占总数比为纵坐标可得图0—1:

image

图0—1 普法教育形式与听审经历交叉分析图

数据挖掘分析:

(1)电台/电视台的法制节目和自媒体法制新闻是S省民众最主要的法制知识来源,占72.68%,而从对民众听审经历的影响力来看,法制节目的效果略胜于自媒体新闻;

(2)普法讲座和宣传专栏的影响人数大致相当,但从对民众听审经历的影响力来看,普法讲座的效果远胜于宣传专栏。

2.探究普法教育形式与民众审判参与意愿间的内在联系

A2. 如果有当人民陪审员的机会,您愿意参与法庭审判吗? 【单选】/A201

不愿意…………1

愿意…………3

不太愿意…………2

非常愿意…………4

假设在收到的480份调查问卷中,以普法教育手段(A3)的各选项为区分条件,分析接受不同形式普法教育的民众,在审判参与意愿上所呈现的分布特性,通过交叉统计得到表0—2:

表0—2普法教育形式与审判参与意愿交叉分析表

3

以饼状图描述各项普法手段的分布状况,柱状图表示接受同一形式普法教育的民众中司法审判参与意愿的分布状况(见图0—2):

数据挖掘分析:

(1)电台/电视台的法制节目和自媒体法制新闻是S省民众最主要的法制知识来源,占72.68%,而从司法审判参与意愿来看,法制节目的效果远胜于自媒体新闻;

image

(2)在各项普法教育手段中,旁听过司法审判的人数最少,但是在此类人群中,司法审判的参与意愿较高。

3.探究普法教育形式与民众诉讼意愿间的内在联系

A4. 在您所在地区,当矛盾双方无法通过协商、调解等方式解决纠纷时,人们会到法院起诉吗?【单选】/A401

都会…………1

一般会…………2

几乎不会…………4

涉及重大利益时才会…………3

不会…………5

假设在收到的480份调查问卷中,以普法教育手段(A3)的各选项为区分条件,分析接受不同形式普法教育的民众,在司法诉讼意愿(A4)上所呈现的分布特性,通过交叉统计得到表0—3:

表0—3普法教育形式与诉讼意愿交叉分析表

4

以饼状图描述各项普法手段的分布状况,柱状图表示接受同一形式普法教育的民众中诉讼意愿的分布状况(见图0—3):

image

数据挖掘分析:

(1)绝大多数的S省民众,只有在涉及重大利益时方选择使用司法诉讼手段维护自身合法权利;

(2)在各项普法教育手段中,自媒体法制新闻是唯一一项对民众诉讼意愿起到消极作用的教育形式。

4.探究普法教育形式与民众司法实践参与意愿的内在联系

A1、A2和A4题分别反映了民众就旁听审判、参与审判和提出诉讼三项问题的意愿与倾向,从司法实践参与意愿的角度分析,三道题目表示了民众参与司法实践意愿的不断加强。由于假设数据本身基于常识构建,因而通过对此三题和普法手段(A3)间的交叉分析可以得到以下常识性结果:

(1)电台/电视台的法制节目和自媒体法制新闻是S省民众最主要法制知识来源,但从影响效果来看,法制节目起到了更为积极的宣传普及作用;

(2)普法讲座和法制专栏的影响人数大致相当,但法制讲座效果更好;

(3)旁听过司法审判的人数最少,但是在此类人群中,司法实践参与意愿较高。

而实际操作中,或因数据分布情况出现有违常识的统计结果,因而通过上述比较或将发现不同普法手段在不同司法实践参与度上呈现不同促进情况。针对不同地区所处的不同普法阶段,我们可因地因时制宜地选择不同的普法手段和样式,以促进当地民众司法参与度的提高,进而促进司法文明程度的提升。

5.探究普法教育形式与民众人文关怀程度间的内在联系

同理,我们仍以普法教育手段(A3)的各选项为区分条件,按照与上述例子相同的分析方法和步骤,还可继续分析接受不同形式普法教育的民众,在司法人文关怀问题(A18/A19/A19a/A20)上所呈现的分布特性。

A18. 如果某人在极度气愤的状态下杀死了自己的女朋友,事后他真诚地悔罪并积极赔偿。在这种情况下,您赞同判决该犯罪人死刑立即执行吗?【单选】/A1801

5

A19. 您所在的地区开过公开逮捕大会或公开宣判群众大会吗?【单选】/A1901

没有…………1

有…………2

A19a.【如果您在A19题选择了2“有”,请继续回答这一题】,对于在公共场所举行公捕、公判大会,您是持何种态度?【单选】/A19a01

坚决支持,就是要让坏人遗臭万年…………1

反对,这样做侵犯人权…………3

不关心,无所谓…………2

没有观点…………4

A20. 与传统的枪决方式相比,使用注射方式来执行死刑,罪犯遭受的痛苦较小,您认为应该用注射取代枪决方式吗?【单选】/A2001

反对,罪大恶极就该严惩…………1

不关心,无所谓…………2

支持,人道文明…………3

通过对相关数据的深度挖掘,可进一步探讨不同普法教育形式在司法人文关怀的不同侧面是否具有不同的效果,从而依据不同地区存在的不同司法人文关怀认识情况,因地因时制宜地选择不同的普法手段及样式,以提高当地民众的司法人文关怀认识,进而最终促进全社会司法文明程度的提升。

image

A4. 在您所在地区,当矛盾双方无法通过协商、调解等方式解决纠纷时,人们会到法院起诉吗?【单选】/A401

都会…………1

一般会…………2

几乎不会…………4

涉及重大利益时才会…………3

不会…………5

1.探究民众对法院的信任程度与法院的工作行为间的内在联系

在本卷中,问题A5、A8和A12分别描述了三种法院常见的不良行为,若将此三题和A4进行交叉分析,可深入研究民众诉讼意愿和法院工作行为间的内在联系。由于分析理论及实施步骤一致,故本文仅以A5为例模拟数据、制作图表,对A8及A12题则不再赘述。

A5. 在您所在地区,当事人如果到法院立案,是否会遇到无故刁难、无故拖延等衙门作风?【单选】/A501

经常会…………1

有时会…………2

完全不会…………4

几乎不会…………3

不清楚…………5

将A5题中选项1、2合并为“会”,将选项3、4合并为“不会”,选项5仍为“不清楚”。将A4的答题情况同合并后的A5进行交叉分析,得到表0—4:

表0—4民众对法院的信任程度和法院的工作行为间交叉分析表

6

以诉讼意愿为横坐标,占总问卷数的比例为纵坐标可得图0—4:

image

图0—4 民众对法院的信任程度和法院的工作行为间交叉分析图

通过对A4*A5,A4*A8,A4*A12三张交叉图表的综合分析,可探究“衙门作风”、“走过场”、“请客收礼”三种行为对民众诉讼意愿的具体影响程度,其结果可为各地法院整顿作风、提升形象提供方向性的数据支持,即帮助地区法院发现工作中具体存在的问题,从而有针对性地进行法院自身建设和形象提升,以达到提高当地民众司法参与度的目的,进而促进我国司法建设和法治文明。

2.探寻实际庭审经历对民众诉讼意愿的影响

公众诉诸司法的意识及程度作为“司法文化”下设的一项重要二级指标,其结果取决于民众的实际司法体验和社会信息供给两方面。其中,有司法体验者,其诉讼意愿很大程度上取决于其实际体验,即相关司法单位的实际工作情况;而无司法体验者,其诉讼意愿则完全受社会信息供给左右,即民众口碑及媒体报道。

零点公司在《2014中国司法文明指数报告》中描述了“公众诉诸司法的意识及程度”指标的数据分布情况。我们在其基础上,以实际司法体验为切入点,通过比较不同受访者在同一问题上主观认识的不同,尝试探讨民众司法体验不佳的主要原因,是法院在实际工作中本身存在的问题,还是因其社会信息供给不佳而造成公众形象的偏差。

(1)假设收到S省480份“公众卷”答卷,A24—36题的答题者为31.45%(150人,任意一组有答题的就算),将此150份答卷中A4的回答情况设定为集合Y,而未回答A24—36题段问卷中A4的回答设定为集合N,可得到下列数据(见表0—5):

表0—5假设S省实际庭审经历情况和诉讼意愿交叉分析表

image

该数据经比较分析可得图0—5:

image

图0—5 假设S省实际庭审经历情况和诉讼意愿交叉分析图

数据挖掘分析:

1)S省民众一般只在涉及重大利益时才会寻求司法手段的帮助;

2)在S省,具有司法经历的民众,其司法诉讼意愿弱于无司法诉讼体验者。即,民众日常所接触到的法院相关信息,相较于该省法院系统的实际工作情况更为积极正面。这意味着当地法院系统应在日后的自身建设中,将切实提高自身业务素质、端正工作态度和转变不良工作作风置于比媒体宣传更重要的位置。

基于“民众的司法体验在一定程度上抵消了诉讼意愿”这一结果的出现,还需进一步挖掘法院体系中造成不良司法体验的原因。

(2)深入探讨S省法院工作态度、作风习气和民众司法诉讼意愿之间的联系。

仍以是否回答A24—36题为划分原则,对问卷中A5/A8/A12三项数据结果进行比较分析,得到以下结果(见图0—6、图0—7、图0—8):

A5.在您所在地区,当事人如果到法院立案,是否会遇到无故刁难、无故拖延等衙门作风?【单选】/A501

经常会…………1

有时会…………2

完全不会…………4

几乎不会…………3

不清楚…………5

image

图0—6 假设S省法院衙门作风和民众司法诉讼意愿的交叉分析图

A8.在您所在地区,法院开庭审判“走过场”的可能性有多大?【单选】/A801

非常可能…………1

有可能…………2

完全不可能…………4

不太可能…………3

不清楚…………5

image

图0—7 假设S省法院“走过场”作风和民众司法诉讼意愿的交叉分析图

A12.在您所在地区,法官接受律师或当事人请客送礼的现象是否常见?【单选】/A1201

7

image

图0—8 假设S省法院接受请客送礼作风和民众司法诉讼意愿的交叉分析图

数据挖掘分析:

1)具有司法诉讼经验的民众中,认为法院具有衙门作风、庭审走过场的比例明显高于无诉讼体验者;

2)具有司法诉讼经验的民众中,对法官职业操守的认可度较无诉讼体验者更高。

此结果说明:①S省法院的实际工作作风及工作态度较差是导致民众司法体验不佳的主要原因;②相较于公众预期,该地区法官具有较强的职业操守。这意味着,S省法院为提高民众司法体验和司法参与度,不但需要切实端正工作态度、扭转工作作风,还需要加强媒体宣传力度,树立系统内严守职业底线、不为金钱所动摇的正面典型。

由此可见,通过数据挖掘分析,可针对不同地区的实际情况,有针对性地选择行之有效的方法进行法院自身建设和形象提升,以提高民众司法体验、加强民主诉讼意愿,进而达到促进我国司法建设和法治文明的最终目标。

此外,还可对回答了A24—36题的问卷,再按回答了A24—27、28—32、33—36题进行分类,了解参与过民事诉讼、刑事诉讼和行政诉讼的民众同未参与过司法诉讼的民众相比对当地司法系统的信任程度有何不同。

三、原始数据质量判断

在数据清洁、分析、挖掘的过程中,研究者往往有意或无意地发现受访者的反馈存在矛盾。究其原因,一方面是由于受访者填答过程不认真不严肃;另一方面是某些深层次的因果关系所反映出来的表层矛盾。通常的处理方法是将这部分样本剔除,以达到清洁数据的目的,但这样往往就失去了挖掘深层次问题的机会。因此,我们在传统清洁数据方法的基础上,尝试对“问题样本”进行深入探讨,从而最大限度保障样本数据的质量,同时挖掘样本数据隐含的信息。

1.判断数据采集严肃性

在某些极端情况下,通过对问卷调查结果的深入挖掘,不但能显示受访者所填问卷的严肃性,还能在一定程度上反映出隐含在数据下的某些内在联系。现假设在数据挖掘过程中,出现了和常理明显相悖的数据结果:

(1)在对A4及A14题的交叉分析中,发现了显著奇异点的存在。

A14.在您所在地区,法官办案过程中受到本地党政机关不当干涉的可能性有多大?【单选】/A1401

非常可能…………1

有可能…………2

完全不可能…………4

不太可能…………3

不清楚…………5

表0—6法官办案过程中受到不正当干涉和民众诉讼意愿交叉分析表

8

续前表

10

image

图0—9 法官办案过程中受到不正当干涉和民众诉讼意愿交叉分析图

依常理推断,当公民对法官办案公正性存疑的情况下,其诉讼意愿将会下降,但图中红色区域则代表该部分受访者在认为当地政府干预司法情况严重的同时,频繁使用法律手段维护权益。显然,该部分问卷的出现有违常理,故推断该组数据的出现可能源自以下两种原因:①该问卷在填写过程中不够严肃;②问卷调查者本人或其周围人群正是干预司法公正的干涉方。在此情况下,可通过对数据进一步挖掘,探讨数据出现的可能性。

(2)参考“问题问卷”中A16和A23题的回答情况,判定问卷严肃性。

A16.在您所在城市,您如果深夜1点钟在市中心行走,是否会感到害怕?【单选】/A1601

9

A23. 您对所在地区警察的整体形象如何评分:【单选】/A2301

90分以上…………1

50-70分…………3

71-90分…………2

50分以下…………4

依常理判断,同一受访者对A16和A23题的回答具有一定关联性,在深夜1点仍能放心地在市内行走的受访者,对当地治安的信心较强,从而对当地警察的工作效果多持肯定态度。因而若问卷中此两题答案出现明显偏离,则该问卷的严肃性值得怀疑。为保证调查结果的严肃客观,故对此类样本予以剔除。

2.进一步探讨:挖掘S省司法公正干预方的群体特征

以剩余“问题样本”为统计总体,对受访者的年龄、职业和教育背景做频数分析,深入挖掘S省可能干涉司法独立者的群体特征。

Z2.您的年龄:【单选】/Z201

24岁及以下…………1

25-34岁…………2

45-54岁…………4

35-44岁…………3

55岁及以上…………5

Z3.您从事的职业【单选】/Z301

高等院校、科研机构…………1

进城务工人员…………6

党政机关、事业单位…………2

农民…………7

企业…………3

离退休人员…………8

媒体、出版行业…………4

自由职业者…………5

其他【请注明】______

Z4. 您的文化程度:【单选】/Z401

初中及以下…………1

大学/专科…………3

高中…………2

研究生…………4

从下面三图所示数据分布中不难发现:

(1)特殊问卷主要集中在党政机关、事业单位中;

(2)特殊问卷的受访者年龄主要集中在45岁及以上;

(3)特殊问卷的受访者教育背景主要集中在专科及以上。

由此可见,显著奇异点的出现,或表示在同时具备上述三个特征的人群中存在在答卷过程中缺乏严肃性这一问题,或意味着此人群本身即为可能干涉司法公正性的高危人群。

image

图0—10 S省司法公正干预方的年龄特征频数分布图

image

图0—11 S省司法公正干预方的职业分布特征频数分布图

image

图0—12 S省司法公正干预方的文化程度分布特征频数分布图

四、后期研究展望

面板数据也称为时间序列横截面数据,是同时在时间和截面上取得的二维数据。面板数据从横截面上看,是由若干个体在一些时刻的截面观测值构成;从纵剖面上看,是一个个时间序列。区别于一般调查数据统计处理机构常用的数据面板分析方法,我们尝试采用建立面板数据模型的方式,充分利用时间序列和横截面单元的信息,不仅分析各序列和截面的共性,还可灵活地单独分析各序列和截面的性质,从而方便地解构、分析传统一维数据方法难以处理的复杂社会问题。

在本次调查中,若以多年连续数据为统计样本构建面板数据,通过对其进行深入挖掘分析,尝试发现隐藏在数据下的内在联系,进而揭示我国司法文明的内在特点。由于缺少实际数据,现以2014—2018年间我国法院作风、判决公正性和法院认可度间内在联系为例,通过文字形式简要概述其量化分析步骤:

1.面板数据集的构建

法院作风:主要依托问卷中A5、A8、A12题的数据结果;

判决公正性:主要依托问卷中A6、A7、A13、A14题的数据结果;

法院认可度:主要依托问卷中A4、A9、A15、A21题的数据结果。

通过对上述各题的回答进行不同赋值,得到各年中每一份问卷里每一道题的得分情况,再将各份问卷中的得分情况按题目和年份予以累加,以这些分数累加值为统计目标构建如表0—7所示的面板数据集。

表0—7面板数据集

image

依照数理统计理论,可方便地探讨任意行或任意列数据间的内在联系。下面以探讨民众对法院判决信任程度(A15题)的影响因子为例,进行统计分析。

2.通过单位根检验法分析数据平稳性

由于在进行时间序列分析时,或因伪回归问题造成分析结果失真,因而在进行数据分析之前,先要采用单位根检验法对数据的平稳性进行基本判断;即,对面板数据表中的各列数据分别进行单位根检验判断平稳性。

3.协整检验或模型检验

在进行各变量单位根检验后,若各变量均为同阶单整,则可通过协整检验法确定样本变量间存在的长期均衡关系;若发现变量间为非同阶单整,即发现面板数据中有些序列不平稳,则可通过对数据模型进行修正以消除数据不平稳造成的不利影响。

通过该步骤,可以发现具体哪些项目和A15项存在长期均衡关系,即确定哪些因素和民众对法院判决的信任度之间存在相关性。

4.面板模型的估计

此步骤的主要目的在于确定适合的数据分析模型,便于对调查数据展开分析。直接作用就是找出相关变量间的具体关系,建立实证模型。假设经分析可得到数据模型:

Ytt5tX5t6tX6t+……+β14tX14t21tX21tt

式中,Y代表判决信任度,X代表其他因素,t为时间标识。

5.向量自回归

此步骤的主要目的在于判定建立的数据模型是否合理,并分析随机扰动对变量系统的动态影响。即,若上式通过向量自回归检验则表示,对该地区而言,无论是短期还是长期,相关题号所代表的内容都是作用于民众对法院判决信任度的影响因子,且其对应的β值便为相应贡献度。

由此可见,面板数据分析可帮助探索、确认法院的哪些实际行为以及民众的哪些主观感受可能影响当地民众对司法判决的信任程度,揭示出隐藏在数据下的内在因果联系,并直接量化其影响力大小,从而帮助地方法院找到影响自身公信力的主要问题,进而有针对性地进行建设与改革,最终起到推进我国司法文明进程的作用。

缩略语词表

image

专业词汇表

1.频数分析:频数也称次数,是对总数据按某种标准进行分组,统计出各个组内含个体的个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。频数分析即对于一组数据,考察不同的数值出现的频数,或者数据落入指定区域内的频数。

2.交叉分析:又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。

3.相关性:是在分析某个问题或指标时,将与该问题或指标与其他问题或指标进行对比,分析其相互关系或相关程度的一种方法。

4.相关系数:相关系数r是衡量相关程度的指标,取值范围为[-1,1],r>0表示正相关,r<0表示负相关,|r|表示了变量之间相关程度的高低。特殊的,r=1称为完全正相关,r=-1称为完全负相关,r=0称为不相关。通常|r|大于0.8时,认为两个变量有很强的线性相关性。

5.正相关:是指两个变量变动方向相同,一个变量由大到小或由小到大变化时,另一个变量亦由大到小或由小到大变化。

6.负相关:指两列变量变动方向相反,一列变量由大到小或由小到大变化时,另一列变量反而由小到大或由大到小变化。

7.弃真型错误:假设检验的目的是要根据样本信息作出决策。显然,研究者总是希望能作出正确的决定,也就是当原假设正确时没有拒绝原假设。但是由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误。假设检验过程中可能发生,当原假设为真时拒绝原假设,这便称为弃真型错误。image