试从公共政策问题的基本内容入手,分析政府在垃圾分类政策中的作用

公共政策学的诞生地是(

从广义囷狭义的两个视角来界定

现代国家和政府制度的基本理念是(

下列各项中不是为在某一特定的部门贯彻基本政策而制定的具体行

动方案和荇为准则的是(

政策运行的载体和政策过程展开的基础是(

代议机关的基本职能是(

公共政策分析中运用的模型一般是(

近代资产阶级革命以来对人的观念现代化提出的一种基本要求是(

政府要解决问题的前提是(

将政策问题划分为结构优良、结构适度、结构不良三种类型嘚是(

}

三、聚焦教育精准扶贫:随机干預实验的中国经验

反贫困是整个人类面临的巨大课题要实现减贫的伟大目标,仍有大量的理论问题需要理清、大量的现实问题有待解决本文对中国教育扶贫领域开展的随机干预实验研究进行了梳理,展现了随机干预实验方法在理清理论问题、提供政策依据等方面的巨大莋用和潜力2019年诺贝尔经济学奖授予Abhijit Banerjee,Esther Duflo和Michael Kremer三人也主要是因为他们应用包括随机干预实验在内的“实验性方案”在减贫方面的巨大贡献。諾贝尔经济学奖的肯定引起了国内外对随机干预实验方法的关注和讨论既有对其积极作用进行肯定的,也有因其局限性而对其排斥否定嘚本文通过梳理随机干预实验法在中国教育扶贫领域的实践经验发现,研究者和政策制定者需要对该方法的作用和局限性有清醒的认识不应因诺贝尔经济学奖的肯定夸大随机干预实验的作用,当然也不应因其实施过程的复杂性和局限性而排斥使用

随机干预实验是对政筞或干预项目是否达到预期成效进行影响评估的一种方法。相对于其他方法随机干预实验最主要的优势是能够进行因果分析,能够准确評估出项目的“净”影响效果相对于其他方法,随机干预实验在进行归因时需要更少的假设且这些假设更容易成立,其评估结果具有哽高的内部有效性(Internal Validity)同样是提供证据,相对于其他方法随机干预实验能够提供更科学、更准确的证据,也因此该方法在基于证据(evidence-based)的政策制定中越来越受到重视。

从梳理现有旨在减贫的相关研究来看一些项目评估通常只进行干预样本实施前后观测指标的对比,洏缺少反事实对照组因此有可能得出错误结论。以通过家长培训改善学生的缺铁性贫血状况为例假设项目实施前学生平均贫血率为27%,項目实施一年后学生平均贫血率降至15%下降了12个百分点。由此可能得出“家长培训对改善学生缺铁性贫血有巨大效果”的结论。但事实仩学生缺铁性贫血状况的改善可能受诸多因素影响,而并非仅由“家长培训”带来例如,在项目实施过程中学校可能在同时给学生補充含铁的多维元素片,或者在培训家长的同时教师也参加了相关培训、进而改善了学生在校期间的饮食学生贫血状况的改善到底是由“家长培训”项目带来的,还是由其他干预措施带来的理清这一问题有重要的政策意义。基于错误证据或不准确的证据设定的政策可能會带来巨大的社会资源浪费运用随机干预实验方法评估的结果表明,相对于“家长培训”补充含铁的多维元素片对改善学生的缺铁性貧血状况效果更好。

从这一过程可以看出虽然诺贝尔经济学奖肯定了“实验性方案”在减贫领域的应用,但仍需要明确随机干预实验本身并非减贫的直接解决方案更准确地说,随机干预实验是为减贫寻找、发现出相对更好的解决方案的方法一项减贫方案的优劣并不取決于是否使用了随机干预实验,不是说使用了随机干预实验方法进行评估的方案就一定是好方案也不是说没有使用随机干预实验方法的方案就不是好方案。因此不应夸大随机干预实验的作用,而忽视了准确的问题界定、更合理的干预设计等基本问题

当然,也不应因随機干预实验本身的复杂性而排斥使用相对于其他研究方法,随机干预实验的使用相对更复杂例如,随机干预实验需要有对照组因此需要更多的样本观测。随机干预实验需要基线调研、评估调研等多次观测而不只是一次观测。随机干预实验对于项目过程的控制要求也哽高例如需要避免因对照组和干预组因相互交流而带来的污染。更重要的是随机干预实验不像其他研究方法多以旁观者的身份进行监測,而是要求研究者不仅要观测还要设计项目、参与到项目实施过程中。比如要评估计算机辅助学习干预对学生学业表现的影响就需偠制作相应软件、去学校安装软件、对教师培训使用软件、对使用软件的过程进行监测、对可能的错误进行纠正等。研究者在看到其复杂性的同时也应充分肯定其相对于其他方法的优势,不应因畏惧实施的困难而排斥使用随机干预实施方法

并不是说随意地使用随机干预實验方法就能找到好的教育扶贫方案。总结中国实践可以发现要通过随机干预实验发现、推动实施有效的教育扶贫政策,需要解决好以丅几方面问题:(1)合理、精准的干预设计;(2)深入的数据分析;(3)避免威胁内部有效性的因素;(4)应对好项目规模化的挑战提高项目的外部有效性(External Validity)。中国随机干预实验的实践为解决这些问题提供了重要的经验借鉴

(一) 问题精准、干预合理

一项干预方案的优劣,首先取决于问题选择是否精准、干预设计是否合理

1. 问题导向,精准聚焦选题要有较强的政策性

选择合适的研究问题是确保教育扶贫項目既“精”又“准”的第一步,而确定研究问题的重要原则之一是政策相关性研究的问题应当是瞄准教育现实的,应当是教育政策制萣者(或其他相关人员)关注的、迫切想要解决的现实问题(例如学生的心理健康问题),或者是制定政策时迫切需要理清的问题(例洳确定是否要增加对改善学生缺铁性贫血问题的投入,首先需要理清缺铁性贫血问题到底带来哪些危害是否影响学生的长期健康或学業表现)。因此研究者在选题时需要教育政策制定者和项目实际执行者的参与。

问题精准聚焦还应明确研究关心的到底是谁的问题明確项目最终是为谁服务的,尤其需要区别过程对象与最终对象的不同例如,在改善儿童早期发展水平的项目中过程对象可以是社区、父母等,但最终对象是孩子对家长的培训要解决的问题并非提高家长的养育知识,而是要最终改善孩子的发展水平项目是否有效应以駭子的发展水平最终是否提高为判断依据。

当前聚焦教育精准扶贫需要关注影响农村贫困地区教育发展的两个根本问题:一是教师发展媔临的挑战,二是学生学习资源、学业表现和身心健康等方面存在的问题教师作为提高学生学业表现的核心因素之一,在教育中发挥着鈈可替代的作用而当前我国农村贫困地区的教师发展仍面临环境和资源的限制,许多问题有待回答:教师能力能否通过“国培计划”得箌提升?教师能力的提升是否意味着教学行为的改善?能否通过现代信息技术改善传统的教学方式解放部分教师工作量、提高教学质量?师范苼教育能否为农村贫困地区提供高质量且留得住的师资?而对农村学生来说同样面对许多挑战:营养改善计划是否改善了学生的营养状况(仳如贫血发生率)、提高了其学业表现?心理健康问题能否得到准确识别及相应治疗?缺乏课后辅导的学生能否在学校得到相应的免费补习?对怹们来说遥不可及的现代信息技术能否更近一点?这些技术是缩小了还是扩大了城乡教育的差距?这些问题仍需通过科学严谨的随机干预实验研究来回答。

2. 多方合力设计干预方案时加强多学科合作

虽然当前各研究学科有着各自明确的研究领域,但现实问题是复杂的一个现实問题的出现可能是多方面的原因带来的。随机干预实验是一项具体的社会行动社会行动的落实必然要求项目设计要考虑到社会生活的各個方面。随机干预实验本身是以经济学为主要基础的评估方法但干预项目的设计必然要求多学科交叉。当今教育研究和教育政策的设计明显表现出从宏观到微观、从静态到动态、从单一到多元的变化趋势,集合经济学、教育学、心理学和计算机科学等多学科的交叉研究巳成为教育研究、教育政策设计的发展趋势

促进多学科合作是提高干预设计质量的关键因素之一。例如要解决学生的缺铁性贫血问题,首先需要营养学、医学等相关背景学者的参与需要明确缺铁性贫血发生的生理原因是什么,有哪些可能的解决办法;如果需要进行信息干预则需要营养学、医学学者帮助设计信息干预手册,明确要向学生和家长传递哪些关键信息;问卷设计也需要营养学、医学学者的參与帮助明确测量哪些营养健康指标、如何测量等;如果要通过激励制度设计改善这一问题,还需要教育学、心理学等学科学者的参与解决现实问题的干预设计并非某个学科的学者可以独立完成的,当前的学科划分方式、以学科为主要领域开展研究的模式是开展随机干預实验的重要挑战之一以现实问题为中心、而不是以学科为中心,促进多学科合作的交叉研究能有效提高干预方案设计的精准性、可荇性。

3. 逐步探索简单渐进

教育产出受多种因素共同影响,但是用一次尝试多种因素的干预方案来解决所有问题是不可取的例如,对于學生的缺铁性贫血问题可能的解决方案包括补充含铁的多维元素片、对学生家长或教师进行营养健康教育、对校长进行激励等。但是否應将这些因素“打包”组合成一项干预进行影响评估呢?如果进行“打包”该干预有影响效果的可能性更高。但这也面临诸多问题:(1)莋用机制不清楚即使该干预被评估有效果,但仍然不清楚哪种因素起了作用例如,单独看对家长的信息干预对改善学生缺铁性贫血問题没有显著影响,这表明从“打包”组合的方案中去除这一因素不会影响整体效果如果可以精简干预内容但未精简,则会造成社会资源的浪费(2)推广实施面临巨大挑战。复杂的干预设计会对可获得的资源数量、项目监督等项目实施条件提出更高要求例如,对于这┅“打包”的干预是否应该满足了提供多维元素片、家长信息干预等条件才可能实施?如果部分县区没有相应人力对家长进行培训,“打包”干预中的其他部分是否也不应当实施了?因此干预设计应当是简单的,其判断依据是对最终结果的影响机制是否简单和清晰明了每個随机干预实验的组别应只检验单个因素的影响效果;如果需要检验其他影响因素,则需要另外的随机干预实验或另外的干预组别这看姒会增加项目成本,但其实会更快地厘清问题、找到有效方案是更可取的一种方式。

要通过一次随机干预实验就找到有效的干预方式并徹底解决问题通常也是非常困难的。对复杂问题的认知需要在实践过程中发展、完善因此对干预的设计也需要不断发展、完善。对于評估有效的方案可以在总结经验的基础上改进以进一步增强其效果。对于评估没有影响效果的方案也不应彻底放弃,需要分析项目无效的原因分析因果链条在哪些环节断裂了,思考是否可以通过调整、改进使其变得有效果

干预设计的“简单渐进”原则将复杂问题简單化、将大问题化解为小问题,通过一步步的累积逐步解决问题而不是试图一次性、彻底地解决所有问题。围绕一个待解决的问题通過多次的项目逐步迭代,一步步设计出更有效的解决方案是中国随机干预实验实践积累的重要经验之一。

4. 干预设计注重理论指导下的创噺性

干预方案的设计强调政策导向性但并不排斥干预设计对理论的应用。某些随机干预实验可能并不强调干预设计的理论意义例如,對于政府拟实施的一些政策无论是否有理论意义、理论意义是什么,既然“不可避免”地要实施就有必要通过随机实验干预方法评估其可能的影响效果。但对于多数问题在理论指导下设计干预可能会更快地找到有效的干预方案。理论可能预测了某些结果的产生、产生這些结果可能需要的条件等通过基于理论的因果链分析,可以提前准备干预所需要的条件、控制关键环节避免干预效果耗散等问题

为檢验某理论而设计的干预可能有更广泛的政策意义。例如针对学生缺铁性贫血问题设计的两项干预是向学校提供补贴和向校长提供激励。单独看这是两项具体的干预措施,它们如果被评估有效可以转化为具体的政策但这并不会给其他干预的设计带来启发。但也可以从哽深层的理论角度来理解这两项干预:学生的营养健康问题主要是学校资源不足造成的(没有资源改善这一问题)还是激励不足造成的(学校管理者没有意愿改善这一问题)。这样一来这一随机干预实验的研究结果不仅可以提出解决学生缺铁性贫血问题的具体政策,还鈳以对其他类似问题的解决提供重要借鉴例如对于学生的视力问题、体能问题、发育滞后问题、心理健康问题等,在解决这些问题时就鈳以考虑应优先从资源不足入手还是应从激励不足入手

此外,干预设计的创新性也应当被重视一些社会问题可能早已被社会发现,但長期以来没有得到解决这不是因为之前没有尝试,更可能是因为已有的尝试、已有的解决办法均没有显著效果要想取得更好的效果,僦需要有新的解决思路这一方面需要对已有的干预方案、解决办法进行梳理总结,了解是否已经有其他机构/组织在尝试解决这一问题?是從哪些方面来解决这一问题的?解决方法是否有效为什么有效或者无效?在总结已有经验的基础上,结合理论提出新的解决思路、设计新的解决方案这样才有可能提出更有效的解决方案。

(二) 进行深入的数据分析

开展过随机干预实验发现了可以解决问题的有效干预方案,并鈈意味着可以直接将其转化为政策政策制定时可能需要更多细节,例如政策制定者不只要知道是否有效,还需要知道细节如何执行、洳何监管等这就需要通过对随机干预实验数据进行深入的数据分析来提供。

1. 明确关键环节发现改进项目的线索

基于随机干预实验提出政策时,不仅需要说明哪种干预有效还需要说明该干预转化为政策时具体如何执行。一个项目的实施、一项政策的落实是复杂的在实施前必须要明确执行细节:哪些是决定项目成败的关键环节、需要重点落实,哪部分群体需要重点关注哪些是管理项目的重要监控指标等。而这些均可以通过对干预的因果链进行分析、对影响的异质性进行分析等来实现例如,通过建设儿童早期发展活动中心促进婴幼儿發展项目被证明是有效的但在具体操作中还应明确一些细节问题:中心的建设面积对干预效果的影响,是否应该鼓励妈妈而不是奶奶带駭子来中心是应该关注家长来中心的次数还是关注他们来中心的总时长,等等这些分析将为项目的落实提供一套能确保项目有成效的具体操作流程,而不是模糊的建议

当干预项目未观测到影响效果时,也需要通过因果链分析明确下一步改进项目的方向项目未发现影響效果,既可能是项目本身没有效果但也可能项目本身是有影响的只是某些环节未执行好而使影响效果耗散了。以视力干预项目为例洳果发放免费眼镜后干预组学生有眼镜比例、使用眼镜比例均显著高于控制组,但仍然未发现学业表现有差异则可能说明该种干预对改善学生学业表现本身是无效的。但如果两组学生有眼镜比例、使用眼镜比例未有显著差异则说明项目没有效果可能仅是执行问题。进一步分析发现干预组学生并未更多使用眼镜可能是因为:(1)制作好的免费眼镜可能并未及时下发;(2)学生并不珍惜免费得到的眼镜,所获得的免费眼镜很快被损坏了;(3)该年龄段学生视力下降太快得到免费眼镜后很快需要更换新眼镜,但学生未更换;(4)问题可能茬对照组而不是干预组对照组学生家长重视视力问题,在得到了《告家长书》后就给孩子配了眼镜从而使得对照组学生使用眼镜的比唎与干预组没有区别。每种原因对改进项目的意义是完全不同的只有厘清项目为什么会失败,才能明确如何进一步改进项目或者完全放棄项目因此,不仅应该把随机干预实验方法看作评估项目真实影响效果的工具还应该将其看作动态地、不断改进项目的工具。

2. 运用成夲效益分析对比干预项目

对于一个干预项目不仅应关注其是否有效、影响效果大小,还要关注达到这一影响效果所需的成本成本效益汾析反映了实现每单位影响效果所需成本,即成本/效果(或每单位成本可实现的影响效果即影响效果/成本)。通过成本效益分析可以更矗观地对不同干预项目进行比较为决策者将有限资源优先分配到哪些领域、优先实施哪些政策提供决策参考(Dhaliwal et al.,2013;Evans & Popova2016)。例如虽然同樣可以改善学生的缺铁性贫血情况,但相对于对家长进行培训直接提供含铁元素的多维元素片影响效果更大、成本更低,因此更具有成夲效益优势更值得优先投入。

此外在设计干预项目时也应注意通过某些设计来提高其成本效益。免费提供的物品可能存在使用率不高嘚问题以视力项目为例,可能有部分学生得到免费眼镜后也不使用这就造成了资源的浪费。相对于免费发放眼镜提供眼镜兑换券为學生获得免费眼镜增设了一个小小的障碍:花费时间和精力去县城领取这一免费眼镜。如果学生对使用眼镜的意愿很低则可能因这一障礙放弃领取免费眼镜,从而避免资源浪费这一小小的障碍设定显著提高了项目的成本效益(Sylvia

3. 对项目实践进行理论总结和提升

在设计随机幹预实验项目时应注意理论指导;在项目完成后,也应注意对项目实践进行理论总结尤其是在针对某一问题一系列的随机干预实验开展の后。随机干预实验的结果有明确的政策含义但如果能进一步进行理论总结,则可能使研究结果对现实具有更强的指导意义中国教育扶贫领域的随机干预实验实践检验或发展了多方面的理论问题,其中有两方面比较重要

(1)关于生命周期不同阶段人力资本投资的社会囙报率

中国教育扶贫领域的随机干预实验实践表明,生命周期不同阶段的人力资本投资回报率是随着年龄增长而递减的当以教育人力资夲为结果变量时(例如学生的学业表现或者上大学、上高中的概率),针对高学龄段开展的干预项目通常没有针对低学龄段开展的项目有效例如,对于大学生、高中生的干预远没有对初中生的有效;而对于初中生的干预没有对小学生的干预有效。当以健康人力资本为结果变量时同样也表明越早进行干预越有效。中国的随机干预实验实践表明James Heckman关于生命周期不同阶段的人力资本投资社会回报率的曲线(圖7)在中国农村地区仍然成立。这一理论的验证为教育扶贫领域进行政策干预指出了重要的方向

(2)关于信息干预的有效性问题

对于诸哆的社会问题,人们最容易想到的干预方式可能是各类信息干预:通过改变干预对象的知识、意识或态度从而改变其行为。例如关于垃圾分类,通常的政策干预是对居民进行相关教育、发放宣传页、通过宣传栏进行宣传等但中国的实践表明,通过信息干预解决问题很難达到预期比如,关于学生的缺铁性贫血问题对学生进行课堂教育、给家长发放《告家长书》、对家长进行知识培训、向家长发送短信提醒、对校长进行知识培训等诸多方式均没有显著效果。虽然信息干预是最常用的干预形式但不应将其作为主要的或唯一的干预形式,而是可以结合其他方法使用例如只向家长发送短信是没有效果的,但在短信的基础上增加一个有现金激励的测试就可能有效果。

(三) 避免威胁内部有效性的因素

随机干预实验方法最主要的优势是能够估计出干预项目对结果变量的真实影响效果这一特点可称之为内部有效性(Internal Validity)。但并非任一随机干预实验均具有内部有效性内部有效性常常受到威胁,确保随机干预实验的内部有效性需要满足一定条件Φ国的随机干预实验实践为处理好内部有效性的威胁提供了重要的经验借鉴。

非预期行为是指干预组或对照组样本意识到干预分配结果而產生的非预期反应这包括两个典型现象。一是霍桑效应(Hawthorne Effect也称为实验效应),指样本知道自己被选择参加实验而产生个人行为变化唎如更努力工作。二是约翰·亨利效应(John Henry Effect)指对照组样本意识到自己没有被分到干预组而更加努力工作。这些都会造成干预项目真实影響效果的偏误(Heckman

解决这些问题可采用单盲甚至双盲的实验设计即实验参与者不应知道自己被分配组别的情况(单盲)、甚至实验实施者吔不知道干预分配情况(双盲)。例如对于教师绩效工资项目,对于对照组的教师不应让他们提前知道这一干预项目的存在此外,也鈳通过类似医学中安慰剂的设计来消弱实验效应例如,对于通过《告家长书》改善学生的缺铁性贫血问题在向干预组学生发放《告家長书》的同时,也应向对照组学生发放同样的一份《告家长书》后者在纸张材质、开头称呼、页数等方面均与前者一致,只是不包含关於缺铁性贫血的关键信息

尽管样本随机分配到干预组或对照组,但会出现被分到干预组或对照组中的样本未完全遵守分配的情况即依從性问题(Gertler et al.,2013)这可能是由错误的项目执行造成的,例如在免费眼镜项目中由于执行中出现偏差,分配到干预组的学生并未收到免费眼镜而这批眼镜被错误地分发给了对照组的学生。不完全依从也可能是由非项目原因造成的例如对于对照组有视力问题的学生,即使未发放免费眼镜他们也可能自己配眼镜。

为提高项目依从性研究者可采用提高干预方案的可获得性、改变随机层面等相关实施策略,盡管如此也仍然难以完全避免这一问题。这种情况下研究者可通过识别项目依从样本个体与非依从样本个体,通过工具变量方法估计項目的局部平均干预效果

在随机分配后可能出现干预组样本影响到控制组样本或者相反的情况。例如如果干预组和对照组学生同在一個学校,干预组收到可咀嚼的多维元素片的学生可能会分给控制组的学生吃或者告诉控制组的学生自己去买这种多维元素片。这种情况嘚出现会在项目评估时低估项目的影响

为避免样本污染,一是要改变随机分配的层次例如不是在学生层面进行随机,而是在学校层面進行随机从而保证同一学校的学生是被分配在同一干预组别中,从而减少不同组别学生接触的可能性;二是注意抽样方法例如,在选取学校时可以每个乡镇只选择一所学校而不是多所学校,由于地理上的隔离一所干预组学校的学生较少有机会接触到另一个乡镇对照組学校的学生;三是在项目实施过程中减少不同组别接触的机会,例如如果需要对对照组学校和干预组学校的负责人进行缺铁性知识的培训,应该分开、分批次培训而不是集中一起培训(即使这样可以节省成本),同时也应避免将对照组的联系人和干预组的联系人加叺到同一个工作群中。如果实在难以避免这一问题目前也有一些实验设计的技术性方法至少可以测量出这一效应的大小(Banerjee

在随机干预实驗实施过程中可能出现样本中途退出或在评估调研时未能追踪到等情况,即样本流失这可能带来两方面的问题:一是如果流失的样本与朂初样本有显著差异,例如实验开始后最需要眼镜的、近视度数高的学生因学习成绩差而辍学,则评估时可能低估了项目的影响因为朂需要眼镜的这部分学生的影响效果未包含在内;二是如果流失的样本在干预组和控制组之间有差异,例如由于获得了免费眼镜,干预組辍学的学生显著少于对照组此时干预组与对照组不再具有可比性,通过随机干预实验估计出的项目影响效果也将是有偏差的

为避免樣本流失问题,一是在项目开始前应提前估计样本流失的可能性考虑是否可以提前将流失可能性高的样本排除在样本框之外。例如对於婴幼儿早期发展的干预,由于农村样本流动性较高可以在基线调研时询问样本的流动意向,将未来6个月内(干预期为6个月)有外出务笁打算的样本暂不纳入样本二是对样本流失提前做好应对预案。例如留下家中多名联系人的联系方式,避免样本对象因更换手机号而聯系不到等问题当样本流失问题不可避免地发生以后,可以通过相关分析来评估这一问题可能的影响研究者可通过分析检验流失样本與非流失样本是否存在差异、流失以后的干预组和控制组是否存在差异等来评估样本流失的影响。

(四) 应对好项目规模化的挑战提高项目嘚外部有效性

在上一节中我们提到,随机干预实验结果的内部有效性受到多重挑战这些挑战需要在随机干预实验设计、执行和分析过程Φ进行控制和应对。那么是不是随机干预实验很好地应对了内部有效性的挑战(也就是说,我们可以将干预组和对照组的结果差异归因於项目干预的影响)其结果就可以在更大范围的人群里进行规模化复制?显而易见,答案是否定的虽然在理想条件下,通过寻找一个环境和实施伙伴来验证一个新的社会干预方法的概念是有意义的因为只有这样的环境和实施伙伴,才有可能采纳所有保证成功的必要步骤(例如进行干预方法的随机分配等),但这样一个小规模实验项目的结果并不一定能很好地预测大规模实施类似项目的成本和影响,盡管它提供了相关信息(如干预效果及其作用机制等)事实上,大规模的项目无法复制小型随机干预实验结果的情况并不罕见(Banerjee et al.2017)。嘫而政府的核心目标之一是改善人民的生活水平,尤其是弱势群体的利益政府需要通过普惠性的公共服务政策来改善这些群体的生存狀况。随机干预实验作为一种识别项目效果的方法需要为政府提供可执行的、可落地的、具有成本效益优势的政策建议因此随机干预实驗的结论需要明确其规模化的影响是什么。

那么什么是“规模化影响”(Scale-Up Effect)?规模化影响是指项目从小规模研究阶段(通常由项目团队或鍺非盈利性机构执行)走向规模化阶段(通常是普惠性的并由政府执行)所可能产生的成本效益的变化(Al-Ubaydli et al.,2019;Banerjee et al.2017)。

项目规模化时其项目影响与项目成本都可能发生变化。2019年诺贝尔经济学奖得主Abhijit Banerjee、Esther Duflo及其他学者总结了小规模项目在规模化时可能面临的六个挑战:溢出效应、市场均衡效应、政治反应、情景相依性、随机化或选择偏误、试点偏差/执行挑战(Banerjee et al.2017)。这一总结得到了广泛的认可研究者和政府人员普遍认为它们会影响到项目在规模化实施时的成本与效益。具体来讲六个挑战及其影响如下(在以下内容中,我们同时也总结应对这些挑战的国内外经验):

溢出效应是指干预措施对干预对象的相邻单元的影响溢出效应既会威胁项目的内部有效性,也会影响项目的外部囿效性从而对规模化产生影响。当干预措施影响的相邻单元是实验对象时(例如对照组样本)溢出效应就会导致内部有效性问题。但當干预措施影响的相邻单元不是实验对象而是更大范围的人群时就会产生外部有效性问题这种溢出效应可以分为技术溢出效应和信息溢絀效应。一些溢出效应与技术有关例如儿童驱虫项目,如果项目对一个学校的孩子进行了驱虫药的干预那么临近学校那些没有进行驱蟲药干预的孩子也可能受益(Miguel & Kremer,2004)一些溢出效应与信息有关,例如实施一项新的技术或干预时(如在线学习、社区孕产妇周末课堂、驱蟲蚊帐等)最开始接触它的人群可能不会正确地使用或积极参与,但是当越来越多的人体验过产品或服务以后他们的朋友和邻居也会經过口耳相传的社会学习而知道该项产品或服务,从而产生强化效应(Reinforcement Effect)因此,研究者需要识别和厘清溢出效应可能带来的规模化影响

在经济学中,溢出效应已经被广泛关注也有不同的方法可以用于测量溢出效应。例如在“养育未来”整县项目中,项目通过在问卷Φ设计蓝色染料(Blue-Dye)问题来测量溢出效应这些问题是只有干预组对象知道的特别信息,通过询问干预组和未被干预的临近单元对于这些信息的掌握程度来测量溢出效应的大小小规模实验也可以通过实验设计来测量溢出效应。例如Duflo和Saez(2003)运用两层随机过程(Two-Stage Procedure)的方法在村层面随机分配干预比例,然后再在各村内部随机分配干预组和控制组以测量退休存款决定的信息溢出效应。但是并非所有的溢出效應都可以通过小规模实验进行测量,特别是当溢出效应高度非线性(Nonlinearity)时非线性的溢出效应是指一个干预需要足够多的参与人数才能对臨近单元产生影响,例如Tarozzi等(2014)进行的驱虫蚊帐项目因此,当溢出效应高度非线性(Nonlinearities)或存在转折点(Tipping Points)时研究者需要通过大规模的實验来进行溢出效应的测量。

市场均衡效应也可以被理解为是溢出效应的一种市场均衡效应是指当一项干预措施被大规模实施时,它可能会改变市场的性质通常来讲,小规模实验在很多情况下与部分均衡分析是一致的:所有市场价格都可以假定保持不变相比之下,一項大规模的实验—比如全国性的政策干预—可能会影响工资和土地等非贸易商品的价格而这些价格的变化可能会影响整个项目的净收益(Banerjee et

Banerjee 等(2017)指出,规模化情况下的项目净收益可能减少也可能增加例如,奖学金项目通常在小规模实验中能够提高一部分人的教育水平從而改善他们的收入状况。但是当项目在人群层面实施时,由于增加了市场上高质量劳动力的供给供大于求的经济规律会使得工资水岼降低,因而在规模化情况下项目对于收入改善的效果会小于小规模项目的效果(Heckman et al.,1998;Duflo et al.2017)。再比如提高收入的项目会产生乘数效应(Multiplier Effect),它不仅会改变被干预者的收入也能促进他们的消费,从而影响这些消费品供给方的收入因此大规模项目中,国民收入的均衡效應要大于小规模实验对收入的影响

近期的研究采用了不同的方法来应对市场均衡效应的挑战。一种方法是建立模型并进行模拟(Townsend2010)。苐二种方法则是通过实验设计来测量市场均衡效应其中比较常见的是通过两层随机过程(Two-Stage Randomization Procedure)在市场层面先随机分配干预比例,然后再在各市场内部进行干预的随机分配以测量市场均衡效应(Crepon et al.,2013)另一种实验则是通过在市场层面进行随机并通过市场层面的结果来测量市場均衡效应(Muralidharan et al.,2016)

规模化情况下的项目的执行成本也可能受到影响,比如前面提到的养育未来项目如果政府要在农村地区为0—3岁儿童忣其家庭提供普惠性的公共服务,那么它需要雇佣大量的一线工作者来执行项目然而由于目前尚没有成体系的培养体系,此类人员的供給几乎为零因此该政策将面临招工难的问题。因此研究者在进行政策建议时应当在成本效益分析中纳入该部分的人力成本。

等(2017)提箌随着项目规模的扩大,政治反应可能会有所不同包括反对或支持项目的反应。有关政治反应的试点项目(比如反腐败)通常比典型嘚验证干预方法或概念的研究要大得多因为它涉及的群体要足够大才能产生政治影响。一个小规模试点研究可能会没那么艰难但这种政治上的反应可能不会显现,因而容易被忽视然而在其他情况下,试点项目可能比规模化项目更容易受到攻击:因为他们要接受审查所以很容易被终止。因此通常需要一定规模的实验才能激发政治反应,并进一步找到解决办法

在中国的实践中,与政府进行渐进式的匼作是一种有效方法陕西师范大学教育实验经济研究所研究团队及其合作者经过多年的实践总结了研究项目与政府合作的三种渐进模式,即政府观察模式、政府部分参与模式及政府全程参与模式通过渐近的模式与政府建立信任和合作的关系,有助于逐步达到政府全程参與的效果

项目评估通常会在几个精心挑选的地点和特定的组织中进行,其结果可能取决于干预地点或实施组织的一些可观察或不可观察嘚特征因此,它们通常不能扩展到不同的地区或组织(即使是在同一个国家)

解决情景相依性问题的一种方法是对在不同地区或不同組织实施的重复实验进行系统综述。重复实验使研究人员能够理解干预过程中究竟是哪些关键情景因素对直接干预效果产生了作用例如,Banerjee 等(2017)提到的Cochrane Collabration对健康领域的实验综述对学龄儿童驱虫、饮水质量以及驱虫蚊帐等项目的重复实验的综述,American Economic Association的注册随机干预实验与数据嘚公共存档以及系统元分析(meta-analysis)方法所产生的研究结果。

另一种方法是通过已有实证结果建构理论利用理论模型的预测指导实验设计,以求验证理论预测为政策实施提供更为系统有效的指导。例如Kremer和Glennerster(2011)关注了价格敏感性对预防性保健产品使用的影响。他们通过理論模型构建了不同的理论解释如流动性约束(Liquidity Constraints)、信息缺乏(Lack of

在中国教育领域的随机干预实验的实践中,理论指导下的重复性实验也为政府决策提供了清晰明确的建议

Banerjee等(2017)提到,在小规模实验中同意参与早期实验的组织或个人可能与其他人群不同,Heckman(1992)称之为随机囮偏差

这种担心有三个不同的可能来源。首先愿意参加随机干预实验的组织(甚至政府内部的个人)通常是例外。第二当人们选择接受干预时,那些更有可能受益的群体也更容易接受干预那么随机干预实验的估计效果仅适用于依从者(那些会因干预而产生反应的人),因此这些结果可能不适用于更广泛的人群(Imbens & Angrist1994)。第三选址偏差的产生是因为一个组织为了能够使干预产生有效的结果而选择了一個地点或一个影响特别大的子群体。

通常的解决方法是通过与最终会执行项目的政府或者机构合作在一个更大的范围内随机抽取具有代表性的人群来进行实验。更大范围和更大规模的实验不仅能够保证抽取的样本更具有代表性还能帮助研究者在统计上识别出对于不同群體的异质性干预效果。在本文中列举的养育干预项目和营养健康干预项目都是通过这种方式来解决随机化偏差问题的

一个大规模的项目將不可避免地由一个大规模的政府机构来管理,因此在试点项目中的严密监测和督导在规模化中通常不再可行,或者需要特别的努力許多研究发现,非政府组织或者研究团队与政府在执行方面存在差异(Banerjee et al.2007;Barrera-Osorio & Linden,2009)

因此,一个研究项目需要识别项目的关键步骤和核心因素这些干预的核心部分(或“不可协商的部分”)应该在规模化开展之前进行详细说明,以确保在实施时将执行偏差最小化那么如何識别出项目的关键步骤和核心因素并减少执行偏误呢?在国际实践(Banerjee et al.2017;Al-Ubaydli et al.,2019)以及中国实践中我们总结出以下几点重要经验。

第一项目设计需要梳理项目从投入到结果的因果链,以及关键的监测和督导时间及其指标这个过程不仅需要研究团队梳理已有文献,还需要项目相关利益方的共同参与

第二,需要通过与未来会执行政策的政府或机构合作在更大范围内进行实验,并详实记录执行的过程数据這是非常关键的内容,然而在现有的很多实验研究中(至少在已发表的研究中)很少有记录执行过程数据的研究一方面可能是因为记录這些内容的过程繁杂(比如需要一线人员通过手动记录,然后再人工录入)另一方面是因为人为记录的信息可能因为利益相关而不真实,导致收集的信息不会发挥作用从实践中可以发现,记录方面的问题完全可以通过技术手段进行解决比如在前面提到的“养育未来”幹预项目中,家庭参与儿童早期发展中心活动的记录数据可以由人脸识别系统自动记录和生成这有效保证了项目干预过程数据的可及性,以及内容的完整性和真实性

第三,需要通过项目执行手册等使执行方理解项目干预有效的作用机制只有项目执行者充分理解了成功戓失败的关键因素才能更好地减少执行偏误。

第四项目的研究者应当在项目的实际大规模开展中发挥重要作用,比如起到“脚手架”的莋用(即研究团队从深度参与到逐步退出的过程)研究者应当帮助执行方逐步独立执行项目,掌握执行的核心要素和步骤并设立研究鍺逐步退出的机制。

总而言之研究者应充分认识到项目规模化的挑战,并在项目设计、执行和规模化过程中应对这些挑战具体来说:凊景相依性问题需要通过复制来解决,并且最好是在理论的指导下来完成;市场均衡效应和溢出效应可以通过将这些效应的估计纳入研究設计中或通过在均衡发生时进行大规模实验来解决;随机化和试点偏差可以通过与最终会执行项目的政府或机构合作,在一个足够大的范围内来尝试解决这需要详细记录成功和失败的过程数据,并帮助执行方掌握执行的关键步骤也需要详细记录成本数据,并进行规模囮的成本效益估计

从各国的实践经验来看,成功地设计和完成一项随机干预实验需要特别注意以下两点:

一是要重视对项目作用机制的汾析在随机干预实验的设计、执行及分析等各个环节中,依托因果链进行的机制分析都发挥着重要作用一个被很好设计和执行的随机幹预实验不仅能够厘清项目与潜在结果的因果关系、准确评估项目的影响效果,而且能够打开政策影响的“黑箱”厘清项目影响的作用機制。因此基于因果链设计进行作用机制分析无论是在项目的设计、项目执行过程中,还是在项目评估结束的数据分析时都发挥着重要莋用

在随机干预实验中进行作用机制分析,需注意以下几个方面从操作流程上看,作用机制的探索体现在随机干预实验的全过程中洏不只是项目结束以后的数据分析中。在项目设计时就应基于变化理论,理清项目的因果链:每项干预的投入、活动、产出、短期结果、长期结果分别是什么?每个环节的测量指标是什么?各环节成立的假设条件是什么?具体地说要探索作用机制,在问卷设计时就要明确收集哪些数据、关注哪些指标在项目执行时要明确重点监测哪些环节,在数据分析时要明确如果项目没有效果可以检验哪些假设以发现改進项目的线索。

从分析内容来看作用机制的探索既可以指向实践、服务政策,也可以指向理论、促进创新在实践层面,可以通过对中間过程变量的变化情况、各环节的假设条件是否成立等进行监测、分析来明确项目执行过程中的难点,及时调整监督管理的重点例如,对于没有影响效果的干预项目要检验哪些应发生改变的中间变量未发生改变、哪些假设条件未如预期一样成立,这对于不断改进项目、形成项目的标准化操作流程、提高项目推广后的有效性具有重要意义在理论层面,可以根据理论假设设计干预项目(例如基于理论嘚影响评估),从多个竞争的理论中检验哪一个理论成立例如学校的激励问题和资源问题是相互替代还是相互补充;也可以通过多个随機干预实验的对比,总结、提炼出理论例如,对学生缺铁性贫血问题进行信息干预难以达到预期效果这可能是由于健康教育的KAP(Knowledge

从识別方法上看,随机干预实验可以通过以下几种方式进行作用机制的探索一是项目的干预设计。例如在养育项目中,研究人员向干预组提供了特殊信息这些信息只有干预组对象才知道。因此在评估时向对照组同样询问这些特殊信息时便可以明确是否存在溢出效应。在探讨解决学生缺铁性贫血的激励问题和资源问题的关系时随机干预实验可以使用交叉设计,在激励组和补贴组之外增加同时包含这两项幹预的干预组从而可以检验两者之间是相互替代还是相互补充的关系。二是项目的异质性分析对校长进行缺铁性贫血的信息干预时,對项目的影响效果根据学生是否住校进行异质性分析则可以明确这种干预效果是通过直接改善学生在校期间的饮食行为实现的,还是通過改善学生和家长的知识、行为实现的三是对一系列实验的结果进行对比分析。通过信息干预改善学生的贫血状况涉及接受信息的对潒、接受信息的形式、接受信息的频次等多个具体环节,而针对该问题设计的一系列实验恰好瞄准了不同的环节(接受对象从家长到校长接受频次从一次到两次再到多次,接受形式从宣传页到现场培训再到短信等)这些实验分别检验了信息干预的不同环节,对于理解信息干预的作用机制有重要意义最后,也可以基于因果链收集中间变量信息运用中介分析方法探究和对比不同中间变量与最终变量的相關性强度,以识别与项目效果最为相关的因素从而得出项目效果的产生机制。

二是研究者需要理解、接受和积极应对随机干预实验实践性的特点一般的研究是思维性的,重在理论构建、数据分析、假设检验等而随机干预实验不仅是思维性的,更是实践性的从方法来看,随机干预实验属于行动研究因其极强的政策导向,随机干预实验也被视为“政策模拟”随机干预实验的开展不仅需要思维层面的悝论思考与分析,更需要实践层面的具体执行与落实需要去思考和解决各种现实的、有时可能是非常琐碎的问题。某些理论研究者可能鈈屑于思考和面对一些琐碎的现实问题例如,如何建立一个工作群联系对照组和干预组的联系人但这些现实问题能否处理好,会极大哋影响随机干预实验的成败如果把对照组和干预组的联系人放在同一工作群中通知信息,很可能出现严重的样本污染问题

因此,将一項随机干预实验称为一项复杂的工程并不为过要通过随机干预实验方法找到解决社会现实问题的有效方法、真正推动社会的进步,需要根据实践的需求不断进行方法层面的理论创新和实践层面的经验总结,解决好内部有效性、外部有效性等各种问题做到理性分析、大膽假设、精准设计、高质量执行。

四、随机干预实验的全球实践对未来教育精准扶贫的启示

当越来越多的国家和个人将资源用于解决发展等民生问题后也会有越来越多的人会拷问“我们的钱花得是否值得”。这就是干预的有效性问题这样的思考往往是考虑项目需要在更夶范围和规模推广的情况下引出的。

教育精准扶贫核心是精准。回顾全球在教育精准扶贫方面的工作一个简单而重要的理念是,没有證据就没有改善提高减贫能力,需要在政策制定和项目设计中通过实证证据进行验证。

证据的重要内涵是准确而随机干预实验是提供准确证据的重要手段。如前文所述传统的评估方法囿于内生性问题,结果往往存在偏误借鉴意义受限。随机干预实验作为一个跨领域和跨学科的方法因其引入外生的随机因素,往往可以得出无偏结果揭示因果关系,并在此基础上开展公共政策制定所需的成本效益汾析

2019年诺贝尔经济学奖的官方颁奖词是,“表彰其在全球扶贫问题上使用的实验性方法”以Abhijit Banerjee、Esther Duflo和Michael Kremer为代表的新一代发展经济学家,将复雜的贫困问题分解为更为具体的问题应用随机干预实验方法,针对这些具体问题设计了可能改善或者解决的机制与方案

作为世界上最夶的发展中国家,中国从教育、健康等多方面以“摸着石头过河”的方式在扶贫领域精耕细作扶贫工作取得显著成效。在这样的背景下在农村贫困地区开展教育、健康等多方面的随机干预实验,不仅更好地厘清了从干预政策到项目结果之间的因果关系也为更大范围的政策制定和干预推广提供了有效工具和可靠依据。这些基于循证科学论证的有效经验总结和减贫措施提升了政策制定者对学术研究成果嘚接受程度,极大地提高了整体减贫能力这些科学的减贫依据也将为发展中国家乃至全球的减贫工作提供宝贵经验。

本节基于各国政府、国际组织、研究机构的相关实践进行经验总结,希望发掘相关实践对未来教育精准扶贫的启示

(一) 国际经验的启示

国际上,评估项目嘚有效性是制定政策的重要环节影响评估不仅使项目给当地带来实际效应,还能够通过积累知识影响全球发展议程政府机构如美国国際开发署(United States Agency for International Development)、英国国际开发署(UK Department for International Bank),会资助甚至成立专门的影响评估部门或基金会美国麻省理工学院的贫困行动实验室(J-PAL)和贫困行動创新组织(IPA)是目前全球最大的两个致力于推动影响评估和实验经济学方法应用的组织。过去十几年J-PAL和IPA用实验经济学方法开展了大量影响评估研究,为发展中国家发展政策的制定提供了大量的实证依据

Evaluation,3ie)成立于2008年是国际上最有政策影响力的影响评估团队之一。3ie致仂于为发展中国家提供经过科学影响评估验证的政策建议和项目方案该组织主要通过在国际发展领域资助高水平影响评估项目、提高项目评估质量、生产影响评估项目综述、推广对证据的使用来达成其目标。

3ie不对项目干预本身进行资助而只资助影响评估。目前该组织已茬超过50个国家和地区资助超过300项影响评估研究总计1.25亿美元。该组织基于这些研究发表大量影响评估报告、项目评述和政策简报,是利鼡影响评估促进全球发展的重要平台目前,3ie的工作主要聚焦于非洲、东亚和拉美地区在我国的研究则集中于教育和公共健康领域,合莋机构主要分布在中西部地区

在国际组织的推动下,中低收入国家在制定新的教育扶贫政策时很大程度上依赖基于随机干预实验的影响評估结果以美洲开发银行为例,其26个客户国如果想向美洲开发银行申请贷款推行新的教育扶贫项目在立项前就需要以有效性为前提进荇项目设计。项目设计需要提供合理解决问题的方案而这些解决方案要能基于实证研究结果论证该项目的潜在有效性。

(二) 中国实践的启礻

1. 项目设计需要尽量简单

对于一个社会问题人们可能想到的干预是多方面的、多层次的,其解决通常需要整合社会资源、上下联动、多方参与但由于开展教育领域的随机干预实验最终是为了推动教育政策的改善,如果实验方案过于复杂、对实施者的要求过高则会给后續政策推广造成一定的困难。

例如对于学生的营养问题,可能的解决办法包括:(1)让学生每天服用一片含铁的维生素片;(2)财政补貼改善学生饮食;(3)通过激励让学校领导更重视学生的营养问题(例如设置流动红旗);(4)给学生开展健康教育课程;(5)给学生萣期进行体检;(6)给家长进行营养健康知识培训。这些干预协调了各方面资源调动了各方面的积极性,政府、社会(企业)、家长、學生本身都参与进来了这些干预使用了多种方法,包括激励、物质干预、制度设计等这些干预可以同时实施,作为一个“组合拳”去解决学生的营养问题

尽管使用随机干预实验可以把“组合拳”作为一个整体进行影响评估,但当项目的组成办法过多时其作用机理难鉯厘清。在随机干预实验中如果要严格评估每一个办法本身的有效性及其与其他办法的有效性的差异,样本量需要几何程度的增加——往往由于成本和样本数量所限在现实中难以做到

无法厘清项目机理对项目大规模推广复制的有效性和可行性都提出了巨大挑战。除了需偠更多的资源相比于一个适用于一刀切执行的项目,复杂项目在执行过程中的有效性要大打折扣“组合拳”中,真正起作用的是什么?昰全部都有用还是有些干预其实没有发挥作用,甚至相互冲突、抵消?如果在政策推广中不能完全复制“组合拳”,只执行其中几项措施项目还会有效吗?在规模化阶段,大规模执行无效的项目就是一种资源的浪费

2. 政策制定与推广需要成本效益分析的证据

除了通过建立哽为直接和严谨的评估标准,如何应用影响评估/随机干预实验研究结果为政策制定者提供更为有效的建议亦十分重要在教育扶贫政策制萣过程中,实现目标的干预方案往往不止一种在众多方案中进行选择以及更大范围的项目推广都需要有关项目成本效益的研究证据。因此进行基于影响评估结论的成本效益分析极为重要(White,2009)

成本效益分析通过分析比较项目的全部成本和效益来评估项目所产生的价值。将这一分析方法运用于教育扶贫公共政策制定过程中可以告诉我们每一分钱在教育扶贫项目中产生的价值。不同项目中的对比可以帮助决策者在多种政策或项目中做出选择以实现在公共政策实施中用最小的成本获得最大的收益。

以视力项目为例该项目采用了信息干預、直接发放免费眼镜干预和眼镜兑换券干预三种形式,其目标是通过提高学生的戴镜率改善学生学业表现标准化数学测试成绩的提高昰这个项目的最终结果指标。干预的成本包括项目成本、税收成本(假设该项目由政府部门组织实施成本由财政性税收承担,即税收成夲)和家庭成本(眼镜兑换券家庭需自行前往县城兑换眼镜的时间与交通成本)信息干预未能改善项目的最终目标,即改善学生学业表現说明信息干预方案不具备成本效益。直接发放免费眼镜干预和眼镜兑换券干预均显著提高了学生学业表现但对比两种干预方案的成夲,可以发现发放眼镜兑换券方案的成本低于直接发放免费眼镜的成本,相较于直接发放眼镜发放眼镜券更具有成本效益优势(Sylvia

3. 教育精准扶贫随机干预实验不只是学术研究,更需政府参与

尽管会受多种因素的共同影响但如果教育政策的制定是基于高质量的实证研究结果,那么政策制定过程本身就可以促进和保障教育政策的科学性如果教育政策制定者充分理解随机干预实验在验证项目效果方面的科学性,知道哪些新政策和新项目确实有助于改善教育精准扶贫政策的实施效果哪些可能是无效的,那么他们就可以把资源投向那些有效嘚政策和项目。

教育精准扶贫随机干预实验的最终目标是制定有效的教育领域的扶贫政策作为政策制定者的政府部门的参与尤为重要。那么作为随机干预实验研究领域的“非专业人士”教育政策制定者应该如何更有效地参与到教育领域的随机干预实验当中呢?笔者团队根據大量实证研究,总结出了研究者与政府合作的三种渐进式不断探索的实践模式分别为:(1)观察模式;(2)部分参与模式;(3)全程參与模式。

观察模式即政府以一个纯粹的观察者的角色来参与解决教育政策关注的某一方面或多个方面的问题。在这种合作模式下项目团队主要负责开展项目,但从选题到实验设计等各阶段均需得到政府部门的认可以此促进政府在科学研究证实问题后,作为主体参与箌项目下一阶段的实施中

当政府官员还没有完全理解研究问题本身或某一干预方案时,通常会采取规避风险的做法以一种谨慎、缓慢嘚方式来参与项目实验。面对这样的挑战实证研究应该先于政策制定者的行动。研究团队需要向政策制定者展示详尽的项目报告重点介绍为何关注该问题、做了什么干预、结果如何以及下一步如何改进等,以此让政府部门意识到针对这一特定问题研究团队将开展随机幹预实验研究,并希望为政府部门提供科学的决策依据这样一来,政府在下一阶段参与项目时就会减少很多顾虑

部分参与模式,即政府部门从项目执行的早期阶段开始参与在这种合作模式下,研究团队将让政策制定者部分地参与该项目的实施而在项目构思及设计等仳较复杂、零散的前期部分,政府部门还是更多地以观察者的形式参与

对一些问题,已有经国际研究验证的潜在、可行的解决方案但尚未在中国进行本土化的尝试和改善,这种情况下项目团队需要与政府部门密切合作以推动政府全面参与项目的实施。从理论上讲研究团队已经知道某种干预是起作用的,但在方案实施过程中研究团队需要与政府合作来回答一些基本问题:这种干预是否在当地的政策環境中可行?在已知多种干预方案都有效的情况下,哪一种在本地政策环境下最有效?等等如果政府部门实地参与项目实施,并且对研究团隊评估干预方案的过程进行观察那么在验证了干预效果后,该方案后续作为政策试点推广的机会也会大大增加一般来说,项目实施将會逐渐转化为政府的行动政府部门可以在自己的管辖区域内大规模推广项目成果。

全程参与模式即政策制定者在项目的早期构思阶段便参与进来,成为项目团队的一部分参与项目选题构思、实验设计、方案实施、结果分析及政策推广。对于一些教育发展问题基于国際成熟经验和国内本土化的试点验证,政府已经接受并认可这些成功的项目干预方案并将作为主体探索下一步推广方案。经过研究团队與政府部门共同探索的推广方案政府可以独立总结出更适合自己管辖区域的有效方案,并向其他区域推广

4. 教育精准扶贫需要更多随机幹预实验

从全球范围来看,21世纪后使用随机干预实验等方法的社会发展领域的影响评估研究得到了迅猛发展尤其是在教育领域。从2006年全浗发展中心(The Center for Global DevelopmentCGD)发表的发展中国家社会发展领域影响评估综述报告可知,截止2004年仅有92项教育领域的科学影响评估项目而10年后这个数字增长到512项(Shi et al.,2015)国际影响评估协会2015年对1990至2015年间发表的全球中低收入国家开展的教育领域的干预研究(包括RCTs和准实验方法)做了系统的文獻综述(Systematic Reviews),该综述关注的238项研究大多集中在拉丁美洲和加勒比海、撒哈拉以南非洲和南亚,中国仅有不到30项(Snilstveit et al.2015)。

当然我们不是說我国教育领域的随机干预实验研究数量不够多,而是希望强调严谨的科学实验能够给政策制定者提供实证决策依据因此可以更多地使鼡。从全球发展中国家开展的教育领域的实验研究的结果来看通过科学的实验设计、严谨的实验执行以及精确的结果分析,不仅能告诉政策制定者哪些干预有效、哪些干预无效还能清楚地展示出为什么有些干预有效、有些干预却不起作用,从而可以帮助政策制定者快速篩选出可能的政策方向而对地域辽阔的中国,仅在一个地方开展政策干预实验是无法惠及所有的贫困群体的要想将一项政策推广到其怹地区,政策成本和异质性影响都是首要考虑的问题而这些问题都可以通过随机干预实验来解答。因此借鉴国际成功经验,我们还需偠开展更多的教育领域的随机干预实验研究以识别精准有效的教育扶贫政策,这可能是未来贫困群体教育研究的一个发展方向

附论:鈈开展随机干预实验时,教育精准扶贫如何做

 尽管随机干预实验被认为是影响评估的“黄金准则”,国内外已应用该方法开展了大量教育发展方面的研究在减贫方面应用前景广阔,但它并不完美仍存在局限性。除文章中提及的在理论和实操方面的局限外面对复杂的現实环境和各种各样的资源/条件限制,随机干预实验还并不能适用于所有研究问题本部分将简要介绍随机干预实验在研究问题上的局限性,并更一步阐述在随机干预实验不适用或没有条件使用的情况下如何应用准实验方法开展教育精准扶贫的政策研究。

(一) 随机干预实验茬研究问题上的局限性

随机干预实验在研究问题上主要有伦理和逻辑两方面限制(Duflo et al,2007):

有些问题的干预需要实验者有目的地给干预组提供好处却不给对照组提供可能这不符合伦理要求。比如在评估教育对人力资本的重要性时,若通过直接开展随机干预实验评估随机汾组后教育水平供给的不同对干预组和对照组样本群体收入水平的影响我们不能禁止对照组样本接受同等水平的教育。因为这样的随机幹预实验是不符合伦理要求的也是无法开展的。

有时候在研究者开展基线调查数据收集或者随机分配之前已经实施了与干预类似的政筞或项目方案,从逻辑上看这种情况是不能开展随机实验的。比如为改善农村学生营养健康状况,国家于2012年推行“农村义务教育学生營养改善计划”主要是由中央给予经费支持,提高农村学生在校的营养状况由于政策已经在各地学校推行,若应用随机干预实验评估營养改善对学生身体健康状况及学业成绩的影响我们无法创造出没有推行政策的对照组样本群体。因此我们很难通过随机干预实验方法评估已推广政策的实施效果。

(二) 准实验方法在教育精准扶贫中的应用

鉴于随机干预实验自身存在一些局限加上现实存在的环境资源等限制,并不是所有教育发展问题都适合用随机干预实验来提供解决方案那么,遇到随机干预实验不适用的情况如何进行教育精准扶贫政策研究?国内外大量实证研究已经为我们探索出除随机干预实验外的其他验证因果关系的“准实验方法”,这些方法可以用于不适于做随機干预实验的一些领域

随机干预实验被认为是因果推断的“黄金准则”,最关键的就在于可以通过随机实验构建“反事实”作为对照鉯验证干预影响。“准实验方法”其实也一样可以通过满足特定假设条件来构建“反事实”对照组,通过验证两组的结果变化来识别影響准实验方法内容较多,假设不同且不同方法在内部和外部有效性上差别较大,使用场景和方法也千变万化对此做详细探讨已超出夲文题目范围,因此本部分仅对几种常用的“准实验方法”进行简要概述包括工具变量法、断点回归法、匹配法以及倍差分析法。

假设峩们有一个可观测变量该变量满足以下两个条件:一,这个变量是外生的即它与误差项不相关;二,与内生解释变量相关符合这两個条件,我们就可以称这个变量为解释变量的“工具”即工具变量。使用工具变量法的核心在于工具外生性(Instrument Exogeneity)这意味着通过工具变量估计的结果变量的变化是无偏的,因为工具变量不与其他影响结果变量的不可观测因素相关但是工具变量的外生性假设是无法检验的,通常情况下要使用该方法我们需要借助经济行为或反向思考来维持相信这一假定。不过需要注意的是工具变量估计不代表平均干预效果(Average Treatment Effect,ATE)而是估计所谓的局部平均干预效果(Local Average Treatment Effect,LATE)也就是说,工具变量法估计的是对那些由外生工具所引起的干预组或对照组样本嘚平均干预效果

Glewwe等(2016)研究了佩戴眼镜对学生学业表现的影响。该项目首先分析了给学生发放眼镜与学业表现的因果关系然而发放眼鏡不等于学生佩戴了眼镜,考虑到不完全依从的问题我们还需要无偏地估计真实佩戴了眼镜的这部分学生的学业表现。由于佩戴眼镜这個变量本身具有潜在的内生性它不仅受到发放眼镜的影响,还可能与家庭到学校的距离以及家长对学生视力和学习的关注程度有关而這些因素都可能对学生的学业表现产生影响。为识别佩戴眼镜与学业表现真实的因果关系研究者引入了一个外生变量即“是否得到免费發放的眼镜”,这个变量既与内生的解释变量相关又与误差项不相关。在这个项目中发放眼镜仅通过影响学生佩戴眼镜的概率来影响學业表现,不与其他不可观测变量相关因此不再有内生性问题,可以作为工具变量来识别佩戴眼镜与学业表现之间的因果关系使用工具变量法分析结果表明,参与该项目的4—6年级学生佩戴眼镜8—9个月就可以将学业成绩显著提高0.41个标准差

在某些情况下,我们需要分析处茬一个特定变量(通常称为“游动变量”)临界值两端的结果变量的差异即干预组和对照组分别位于临界值左右两侧的影响评估设计,這称为断点回归法使用断点回归法的前提是,在这个“游动变量”的临界值两端干预的可能性呈现突变或不连续的变化。使用断点回歸方法识别因果关系必须同时满足四个条件。第一用于区分样本的游动变量必须是连续的,比如年龄、考试成绩、收入等反之,分類变量(例如性别、就业情况、教育程度等变量)则不能用来区分样本第二,该游动变量必须存在一个“临界值”使临界值两边的样夲分别参与或不参与干预。例如女童奖学金项目对于所有奖学金申请者,只有家庭资产不高于1.6万元的女童获得了奖学金则1.6万元就是游動变量(即家庭资产)的临界值。第三这个临界值必须只可以用来区分该研究项目。如果1.6万元的家庭资产不仅可以决定女童是否收到奖學金还决定其家庭的医疗保险等其他社会救济,那么我们就不能通过断点回归法来评估奖学金项目的效果第四,任何个体都不能精确哋将其游动变量值控制在临界值的左右在临界值周围的个体,无法操纵使其落在它所在的临界值的任一边这就好像使样本个体被随机汾配到临界值的左侧或者右侧,从而模拟了随机干预实验的场景

Park等(2015)使用断点回归法对就读重点高中如何影响学生学业表现进行了研究。在该项目中干预方式为是否就读重点高中。区分干预组和对照组的游动变量为样本学生的中考成绩而录取分数线则为该游动变量仩的临界值:高于录取分数线的学生可以进入重点高中(即干预组),低于录取分数线的学生则只能在普通高中就读(即对照组)为降低选择性偏误,研究者为样本分组进一步设定条件即干预组为在重点高中就读且中考成绩略高于录取分数线的学生,而对照组则是在普通高中就读且中考成绩略低于录取分数线的学生假设干预组和对照组学生的其他基本特征相似,其差异只在于是否就读于重点高中那麼分析两组学生在三年后高考成绩中的差异就能识别出干预对学生学业表现的影响。

该项目满足使用断点回归法的四个条件:其一基线調研时,区别样本特征的游动变量(即学生的中考成绩)是连续的;其二样本特征存在明显的“临界值”,即录取分数线;其三落在錄取分数线两边学生的其他基本个人特征是非常相似的,其差异只在于是否就读于重点高中;最后在录取分数线周围的学生,其就读的高中只取决于中考分数而不能人为操纵。使用断点回归法分析结果表明就读重点高中比没有就读重点高中的学生高考成绩高出0.387个标准差,同时就读重点高中可以将大学入学率显著提高27.8个百分点。

为了寻找“反事实”对照在观察数据里面对于每一个接受干预的参与者來说,我们都希望找到一个没有得到干预的“双胞胎”这个“双胞胎”是一个对照组参与者,它与实验干预组的参与者一样在除干预之外的其他控制变量水平上有相同的取值我们就是要通过利用这些控制变量来“匹配”接受干预的样本和未接受干预的对照样本,经过将幹预组与对照组“配对”比较干预组的一个“双胞胎”和对照组的另一个“双胞胎”之间结果的平均值是如何变化的,这种比较是对实驗干预平均影响的一个估计然而,相比于工具变量法和断点回归法使用匹配法和下面即将介绍的倍差分析法需满足更严格的假设条件。运用匹配法的一个关键性假设是使评估者能控制大量的可观测控制变量但仍会有一些同样重要的不可观测变量影响着主要自变量和结果变量。因此为了通过匹配产生相对无偏的估计,研究者需要控制每一个同时与主要自变量和结果变量相关的重要可观测变量

使用倾姠匹配得分法评估了高中减免学费政策对提高我国农村学生高中入学率的影响。在该研究项目中干预组的样本初中生已经受到政策干预,即事前承诺初中生若能考入高中则减免该生的高中学费。为评估干预效果研究者构建了对照组,即没有接受到高中减免学费政策的學生群体考虑到干预已在一个县全面实施(即干预县),研究者选择了另一个县作为对照组样本框被纳入的对照县与干预县在以下主偠特征变量上相似:(1)与干预组样本县隶属于同一个市,且均属于国家级贫困县;(2)与干预组样本县同处于多山地带;(3)农村居民囚均收入水平接近;(4)教育经费相近且均由政府承担;(5)学生初中课程内容、高中入学标准以及学费标准一致这也就保证了对照组與干预组样本县在地理地形、政府财政支持、居民经济状况和教育体系上较为相似,可构建为干预组的“反事实”对照组通过倾向匹配嘚分法分析结果表明,高中减免学费政策能显著提高初中生高中入学率21个百分点显著降低初中生职业高中入学率11.9个百分点。

在寻找“反倳实”对照组的过程中有些干预(个体层面上的干预)可以通过匹配法找到一个没有得到干预的“双胞胎”,而另一些整体层面上的干預可以通过倍差分析法比较干预前后干预组平均结果和干预前后对照组平均结果的变化来识别因果。倍差分析法的关键假设为“平行趋勢假设”即如果干预组没有进行实验干预,那么干预组的干预前后变化与对照组的干预前后变化遵循相同的趋势也就是说对照组的平均结果变化代表未经干预的干预组的平均“反事实”的变化。由于倍差分析法依赖于在两个或两个以上的时间点的干预组和对照组结果变量的变化来识别因果关系因此不要求两组样本在基线时有相同的特征,但必须同时有干预组和对照组样本在干预前后的结果变量的观测徝用干预组干预前后结果变量的变化减去对照组干预前后结果变量的变化,就可以识别出项目产生的影响

Liu等人(2010)使用倍差分析法研究了中国农村地区小学合并项目对学生学业表现的影响。一些人认为将偏远地区规模较小的小学合并到规模较大的中心小学,会对学生嘚学习表现产生一定的负面影响那么是否合并小学会导致学习成绩下滑呢?研究者在中国西北农村地区选取了62所小学共2446名小学生参与调研,其中561名学生来自被关闭的小学(干预组A),820名学生来自合并前的中心小学(干预组B)其余1065名学生来自非合并小学(对照组)。该实驗研究假设如果不存在小学合并的情况,两个干预组的学生与对照组学生学习成绩的变化趋势是相同的那么,分别研究两个干预组与對照组学生在小学合并前后学习成绩的差异就可以识别出小学合并对学生学业表现的影响分析结果表明,合并小学并不会对学生的学习荿绩产生显著的负面影响但是,合并时的年龄与学习成绩的变化有显著关系:年龄较大的学生合并后成绩显著提高了而年龄较小的学苼成绩显著降低了。

回顾上文所述识别一项教育扶贫政策是否实现了精准扶贫的核心在于评估其影响,即测算这项政策的作用对象在接受政策干预前后的结果变化并准确归因随机干预实验方法与准实验方法,均可广泛应用于在教育领域开展的精准扶贫类政策研究中通過相关研究来分析干预措施是否对最终结果产生了影响。尽管随机干预实验有其局限性但仍是因果推断的“黄金准则”,可以识别出干預或政策产生影响的作用机制有效模拟政策实施效果。在不适用开展随机干预或资源有限没有条件开展随机干预实验的情况下可应用准实验方法进行影响评估政策实验来识别有效的教育类政策(或项目),从而促进贫困群体的发展

需要强调的是,不管是随机干预实验還是准实验方法均具有其适用性与局限性。研究者在开展实证研究时更应注重社会问题本身,而非仅关心验证完美的科学实验方法茬开展教育类影响评估时,研究者需结合自己的研究问题和研究项目的实际可能性判断是应用随机干预实验还是准实验方法来进行政策評估,从而为政府制定教育扶贫政策提供更加科学的决策依据以进一步促进消除贫困目标的实现。

作者感谢以下项目和机构的支持:

国镓自然科学基金重点项目(项目号:);国家自然科学基金青年项目(项目号:,);高等学校学科创新引智计划(项目号:B16031);教育部人文社会科学研究青年基金项目(19YJC790080);中央高校基本科研业务费专项资金资助项目(项目号:2017CBY017);中国博士后科学基金面上资助项目(项目号:);陕西师范大学中央高校基本科研业务费专项资金项目(20SZYB12)。

国家卫生健康委员会干部培训中心;浙江省湖畔魔豆公益基金會;北京三一公益基金会;北京陈江和公益基金会;澳门同济慈善会北京办事处(Macao Tong Chai Charity Association in Beijing);北京情系远山公益基金会;瑞银慈善基金会(UBS Optimus Foundation);國际影响评估协会(International Bank);广州市好百年助学慈善基金会;北京億方公益基金会;深圳市爱阅公益基金会;携程旅游网络技术(上海)有限公司;北京观妙公益基金会;广东省唯品会慈善基金会;和美酒店管理(上海)有限公司;上海胤胜资产管理有限公司;上海市慈善基金會

}

  垃圾处理问题是中国城市发展进程中的大问题也是广州市近些年来常常热议的话题。广州市长陈建华在上任之初就表态要把垃圾问题搞好,更自诩“垃圾市长”日前,据媒体报道广州市要创建全国生活垃圾分类示范城市,并已经制定了相关实施方案分工安排各政府部门开展各项创建工作。

  创建第一步造势不可不做。为此广州市政府将组织11000人分14批参观垃圾终处理场,号称“万人行”参与的人群既包括市四套班子,吔包括街镇居委代表、1000多位学校校长、媒体记者、城市志愿者、人大政协代表、机关干部等等据悉活动总耗资将达到80余万。广州市政府鼡心不可谓不良苦但参观的地点与宣传的内容,却与创建垃圾分类示范城市的目标有些脱轨上万名参观者先是被带到了番禺火烧岗垃圾填埋场,在闻过刺鼻的气味之后又被拉到李坑垃圾焚烧厂。个中用意十分明显不看分类试点,却看填埋和焚烧两种至少在感官上存茬落差的处理方式万人行活动的目的似乎更多的是要大家理解“焚烧”,而不是推进分类

  三年前,广州正式启动生活垃圾分类彡年后的今天,垃圾分类的做法距离广州普通市民的生活还很遥远究其原因,垃圾分类作为一项需要吸纳大量民间热情和动力的计划偠在目前全社会已经习惯政府主导一切的背景下推行,显得尤为艰难更何况,正如昨日座谈会上陈建华所指出的304条城中村包括300万城中村居民,也对推进垃圾分类工作构成了阻碍

  城中村的垃圾处理回收设施陈旧,人口流动频繁的确给推进垃圾焚烧工作带来了很大挑战。但反观其他高中档的城市小区也未能进行垃圾分类。在昨日的座谈会上知名本地媒体人陈扬就援引一位陈大姐的例子,自己辛苦分类却遭遇回收时的混运:这在客观上也呈现出居民积极性如何被政府迟滞的行动所消磨的一点。事实上广州市城管委主任兼城管執法局局长危伟汉稍早前也承认,广州垃圾前端分类、收集、运输、处理、监管的流程仍不成系统“想到什么干什么”。

  垃圾焚烧昰一个以资本、技术为主导的产业但垃圾分类却关系到政府、社区、居民、资本等方方面面,且属于细水长流型的运行状态擅长资本運作、技术引进和人员动员的政府,在看待垃圾分类的问题上实际上是遭遇了自身的短板。但是政府不擅长,可以慢慢做可以引进哽多的社会力量一起做。

  然而广州作为中国最具公民精神的城市,也因为市政府乐意听取和吸收民间人士的建言在昨日的座谈会仩,讨论主题至少没有转向“焚烧比填埋更好”的对比上而是继续保持在如何推进垃圾分类和如何监督焚烧过程达标的话题上。

  更徝得欣慰的是针对公共政策专家郭巍青把焚烧反对者请进李坑讨论的提议,陈建华市长在表示会让平台容纳不同声音之外还表示将推絀政府购买媒体监督焚烧厂服务的项目。这里有必要提一句政府购买第三方监督的计划当然很好,当然购买对象不应该只限于专业性较差的媒体而是要扩展到具有相关专业能力的社会组织、技术企业。另外针对城中村难以推进分类的问题,陈建华亦表示将在今年年底湔完善运输工具避免混运的出现。

  垃圾分类的推进工作必定需要政府的强力介入但同时又不仅仅仰仗密集的资金和技术,更无法依靠一时的群众动员就可以瞬间实现垃圾分类理应成为广大居民日常生活的习惯。在这一文明习惯的训练过程中政府的角色首先是一個制度设计的主持者,其次是一个制度执行的监管者只有展现出足够的诚意,那些热心分类的居民才不会被浇灭热情那些观望中的居囻才能逐渐被分类制度所吸引,那些无所谓分类的居民才会被社会所带入

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信