美国中小学考试评价解析_美闻网-美国资讯第一门户

您当前的位置：Home> 求学美国> 体制详解> 考试与考核> > 正文

美国中小学考试评价解析

时间:2013-12-30 16:26　来源:美国资讯网

字号：【大中小】

　　1.美国基础教育考试评价的新规则
　　“不让一个孩子落伍”(No Child Left Behind, NCLB)教育改革法案是美国基础教育领域近些年来最热门的话题。布什总统于2001年提出的“不让一个孩子落伍”的教育改革议案于2002年1月8日正式通过审核成为法律。这是自1965年以来最大规模的教育改革立法。这一法案极大地增强了联邦政府在保障所有儿童公共教育质量中所发挥的作用。法案要求3年级到8年级的学生每年都要参加阅读与数学测验。
　　议案中最关键的部分是要求每个州在数学和阅读科目上制定并实施有挑战性的学术标准，设定每年的进步目标以保证所有群体的学生在12年内达到精熟水平。然后每年对3年级到8年级学生的阅读和数学科目进行测验以测量他们的进步。这个议案尤其对“全国考试”或“联邦控制的课程”有利。由各个州自己选择和设计测验，必须保证测验与州课程标准一致。各州将会受到联邦资金的资助来发展测验。“激励机制”指的是如果联邦政府不能提供必要的资金资助，那么各州可以不编制3—8年级的阅读与数学测验。
　　测验结果将以“报告卡片”的形式每年向公众报告。内容将会涉及学校的成绩表现及各州朝精熟目标的进步情况。为了保证所有群体的学生适度的进步速度，测验的结果将会按照贫困情况、种族、残疾情况与英语精熟程度分开报告。这就是众所周知的“数据的解体”。这样做也是为了防止学校将多个测验的结果混合而只提供学校的平均水平以掩盖不同学生群体之间的成绩差距。
　　议案要求各州与学区提供每年精熟目标进展的情况。他们必须证明所有群体的学生在12年之内部达到了100％的精熟程度。各州自己确定精熟标准，每个群体的学生适当的年进步率。表现不佳的学校要参加州所实施的各种各样的学校提高和改革计划。
　　每个州的测验结果将与美国国家教育进展评估(National Assessment of Educational Progress, NAEP)的指标进行比较，NAEP每两年在全国范围内取样，对各州4年级和8年级的学生实施阅读与数学测试。这个规定称为“NAEP可比性”，是为了防止各州将自己的考试和标准定得过低。也就是，如果一个在自己州的测验上显示出进步，但是在NAEP上却没有显示相应的进步，那么就说明州测验和州标准的挑战性不够。最后的立法中并没有说明如果州测验分数相比于NAEP落后时的处罚，只是要求将对比的结果公开。
　　2 美国中小学考试评价
　　2.1 联邦考试
　　美国国家教育进展评估NAEP,又称为国家教育报告卡(The Nation’s Report Card)，是目前美国国内唯一连续、长期的中小学生学业成绩测量体系，首要目标是向美国公众报告学生的教育状况。
　　为达到这两个目标，NAEP设计了两种类型的评估：主要(main)NAEP全国评估(NAEP-National)和长期趋势评估(Long-term trend assessment)。主要的NAEP全国评估考察美国学生知道什么，能在关键的学科领域做些什么。NAEP的长期趋势评估是通过比较几十年以来成绩的变化，测量在一段时间内教育的进展。
　　NAEP评估的施测对象是美国4年级、8年级和12年级的学生。NAEP并不为单个的学生和学校报告分数。评估所报告的是以性别、种族为特征的群体的结果。
　　NAEP自1990年开始允许各州参与州水平的阅读、数学、科学和写作评估。有40到45个州参与了NAEP州评估(NAEP-State)。从2003年开始，“不让一个孩子落伍”法案要求所有的州和学校区域都接受联邦I号基金(Title I grant)参与两年一次针对4年级和8年级学生的NAEP阅读和数学评估。从 2002年开始，NAEP首次试验性的进行城区水平的评估(NAEP Trial Urban District Assessment)。六大公立学校的城市试验区志愿参与了这次评估，2003年有10个城市试验区开展了阅读和数学的实验性NAEP城区水平的评估。
　　NAEP的试卷编制与施测过程包括以下几个步骤：
　　1)确定评估框架
　　NAEP基于国家评估管理委员会(National Assessment Governing Board)制定的内容框架建构评价框架。每个科目的内容框架详细说明了特定年级的学生应该知道和应该能做的。内容框架指导试题的编制。
　　2)开发评估题目
　　NAEP的题目编制者做出了巨大努力使评估题目能够反应出教育者对于学生应该知道和应该能做的事情的最佳思考。基于NAEP的内容框架，测验专家在教师、课程专家和测量专家的帮助下编制出评估项目。为使题目更加恰当和公平，还进行了大量研究来审核以往的题目与作答反应。
　　“不让一个孩子落伍”法案规定国家评估管理委员会必须采取措施确保所有的题目都不存在种族、文化、性别和区域的偏差，必须是长期、中立、不带意识形态的。
　　在测验编制组成员、学科领域的专家和国家评估管理委员会经过最初的审核和评价之后，首先将评估测验对少量的学生进行预试。在预测验的结果分析与评审专家审核评价的基础上，对有异议的题目进行改善，组成测试卷进行实地测验。实地测验施测于成千上万的学生，评卷并进行分析。然后基于实地测验的结果和内容框架的规定选择合适的题目用于实际的评估。
　　3)编订评估手册
　　NAEP评估项目包含成百上千的题目。然而，不是每个参与NAEP的学生都完成NAEP评估的所有题目。测验题目分成不同的组，然后打包成不同的小册子。每个学生只需完成一份小册子中的题目，这些题目大约占总题量的10%-20%。将小册子分散开来，这样同一学校中只有很小部分的学生做的是同一小册子中的题目。小册子的发放是完全随机的。
　　NAEP中既包括了多选题，也包括了开放式的问题。开放式问题要求学生自主作答。学生既可以只言片语也可长篇大论，甚至比写作考试中写得更长。
　　在每次评估之后，有25％以上的测验题目公开作为样题并附有评分标准和学生作答的样本。
　　4)取样
　　NAEP选择了足够大的样本以保证评估结果的信度、效度。各州和各个行政区接受I号基金学校的4年级和8年级学生如果被选中的话都要求参与两年一次的NAEP阅读和数学评估。而其他的评估学校都是志愿参与的。
　　对于全国评估而言，在没有州评估的年份中，NAEP选择公立和私立学校学生的随机样本代表全美的多样性学生总体。选择参与的学校和学生的数量会随科目的不同而有所不同。当组织一个无州评估的全国评估时，每个科目通常需要各个年级6000到10000个学生样本。
　　全国样本的获得通过两阶段分层取样设计：首先根据地理位置对学校进行分类，然后根据少数民族入学的水平进行分类。在每个基于位置与入学分类的类别之中，按照事先确定好的比例进行随机取样，为所有学生和所有的子群体提供精确的结果。
　　5)评估的实施
　　NAEP的实施从1月下旬开始持续到3月中旬。训练有素的NAEP实施成员与学校协作实施评估，对整个过程进行管理。要求学校指派一名校方协调者帮助NAEP工作人员进行校内的安排。每个州也都有联邦基金资助的州协调员与参与的学校一起工作。
　　每个参与NAEP评估的学生要求的作答时间是1小时。在完成每个测验手册中两个25分钟殴的科目相关问题后，学生还需完成两个5分钟段的背景调查。其内容主要涉及与成绩特别是所评定的科目的成绩相关的学校和家庭经历。学生可以跳过任何她／他们不想回答的题目，不过这种不参与和不回答会大大减少NAEP能提供的有用信息。
　　6)NAEP的评分
　　NAEP评估中既有多选题又有开放性的问题。多选题使用光电阅读器评分，开放式问题由经过培训的评分者依据评分指南进行评分。为了确保评分的可靠性和一致性，NAEP制定了详细的评分指南，对有经验的评分者进行训练并通过有资格的评分者对评分者的能力进行双重检验，对每个评分者评定的质量与一致性进行监控与评价。每个开放式问题有各自的评分指南，评定标准。扩展的开放式问题有4—5个水平的评分指南。
　　7)学生成绩的报告
　　NAEP报告每个科目每个年级学生NAEP量表的平均分数。平均量表分数概括了学生知道什么，能做什么。成就水平(Achievement Level)显示了学生在应该知道和应该会做的事情上达到的标准。依科目不同NAEP量表有两种：0-300或者0-500。报告中提供整个年级所有学生的量表平均分，通过区域、性别、种族、学校类型和其他特征所定义的各个团体的量表平均分。除了报告特定评估年的分数以外，还报告NAEP结果随时间的变化而变化。
　　NAEP同时还报告成就水平，即在全国，某个州，或某个学生群体中达到特定成绩水平的学生的比例。NAEP将每个科目的成就水平划分为基本、精通和高级。成就水平的结果显示达到基本、精通和高级这三个水平的学生的百分比。
　　在报告量表分数和成就水平的基础上，NAEP还将数据分别按组别（例如种族、性别、有残障的学生、英语欠精熟的学生）、区域（国家的、州的、地方的）、背景（学生、教师、学校特征）进行分解。
　　教师、管理者和学生的完整背景调查作为NAEP评估的一部分也进行了分析。使用背景调查问卷获得的信息，就可以将学生的成绩在NAEP的报告变量之间进行比较。
　　NAEP的评估结果为家长、教师、教育决策者、研究者、课程专家、媒体和美国公众提供了共享的资源。在国家水平上，NAEP以多种形式进行结果报告。“报告卡”是延伸的报告，密切检查NAEP的结果，并且深入地考察评估的设计和实施。“最重要部分”对NAEP数据进行简要概括。在州的水平上，NAEP的结果打印在“最重要部分”中全国结果的旁边。
　　另外， NAEP为每个参与的州提供一页的在线“快照”。NAEP提供的工具和资源使得各个州可以自己发展出综合的州报告和在线的快照报告。对于试验性的城市地区评估而言，可获得单独的“最重要部分”和参与的各个城市地区的在线快照。除了这些书面的资源外，NAEP的出版物和数据都可以在NAEP网站上找到。
　　2.2 州考试
　　2002年，美国颁布的《中小学教育修正法》首次要求各州必须实行统一考试，并以考试成绩衡量学校的教育质量，连续两年不达标的学校或地方必须采取措施提高成绩，否则，联邦教育部将扣减其联邦教育拨款。
　　美国州考的规则由各州自行决定。一般说来，考什么科目，考哪几个年级都是以立法形式来确定的。数学和英语（以阅读为主）几乎每州都考，但不一定每个年级都考。部分州还考历史（或称社会常识）和科学。有少数州在高年级有更具体的科目的考试，如将科学再具体分为物理、化学、生物、地理等。自2002年起，联邦对各州的考试提出许多要求，例如从三年级到八年级以及十年级必须每年考数学和英语阅读。小学、初中和高中必须至少各考一个年级的科学。
　　州考花费很大。统考的年级越多费用就越高。问答题和作文引入标准化考试之后，必须聘请教师阅卷评分，考试费用也随之攀升。另外有些考试允许学生在一年内多次参加测试直到通过。每次考试学校和学生都不必缴费，但多考一次，州政府就要多拨付一次的钱。
　　考试的日期具有弹性，大部分州的考试安排在3-5月之间。学校或学区集体报名。通常，学区或学校直接向专业考试机构提供学生资料，专业考试机构将学生资料制成条形码，与考卷一并寄回学校。学校将条形码贴在考卷上，然后开考。
　　在美国，考卷的制作是一项系统工程，需要一支强大的专业队伍来完成。各州教育部门都不是自己单独制作考卷，而是通过公开招标，签订合同把考试的具体工作外包给专业考试机构。专业考试机构根据各州的要求量身定作。
　　州考试题的编制施测与联邦考试的编制施测过程大致相似，一般有以下几个步骤：
　　1)确定考试大纲。由本州的教育工作者、课程和考试专家、家长和其他社会人士组成的考试委员会来商讨决定。依据本州有关法律和课程标准确定考试内容。
　　2)建立题库。专业考试机构根据考试委员会确定的考试内容和形式组织命题。州考试委员会分组审阅每一道题，将不合格的题目删除。
　　3)进行试考。试考分小范围的预试(Priot Test)和大规模的实测(Fiely Test)。前者为试探摸底性质，往往是几道题，而不是完整的考卷。后者是实战演练，力求接近正式考试。
　　4)标定(Scaling)分析。由拥有教育测量或心理测量专业知识和技能的人员来担任这项工作。标定分析在两大基本考试理论指导下进行：经典测量理论与项目反应理论。
　　5)敏感性和偏向审查。专业考试机构将考题的技术参数和考题一对一编排，交给试题敏感性和偏向审查委员会审查。这个委员会由州政府邀请社会各界人士组成。成员大多既不是考试专业人员，也不是教育专家。他们代表社会各界，包括少数民族、宗教界及工商界人士。他们将从不同的角度考查考题是否有偏向。
　　6)考卷的技术要求。信度与效度要求。
　　7)确定评分标准。
　　8)评分和成绩报告。报告的是标定分数而非原始分数。标定有两个基本目的，一是有利于比较。二是有明确的定义，使人看到分数就能明白该分数所代表的意义。
　　2.3 学区考试
　　有的学区也自己组织考试，以了解本区的学生成绩。学区一级的考试由学校委员会(School Board)负责。多数学区使用现成的商业性标准化测验，但由于此类考试范围较小，有些学区也自己编制试题。学区考试的规模较小，其重要性显然不如联邦考试与州考试。
　　3 美国专业考试机构
　　在标准化成就测验编制与评分领域有四家公司占有绝对优势，被称为考试行业四大巨头。其中三家是测验出版商，一个是评分公司。这四个公司分别是哈考特教育测量(Harcourt Educational Measure ment)、加州考试局(CTB McGraw-HiE)、河畔出版公司(Riverside Publishing-a Houghton Mifflin company)和NCS皮尔森(NCS Pearson)。根据2001年10月教育市场商报的报道，哈考特教育测量、加州考试局、河畔出版公司出版的试卷占到州水平所有施测试卷的96％。NCS皮尔森是标准测验评分公司中的领军人物。
　　哈考特教育测量最有名的测验是斯坦福成就测验，每年有超过1500万的学生参加此项测验。哈考特参与了“测验我们的学校”中的所有测验，如马萨诸塞州的MCAS,德克萨斯州的TAAS,学习测验标准和加利福尼亚州的SAT-9。标准化测验占到公司整个业务的70％。公司的市场份额占到测验设计市场40％。
　　加州考试局在测验设计市场上大约有40％的份额，略低于哈考特教育测量公司。在纽约时报2001年5月对州教育部门的调查中有19个州表示他们信赖加州考试局对学生进行评估的测验。公司最有名的测验是TerraNova,一种常模参照的成就测验。1996年，CTB推出了TerraNova标准考试，成为美国最为常用的评估方法。由于TerraNova基于对用户的深入研究，因而TerraNova提供的试题具有强烈的革新性并且十分受欢迎，而且给出的评估结果易于理解。CTB在1965年被麦格劳一希尔(McGraw-Hill)教育出版集团纳入旗下，并且作为其中一员在此后的40年里蓬勃发展。
　　河畔公司控制着测验设计市场剩下的20％的份额。该公司的著名测验——爱荷华州基本技能测验(ITBS)——是一种常模参照测验，每年有400万到500万名学生参加此项测验。根据纽约时报2001年5月对州教育部门的调查，有8个州使用河畔公司的测验。
　　NCS皮尔森公司是标准化测验评分公司中的领军者。以明尼苏达为基地的NCS成立于1962年，并于6年后逐渐为公众所知。每年NCS测量服务中心为将近4000万学生的试卷进行评分。它为15个州提供服务，包括一些最大的市场如德克萨斯州、佛罗里达州和纽约。
　　各个州自己也可以成为测验编制产业的主角。虽然一些州采用的是商业销售的试卷，各州自己发展的试卷也逐渐增多，或者定制与他们的课程标准更加一致的测验。
　　另外，其他的专业考试机构，如教育考试服务中心(ETS)，也开始进军中小学基础教育市场。
　　ETS在教育领域服务了50年。它在开办高等教育考试的过程中一直处于领先地位，但在美国本土基础教育评价方面呈现相对弱势，市场份额落后于哈考特教育测量、加州考试局(CTB)等私营考试评测机构。教育本身在飞速发展变化，美国对于中小学基础教育(K—12)的教育评价越来越重视，这需要有效、可信的、对教学有帮助的考试工具测量出的数据、配套的评判和针对的指导。
　　ETS将考试和考试有关的服务结合起来进军中小学基础教育市场，与各州教育行政部门和教育工作者紧密合作，利用自己在教育测量领域的专长对基础教育的状况和结果进行评价，对学生、家长、学校和教育政策制定者提供帮助。ETS的优势在于能够提供公平、公正和标准化的考试工具来测试教育成效，测量和记录考生的进步并为教学决策提供信息。
　　2001年10月ETS获得为期三年5000万美元加州高中结业考试合同，加州政府规定从2006年开始，所有在校生必须通过结业考试才能拿到高中文凭。2002年加州政府再次委托ETS开发组织本州2—11年级450万学生的每年评测，三年合同总额为1亿7500万美元。仅2004-2005年度ETS组织的加州中小学基础教育评价人次约600万，人数远远超过同期其他大规模考试人次。
　　在此基础上，ETS推出中小学基础教育解决方案（系统5)整合了评价、数据分析、指导性策略和专业开发来帮助学校超越所有教育周期的5个阶段。帮助学生和教师测评他们的表现，通过数据分析提供基于实证的策略进行指导，并展现学生与老师的进步。
　　ETS已推出5大产品相当5大独特解决方案：1)学校改善方案——战略化目标指导的改进；2)评价方案——基于联邦和州授权的教育表现测量；3)数据驱动的决策制定方案——使用数据证明达到和超越每年教学进展目标；4)专业发展方案——提高教师水平得以提高学生素质；5)指导方案——培养写作技巧和发展新的教学方法。
　　与此同时ETS建立了格式化评价题库、指导数据管理系统指导教育工作者在教学过程中科学有效地评价学生成长。ETS在中小学基础教育评价中的工作范围主要包括心理测量领域和内容开发领域。在心理测量领域主要涉及标定、等值、标准制定、研究学习和技术报告。在内容开发领域主要涉及标准联盟、每年五万道高利害（关系学生命运）考题命制、每年两万道格式化／教学过程中测验题目放人格式化评价题库和考试形式的开发。
　　ETS2003年7月创立新的全球发展部门，两个焦点领域即为中小学基础教育评价和国际化英语语言测试及教育解决方案。可以预计，不久的将来ETS也将成为中小学基础教育评价领域的一个新巨头。

( 编辑:Shi)