搜索

【面试率预测公式】&【Match量表5.0】| 我们是否可以预测Match结果？

李嘉华

2017-09-17

因本文为正式科研论述文，比较枯燥冗长，所以先将最终结论放给大家：

在使用统计学工具，根据2016和2017年统计的101个样本，比对了13个公认的对Match有影响的因素之后，显示：

USMLE Step1&Step2CK成绩是总面试数的独立影响因素
USMLE Step1&Step2CK成绩（SI）、推荐信预测价值（V）、发表文章数（P）是面试率的独立影响因素

【面试率的预测公式】V1.0：

Y = -0.136 + 0.013×SI + 0.053×V + 0.028×P

定义如下：

面试率：Y
Step1&Step2CK Scores Index：SI（0~10）
LOR Scores（推荐信预测价值）：V（1~3）
Publications：P（1~3）

前言

每年9月初到来年的3月中，参加美国住院医师培训项目Match的中国医学院毕业生，都会不断问自己这样一类问题：

我能Match上吗？
我能Match上哪里？

根据NRMP统计，不具备美国绿卡的外国医学院毕业生（non-US citizen IMG）作为一个特殊群体，在2013-2017年间平均Match率在一般50%左右。然而为什么我们能够看到的身边那些能够一路走到参加Match的医生们，基本都成功Match上了呢？

详见2016年和2017年队列研究结果：

2016 Match 数据初步统计分析（☜点击阅读）
2017年【美国住院医师申请队列研究】基线数据（☜点击阅读）

很重要的原因是，不具备美国绿卡的外国医学院毕业生（non-US citizen IMG）是一个与美国医学院毕业生（AMG）相比起来，非常特殊而又混杂的群体。虽然都被归于non-US citizen IMG这一个类别，但其内部非常多元化，可谓“只有我们想不到的，没有我们看不到的！”。举一些常见的例子：

来自不同国家与地区。可以是战乱不息的叙利亚，也可以是安静祥和的北欧国家...
来自世界不同的医学院。可以是非常出名的老牌医学院，可以是南美加勒比地区的美国后花园医学院，也可以是刚刚进入wdoms的中国独立或三本~
USMLE考分差异很大。可以是270++的学神，可以是刚刚爬过192分及格线的人...
既往工作经历和成就差异很大。可以是发过100+篇以上科研论述的，也可以是不知SCI为何物的新毕业生...
毕业年限差异很大。可以是刚刚五年制本科毕业的24岁，也可以是孩子刚刚24岁五年制本科毕业的50岁上下...
等等

在这个极度多元化的混杂群里，正好我们中国医学院毕业生（Chinese Medical Graduates, CMG）也被笼统地计入其中了。CMG群体（根据官方数据和民间数据推测），每年大约有200+人参与Match。从人数上来说，是这个极度多元化的混杂IMG群体中，人数很小一个群体（IMG 大群体是10000+的人数）。所以，我们如果直接读取“IMG平均Match率在一般50+%左右”这样的信息，实际上有可能是在使用非CMG为代表的人群来替代CMG的数据。

注1：上图取自ECFMG 2015年统计的数据。2015年中国医学院毕业的获得ECFMG Certificate的人有212人，2015年持有中国国籍的获得ECFMG Certificate的人有190人，详见：http://www.ecfmg.org/resources/ECFMG-2015-annual-report.pdf 第17页。需要注意的一点，是这个数据为新获得ECFMG Certificate的人数，这群人中包含有本年9月到下一年3月期间还不参加Match的人；同时每年实际参加Match的人中，有之前获得ECFMG Certificate的人。但预计的每年参加Match的CMG总数，在近些年非常恒常在200多一些。

NRMP也有类似研究，是2014年申请者的数据。详见：http://www.ecfmg.org/resources/NRMP-ECFMG-Charting-Outcomes-in-the-Match-International-Medical-Graduates-2014.pdf 的第21~22页，同样也体现了一个总数250+的人数。

NRMP数据中申请者会多于ECFMG Certificate发放数的原因，是有反复参加Match的既往Match不成功者。

此外，从2007年以来，在国内就读医学院时就开始备考USMLE的人群数有所增长。十年间，从起初的凤毛麟角的个位人数，逐渐成为这200+人里面不可忽视的一个群体。他们遵循着比较相似的备考途径逐渐成长（如“路标系统”、“Match量表”），年龄、背景、甚至考试成绩等都非常类似。他们一次Match率非常高，他们实际上是中国医学院毕业生（Chinese Medical Graduates, CMG）这个相对差异性也比较大的群体中，同质性极高、可复制性极强的一个亚群体。

统计这个亚群体的数据，帮助他们提高Match率，就是我们一直努力的方向！同时，此数据也可以让具有相似相关性的群体作为参考！

注2：因为任何队列研究所具有的局限性，无法统计到所有中国医学院毕业生（Chinese Medical Graduates, CMG）的数据。所以请读者不要以“CMG总match率是多少？”这个数据来作为个人带入思考的依据，而请大家使用“如何能够让自己的数据接近高Match率的CMG人群而更容易获得成功？”，后者才是我们努力的方向！

正文

方法和建模：

根据NRMP和ECFMG对IMG Match的数据统计，Rank order list时的能够填写的项目数量与Match率成正相关关系。也就是说，能够Rank的项目越多，Match率越高。而能够Rank的项目数量，与获得的面试数量是高度相关的。

据此，我们将问题转化为：

已知“面试数越多，Match成功机会越大”；所以，我们”使用面试数作为研究群体Match成功机会的定量替代指标”。

在此基础上，建立一个根据不同因素（自变量）来预测面试数的数学模型。

此外，在2017年4月印制出版的《赴美行医：故事、观点和指南》一书中第334页的【Match量表v4.1】中，对影响面试数的因素作了详细的定性描述，明确了哪些因素对面试数及其最终的Match结果有正面、中立、负面的定性意义，同时提出了这些因素的证据等级分类。而本篇文章的研究是在此基础之上，输入了新的2016及2017年队列研究的基线数据结果（详见：本文前部的队列研究数据），对这些因素（自变量）产生的价值进行定量描述，试图对每个因素给出权重指数，引导大家把精力放在价值高的因素上。因【Match量表v4.1】的数据证据等级比此次研究略低，且数据样本量仅为此次研究的一半左右，所以本次研究的结果是可以替代【Match量表v4.1】的升级版，正式命名为【Match量表v5.0】。

数据来源与收集：

2016年和2017年两次对CMG的前瞻队列研究（Cohort Study），总计样本数101份。

详见：

2016 Match 数据初步统计分析（☜点击阅读）
2017年【美国住院医师申请队列研究】基线数据（☜点击阅读）

收集的因素（自变量）共有以下13项，为业内公认的对Match的结果可能造成影响的因素：

Step1成绩三位数数值
Step2CK成绩三位数数值
Step2CS是否一次通过
是否具有Step3成绩
是否具有绿卡
毕业年限
既往临床经验
既往科研经验
是否具有美国学位（Master, PhD, MPH）
美国临床轮转时间
发表论文数
申请材料完备程度
推荐信预测价值（仅2017年）

我们观察的结果（因变量）包括：

总共收到的面试数
面试数与申请数的比例（即面试率）

详解本实验中，我们对各个自变量的定义、认知（包含认知出处）和采取的数据处理方式：

USMLE Step1和Step2CK成绩（SI）

但由于Step1和Step2CK呈高度相关性（详见《赴美行医：故事、观点和指南》第336页图，以及第2、第3章），我们把两个成绩加和形成USMLE Scores Index（数值在0-10之间），转换规则如下：

○ Step1成绩：

<=220：0
221-230：1
231-240：2
241-250：3
251-260：4
>=260：5

○ Step2CK成绩：

<=220：0
221-230：1
231-240：2
241-250：3
251-260：4
>=260：5

注：以上USMLE Scores Index的方式我们已经在《【大结局】推荐信（LOR），如何影响美国住院医师Match的面试数以及结果？》（☜点击可阅读）一文中同样用过了。

Step2CS

CS是一个通过性考试，无成绩数值。Step2CS曾经有过Fail是对Match结果有负面影响的（详见《赴美行医：故事、观点和指南》第4章：详解Step2CS考试）。我们将CS的因素定义为分类变量：

CS曾经Fail过：0
一次通过CS：1

Step3成绩

Step3虽然有三位数分数，但Step3分数的高低与Step1和Step2CK的三位数成绩不同，并不影响Match结果很多，所以Step3实际上属于通过性考试（详见《赴美行医：故事、观点和指南》第5章：详解Step3考试）。我们将Step3成绩因素定义为分类变量：

申请时不具备Step3成绩：0
申请时具备Step3成绩：1

美国绿卡或公民

具备美国绿卡和公民可以不需要使用J1或H1b签证，可以有更大的项目申请范围，这一向被视为有利于Match的因素。我们将美国绿卡或公民的因素定义为分类变量：

申请时不具备美国绿卡或公民身份：0
申请时具备美国绿卡或公民身份：1

毕业年限

指申请时距离本科或长学制毕业年的时间（各个项目之间的认知，不一定都与ECFMG对待毕业年限的方式相同）。毕业年限，有时会成为住院医师培训项目遴选申请者的因素之一。我们定义为以下有序分类变量：

<1年（相当于应届毕业）：1
1-3年（相当于硕士研究生和住院医师）：2
3-5年（相当于博士研究生和低年资主治）：3
5-10年（相当于高年资主治）：4
>10年（相当于副高及以上）：5

注：以上仅仅说对毕业年限，“相当于XXX”里面的职称，并不计入统计，因为美国医疗体系中无Attending以上的职称。

既往临床经验

指医学院本科毕业后从事临床工作的时间。从事过临床工作，有时候会被项目认知为一个加分项目。我们定义为以下有序分类变量：

<1年（相当于应届毕业）：1
1-3年（相当于硕士研究生和住院医师）：2
3-5年（相当于博士研究生和低年资主治）：3
5-10年（相当于高年资主治）：4
>10年（相当于副高及以上）：5

注：以上仅仅说对临床经历长短，“相当于XXX”里面的职称，并不计入统计，因为美国医疗体系中无Attending以上的职称。

既往科研经验

指医学院本科毕业后从事科研的时间。从事过科研工作，有时候会被项目认知为一个加分项目。我们定义为以下有序分类变量：

<1年（相当于应届毕业）：1
1-3年（相当于硕士研究生）：2
3-5年（相当于博士研究生和低年资博士后）：3
5-10年（相当于高年资博士后）：4
>10年（相当于课题组带头人）：5

注：以上仅仅说对科研经历长短，“相当于XXX”里面的学术头衔，并不计入统计，因为我们统计的是match美国住院医师这个临床岗位，而非academic的科研岗位。

美国临床轮转时间

指以医学生身份轮转（各种elective）时间和以毕业生身份轮转（各种Observation）时间的直接加和。参加过美国临床轮转，是很多项目对申请者的客观要求之一。我们将轮转长度从周数连续变量分为三个等份，转化为有序分类变量：

0-3个月：1
4-5.9个月：2
6个月及以上：3

注：以上elective和observation的界定，详见《赴美行医：故事、观点和指南》一书第239~242页。

发表文章数（P）

指在MyERAS上面填写的发表论文总数。通过文章或者出版物，让业内同行有预先的认知与认可，是对Match有一定正面帮助的。我们将发表文章数从连续变量分为三个等份，转化为有序分类变量：

0-1篇：1
2-7篇：2
8篇及以上：3

注：论文形式包括摘要、期刊全文、正式出版物书籍等。不仅仅为SCI类范围，非SCI类内容同样也包括在内。

申请材料完备程度

IMG在申请时，如果材料不完备，是很少会获得面试的。而住院医师培训项目也一般只对申请材料完整者群体汇总，择优面试。面试档位填满后就不再面试了。每年9月15日网申系统开放，在网申系统开放当日提交完整材料可以在项目审阅材料发放面试时获得先机。这项因素由3个小因素构成，每个小因素是1分，总分是0-3分。

○ 有完整的网申CV（MyERAS）：

否：0
是：1

○ 有ECFMG证书：

否：0
是：1

○ 有三封或以上的推荐信已经上传：

否：0
是：1

推荐信预测价值（V）

推荐信对Match最终结果的讨论，我们已经在2017年9月10日的在线讲座《让哈佛大咖告诉你，推荐信（LOR）是如何影响Match结果的？》（☜点击可收听录播）里面有过很详细的讨论了。因绝大多数情况下，申请者无法看到推荐信的内容，所以在不区分推荐信内容的前提下，我们使用推荐信预测价值（V）作为参考。（详见：《【大结局】推荐信（LOR），如何影响美国住院医师Match的面试数以及结果？》☜点击可阅读）。我们将推荐信预测价值转为为有序分类变量：

[2-7.9]分：1
[8-11.9]分：2
[12-16]分：3

在转换了以上数据之后，激动人心的时刻到来了！我们让统计科学来告诉我们，以上13项客观因素，是如何影响这Match最终结果呢？

通过观测下面两项数据来评估：

总共收到的面试数：总面试数
面试数与申请数的比例：面试率

统计方法

使用SPSS24运行Multivariate linear regression，回归过程使用Step-wise (Criteria： Probability-of-F-to-enter ≤ 0.050, Probability-of-F-to-remove ≥ 0.100)。

Step-wise的回归过程是，按照相关性的强弱，把相关性最强的因素到相关性最弱的因素依次向回归模型加入自变量。每加入一个因素后，判断模型是否有统计差异。如果有统计差异，则在模型中保留该因素，如果无统计差异，则不保留。

结果一：

在统计的12个因素中（因为Step1和Step2CK两个成绩被加和转换为Score Index，所以带入统计计算的是12个自变量，而非13个），有11个因素都单独与总面试数有相关性。仅有Step2CS是否是一次通过与总面试数之间不存在相关性，被排除在回归模型之外。具体解释见本文最末的讨论部分。

12个自变量与总面试数的关系：

接着，我们进行多元线性回归，得出总面试数的多元回归模型。这个模型的R值是用来判断模型的准确程度的，越接近1代表越准确，一般来说R在0.6以上都是可以接受的。这个模型的R=0.551（P<0.001)。只有Step1&Step2CK Score Index这个自变量因素是对面试数的独立影响因素。

辐射：

R=0.551的含义：55.1%的因变量（就是最终结果的“总共收到的面试数”和“面试数与申请数的比例（即面试率）”）的改变可以由以上已知的13个自变量的改变来解释。剩余的44.9%的改变由其他未知的影响因素决定。具体解释见本文最末的讨论部分。

系统给出了Step1 & Step2CK Scores Index这个自变量的Coefficient值，也就是这个范围为0~10的因素对面试数的影响有多大？

可以发现， Step1 & Step2CK Scores Index 这个自变量的“Unstandardized B"（Coefficient值）是2.286 (p<0.001)。

用接地气的话说，就是当Step1 & Step2CK Scores Index提高1个单位（即三位数成绩的在220~260这个范围之内，Step1和Step2CK的加和值每提高10分），总面试数约提高2.3个。

结果二：

在统计的12个因素中（因为Step1和Step2CK两个成绩被加和转换为Score Index，所以带入统计的是12个自变量，而非13个），有11个因素都单独与面试率有相关性。仅有Step2CS是否是一次通过与面试率有之间不存在相关性，被排除在回归模型之外。具体解释见本文最末的讨论部分。

多元回归模型一共发现，对面试率来说，有三个独立影响因素：

USMLE Step1&Step2CK Scores Index（SI）
推荐信预测价值（V）
发表文章数（P）

被这三个独立影响因素的模型，其R=0.600 (p<0.001)。

接下来，我们再看一下这三个因素对面试率的影响大小是什么样？

从Step1&Step2CK Scores Index（SI），LOR Scores（推荐信预测价值（V）），Publications（P）的Standardized Coefficients Beta，我们可以认为，在对面试率的影响上，Step1&Step2CK Scores > LOR Scores > Publications。

解释如下：

Step1&Step2CK Scores Index 这个自变量的“Unstandardized B"是0.013 (p=0.002)，意思是：当Step1 & Step2CK Scores提高1个单位，面试率提高1.3%。
LOR Scores这个自变量的“Unstandardized B"是0.0513 (p=0.007)，意思是：当LOR Scores提高1个单位，面试率提高5.3%。
Publications这个自变量的“Unstandardized B"是0.028 (p=0.026)，意思是：当Publications提高1个单位，面试率提高2.8%。

辐射：

当自变量超过1个时，系统还会计算一个“Standardized Coefficients Beta"，即把所有自变量的“Unstandardized coefficients"转化为[0,1]之间的数值，数值越大，权重越大。这可以纠正对【面试率的预测公式】V1.0可能的误解。因为SI是一个0~10的变量，V和P都是1~3的变量，所以虽然公式是Y = -0.136 + 0.013×SI + 0.053×V + 0.028×P，看似0.013系数是最小，但现在的条件下，很多新一代CMG在正确训练情况下，都可以达到双250+（SI > 6），所以相比其他两个自变量，SI的权重往往仍是最大的。

总结论：

USMLE Step1&Step2CK成绩（SI）是面试数的独立影响因素
USMLE Step1&Step2CK成绩（SI）、推荐信预测价值（V）、发表文章数（P）是面试率的独立影响因素

【面试率的预测公式】V1.0：

Y = -0.136 + 0.013×SI + 0.053×V + 0.028×P

定义如下：

面试率：Y
Step1&Step2CK Scores Index：SI（0~10）
LOR Scores（推荐信预测价值）：V（1~3）
Publications：P（1~3）

从2017年9月起，我们就可以用这个公式预测自己申请后的面试率了！

Match量表

阅读422

电话咨询

顾问公邮