Propensity Score Matching ⭐

어떤 경우에 사용해야 하는가?

​ 1. 사용 목적-Non-randomized observational study의 경우’선택 편의(selection bias)’이란 본질적 한계가 존재한다.-PS는 군대 간의 콤비 요은랴은의 차이를 없게 하여(몇몇 변수를 고려해서)matching하고 군을 다시 나누어 분석하고 causal effect(인과 관계)을 확실히 확인이 가능함-Matching은 계산된 조건부 확률을 이용하여 두 군(treatment, control)의 분포를 비슷하게 만들어 줌으로써 Random allocation을 모방하는 효과가 있기 때문임-실험 연구에서 random은 두 그룹이 동일하지 않은 경우 ​*선택의 편의는? 중재군과 대조군을 치우치게 선택했다는 의미중재군과 대조군의 이질성에 의해 발생, 중재효과를 과소 및 과대추정 가능 – 왜 matching이 아닌 PS를 사용하는가? 1) 군 간의 동질성 위반 시 multiple linear regression과 ANCOVA을 보통 사용하는데 이들의 문제점은 선형 관계라는 것이다. 2)통계에서 matching의 개념은 옛날부터 있어서 왔다. -그러나 한쌍으로 할 경우 문제:서로의 짝이 없는 경우-sample수의 감소-variable이 많을 때 matching과 흉작-이런 문제 때문에 동질성에 대한 점수를 matching한다는 개념이 나온 것==>이것이 propensity score matching​ 2.Regression과 PS는 둘 다 콤비 요은랴은를 보정하는 방법인데, 무엇을 선택하겠는가? – PS는 selection bias를 컨트롤 할 수 있다 – regression과 비교하면 이벤트 발생이 적은 경우에 유용하다. 왜냐하면 Outcome의 이벤트 수가 적을 경우 regression은 모형에 고려되는 변수에 따라 결과가 달라질 수 있기 때문에 안정적이지 않기 때문이다. 그래서 Cepeda et al. 2003도 이하로 지에앙함{Outcome의 event수 ÷potential confounder의 수]가격이 7이하이면 PS방법이 더 좋은 수, 8이상이면 regression이 선호된다.- 그러나 PS의 단점을 고려할 필요가 있는데, 매칭 후 분석에 포함된 대상자 수가 (급격하게) 줄어들 수 있으며, 너무 많은 공변량이 포함되면 매칭이 잘 되지 않는 경우 발생. 그리고 지나치게 보수적일 수 있음 ​ 3. 기타의 적용 1)PS를 보정한 regression:PS값을 regression에 포함시키고 분석하는 것으로 score만을 보정하기 때문에 data가 날아가지 않기 2)PS층화 분석:PS값을 몇가지 층(stratum)로 나누고 각 레이어 내에서 군 간 비교 3)두차 자료에서 sampling weight에 해당하는 것이 PS​ 4. 결론 ​,-그러므로 PS는 sample이 급격히 줄지만 causal effect(인과 관계)를 확실히 확인하시려면 PS를 한다.-Regression과 PS사이에서 고민하고 있다면 event발생 수가 적은 경우 PS를 하면 좋다.PS가 Sample size가 확 줄어들기 때문에 regression을 먼저 한 후 해볼만 한 경우 PS matching에 들어갈 수 있습니다. 사용방법

​ 1. 여러가지 방법이 있지만 여기에서는 Logistic regression model을 이용한 propensity score추정 ​ 2. 고려해야 할 변수, 집단 간에 차이가 있는 변수(콤비 요은랴은)를 고려-이외의 변수를 포함시킬 수 있음-결과 변수는 포함시키지 않기 ​ 3. 매칭의 수 설정-중재 군 vs. 대조군의 수:보통 1:4까지 시행 1:4를 넘으면 결과가 좋아지는 정도가 미미 4. 매칭 순서 1)데이터 탐색 – 콤비 요은랴은 탐색 2)PS추정-독립 변수:콤비 요은랴은-종속 변수:그룹(중재 군 vs, 대조군)를 결과로, 콤비 요은랴은들을 독립 변수로 logistic regression 3)매칭:군 간 가장 비슷한 PS를 가진 대상자만 먼저 매칭 된 뒤 나머지 대상자 내에서 가장 비슷한 PS간 매칭 이 후 남는 것은 서투른 자료 4) 좋은 매칭는지 확인:실제 콤비 요은랴은들이 유사 시에 분포하는가-standardized differences확인:d의 절대 값이 10%보다 크면 군 간 balance 하지 않으면 판단(SPSS는 25%로 설정되는 것)-love plot:론문에 싣고 오면 좋은 일 post matching후 SD가 모두 0쪽에 몰리게 된다

>

​ 5. 매칭 된 자료를 다시 분석:매칭 후에는 paired data이 되니까

>

6. 매칭 방법-여러가지 방법이 있지만 Caliper방법 우선 사용 시간 효율 적임*Caliper방법:중재 군 PS의 범위(propensity score±caliper)속으로 들어가대조군의 PS중에서 가장 가까운 대상자 매칭 ​ 7.SPSS적용 방법(실제의 방법은 다음의 PDF를 참조:://www.samsunghospital.com/upload/editor/File/SPSS+Topic.pdf)1)우선 SPSS에 R기능을 설치해야 한다:구글에서 R version 3.1.3다운 선택적 기능 설치(R통합 플러그 인 설치)2)SPSS에서 Utilities-Custom Dialogs-Install Custom Dialog-psmatching_2.spd파일 open 3)SPSS 할 때 주의점-Group은 꼭 0,1에서 코딩-매칭 하고 PS가 SPSS에 ‘ps’변수로 생성되는데 이를 엑셀로 저장하고 같은 matching number끼리 옆에 붙이는 작업이 필요(matching의 자료여서 동일 PS끼리 모아야 하는 것)​ ​ 8.STATA적용 방법 Statistics-treatment effects-이하의 항목 선택:5개 보면 좋다. regression과 ANCOVA보다 정확한 결과를 보이는 것 1)regression adjustment(동질성 분석, ANCOVA와 동일한 것)2)inverse-probability weights(PS에 가중치를 부여함)3)Doubly robust estimators(우리가 알없는 covariate를 control을 추가하는 것)4)matching estimators-nearest-neighbor matching:대상자끼리 conceptual distance을 요구하는 것:많이 사용하지 않는 ex)연령 propensity score matching많이 사용하기 5)overlap plots:실험 대조군이 얼마나 동일한 것인지 visual을 나타내는

>

>

>

>

BMI에 대해 강남 효과에 차이가 없도록 배분됐다는 것.

>