Part 3에서 당신은 수천 편의 레코드를 수집했다. 이제 그 중 실제로 당신의 연구 질문에 맞는 연구만 남겨야 한다. 스크리닝은 SR의 가장 긴 단계이며, 방법론적 엄격성이 가장 쉽게 흔들리는 단계이기도 하다. 수많은 SR이 여기서 조용히 타협하고, 리뷰어가 나중에 그 타협을 발견한다.
스크리닝은 2단계로 진행된다:
- 1차 스크리닝 (Title/Abstract): 제목과 초록만으로 명백히 관련 없는 연구를 걸러낸다. 빠르게, 포괄적으로.
- 2차 스크리닝 (Full-text): 남은 연구의 전체 원문을 읽고 포함배제 기준에 따라 판단한다. 느리게, 정확하게.
이 파트가 끝나면 당신은 다음을 갖게 된다:
- 1차 스크리닝 완료: 수천 편 → 수백 편
- 2차 스크리닝 완료: 수백 편 → 최종 포함 연구 (예상 30–80편)
- 배제된 full-text 연구 목록 + 각 배제 사유 (PRISMA 2020 item 16b)
- 검토자 간 일치도 지표 (Cohen’s kappa)
- PRISMA 2020 flow diagram 초안
- 슈퍼바이저의 중간 감사(mid-point audit) 결과
4.1 Rayyan — 도구 선택과 설정
스크리닝은 종이에 출력해서 할 수도 있지만, 수천 편 규모에서는 전용 소프트웨어가 필수다. 선택지는 여러 가지다.
4.1.1 도구 비교
| 도구 | 비용 | 장점 | 단점 |
| Rayyan | 무료 | 블라인드 모드, 협업 쉬움, AI 추천, 대규모 지원 | 고급 기능은 유료, 데이터 추출 불가 |
| Covidence | 유료 (기관 구독) | 스크리닝→추출→편향평가 통합, Cochrane 공식 도구 | 비용 부담, Cochrane/기관 구독 필요 |
| Abstrackr | 무료 | 머신러닝 기반 우선순위화 | 인터페이스 투박, 개발 정체 |
| SRDR+ | 무료 (NIH) | 스크리닝+추출 통합, 공개 저장소 | 학습 곡선 가파름, 사용자 적음 |
| Excel/Google Sheets | 무료 | 완전한 커스터마이징, 친숙 | 블라인드 불가, 오류 발생 쉬움, 추천 안 함 |
본 튜토리얼은 Rayyan을 표준으로 사용한다. 이유: (i) 무료, (ii) 한국·국제 연구실 모두 접근 가능, (iii) 블라인드 모드가 기본 기능, (iv) 2인 이상 협업이 쉽다.
4.1.2 Rayyan 프로젝트 설정
Part 3에서 중복 제거를 마친 레코드를 Rayyan에 업로드한 상태에서 시작한다.
- Rayyan 로그인 → “New Review” 또는 기존 프로젝트 선택
- “Import” 버튼 → Zotero에서 export한 RIS 파일 업로드
- Rayyan의 자동 중복 제거 실행 (Zotero에서 놓친 중복 추가 탐지)
- 프로젝트 설정 → “Blind on” 활성화 (필수!)
- 공동 검토자 초대: “Invite” → 이메일 입력 → 역할 “Collaborator”로 설정
| ⚡ 주의: 블라인드 모드 — 반드시 활성화
블라인드 모드는 각 검토자가 자신의 판단만 볼 수 있고, 다른 검토자의 판단은 볼 수 없게 한다. 이것이 “독립적” 검토의 핵심이다. 블라인드 모드를 활성화하지 않으면: • 검토자 A가 “Include”를 표시하면, 검토자 B가 그 표시를 보고 편향될 수 있다 • Anchoring bias가 발생 — 첫 검토자의 판단이 기준점이 됨 • 일치도 지표(kappa)가 인위적으로 높아져 실제 신뢰도를 과대평가 Rayyan에서 블라인드 모드는 프로젝트 설정에서 켤 수 있다. 스크리닝 시작 전 반드시 확인하라. |
4.1.3 Rayyan 라벨과 태그
스크리닝 중 다음 기능을 활용:
- Include (포함): 명백히 포함되거나 full-text 검토 필요
- Exclude (배제): 명백히 관련 없음
- Maybe (보류): 판단 어려움. 2차 스크리닝으로 넘김 또는 토론
- Reason labels (배제 사유 라벨): 배제 시 사유를 태그로 부착 (아래4 참조)
- Highlights: 중요 키워드 하이라이트 (예: “CHR”, “cognition”) — 빠른 시각적 스캔 가능
4.2 Pilot Screening — 칼리브레이션의 결정적 단계
스크리닝을 본격적으로 시작하기 전에 반드시 pilot screening을 수행하라. 이 단계를 생략하면 이후 스크리닝 결과가 흔들린다. 대학원생이 가장 자주 건너뛰는 단계이자, 건너뛰면 안 되는 단계다.
4.2.1 Pilot screening의 목적
- 포함/배제 기준의 모호함 발견: “사례 시리즈 n=12도 포함? n=8은 배제?” 같은 경계 사례
- 검토자 간 해석 차이 발견: 두 검토자가 같은 기준을 다르게 적용하는지 확인
- 포함 기준의 조작적 정의 정련: 애매한 표현을 구체화
- 검토자 간 일치도(Cohen’s kappa) 측정: 본 스크리닝 시작 전 ≥ 0.6 확보
- 스크리닝 속도 측정: 시간 계획 수립
4.2.2 Pilot screening 절차
- 전체 레코드에서 무작위 50–100편 선택 (너무 적으면 통계적 의미 없음)
- 메인 검토자와 보조 검토자가 독립적으로 스크리닝
- 각자 Include/Exclude/Maybe 판단
- Cohen’s kappa 계산
- 불일치 사례 토론 → 기준 명확화
- 필요 시 프로토콜 수정 (Part 2의 amendment 문서화)
- kappa < 0.6이면 새 50편으로 재시도
4.2.3 Cohen’s kappa 계산과 해석
두 검토자 간 일치도를 측정하는 통계량. 우연에 의한 일치를 제거한다.
κ = (Pₒ – Pₑ) / (1 – Pₑ) Pₒ = 관찰된 일치 비율 Pₑ = 우연에 의해 기대되는 일치 비율
수계산 예시:
| 📌 예시: Kappa 계산 — 50편 pilot
두 검토자의 판단 교차표:
Pₒ = (12 + 31) / 50 = 0.86 Pₑ = (16×15)/50² + (34×35)/50² = 0.096 + 0.476 = 0.572 κ = (0.86 – 0.572) / (1 – 0.572) = 0.288 / 0.428 = 0.673 해석: κ = 0.67 → 본 스크리닝 진행 가능 (허용 기준 ≥ 0.6) |
Kappa 해석 기준 (Landis & Koch, 1977):
| Kappa 범위 | 일치도 수준 | SR에서의 조치 |
| < 0.0 | Poor (우연 이하) | 심각한 문제. 기준 완전 재작성. |
| 0.00 – 0.20 | Slight | 기준 재작성 필수. 재훈련. |
| 0.21 – 0.40 | Fair | 기준 수정 + 새 50편 pilot. |
| 0.41 – 0.60 | Moderate | 경계선. 기준 명확화 후 재시도. |
| 0.61 – 0.80 | Substantial | 수용 가능. 본 스크리닝 진행. |
| 0.81 – 1.00 | Almost perfect | 우수. 단 너무 높으면 기준이 자명한지 의심. |
| ⚡ 주의: Kappa 해석의 함정
Kappa는 prevalence(기준 사건의 빈도)에 민감하다. 스크리닝에서는 대부분이 “Exclude”이므로 “Include”의 prevalence가 낮다. 이 경우 kappa가 낮게 나올 수 있음에도 실제 동의율은 높을 수 있다 (“kappa paradox”). 대안 지표: • Prevalence-adjusted bias-adjusted kappa (PABAK): 불균형에 덜 민감 • Percent agreement: 단순하지만 기저율 보정 없음 — 기본 참고용 • Gwet’s AC1: 불균형에 강건 권장: Cohen’s kappa와 percent agreement를 함께 보고하라. |
4.2.4 Rayyan에서 Kappa 계산
Rayyan은 내장 kappa 계산기를 제공한다:
- 두 검토자가 각자 pilot 50편 스크리닝 완료
- 프로젝트 “Reports” → “Inter-rater agreement”
- Cohen’s kappa 자동 계산 + 불일치 레코드 목록
- 불일치 레코드를 클릭하여 이유 토론
| 💡 팁: R로 kappa 계산
Rayyan을 쓰지 않거나 PABAK 등 추가 지표를 원한다면 R: library(irr) # x1, x2는 두 검토자의 판단 벡터 (“include”, “exclude”) kappa2(cbind(x1, x2)) # PABAK library(psych) cohen.kappa(cbind(x1, x2)) |
4.3 1차 스크리닝 (Title/Abstract)
Pilot에서 kappa ≥ 0.6을 확보했다면 본 스크리닝을 시작한다.
4.3.1 1차 스크리닝의 원칙
- 빠르게: 1편당 30초–2분 목표. 1000편 스크리닝은 약 20–30시간.
- 포괄적으로: 확신이 없으면 “Include”로 표시 (full-text에서 다시 판단)
- 독립적으로: 다른 검토자의 판단을 보지 않고 자신의 판단만 기록
- 일관되게: 프로토콜의 포함 기준을 기계적으로 적용
- 기록하라: 배제 사유 라벨 부착 (선택적이지만 권장)
4.3.2 1차 스크리닝 체크리스트
제목과 초록을 읽을 때 다음 순서로 확인:
- 연구 대상(P)이 CHR에 해당하는가? (명시적 또는 합리적 추정)
- 관련 결과 변수(O)가 언급되는가? (인지, 신경심리, 특정 과제)
- 비교군(C)이 있는가? (건강대조군 또는 유사)
- 연구 설계(S)가 포함 범위인가? (단면/종단 vs 사례 보고 등)
- 명백한 배제 조건이 있는가? (종설, 사설, 동물, 프로토콜)
4.3.3 Title/Abstract만으로 판단 어려운 경우
초록이 부족하거나 모호한 경우가 많다. 원칙:
초록에서 배제할 확실한 이유가 없으면 포함한다 (“when in doubt, include”).
이 원칙을 따르는 이유:
- 1차 스크리닝의 목표는 명백한 비관련 연구 제거이지, 최종 판단이 아니다
- Full-text에서 다시 판단할 기회가 있다
- 과도한 1차 배제는 “false negative”를 낳는다 (실제 관련 있는 연구 누락)
| ⚠ 흔한 실수: 1차 스크리닝에서 과도한 배제
신입 검토자가 자주 저지르는 실수: “초록에 [특정 측정 도구]가 없으면 배제” 같은 경직된 적용. 현실: 초록 공간이 제한적이라 저자가 모든 세부사항을 쓰지 못한다. “working memory”만 언급하고 n-back 과제임을 초록에 쓰지 않은 연구는 흔하다. 규칙: 1차 스크리닝에서는 “P와 O의 큰 틀”만 본다. 세부 측정 도구, 구체적 연령 범위, 정확한 진단 기준은 full-text에서 확인한다. |
4.3.4 1차 스크리닝 워크플로우
| 📌 예시: 2주간의 1차 스크리닝 일정 (1800편 기준)
Week 1 (월~금): • 매일 2시간 × 5일 = 10시간. 약 400편/일 × 5일 ≈ 800편 • 메인 연구자와 보조 연구자가 독립적으로 진행 • 금요일 오후 30분 중간 미팅: 어려웠던 케이스 공유 Week 2 (월~금): • 나머지 1000편 스크리닝 완료 • 금요일: Rayyan에서 일치도 확인 및 불일치 해결 • 불일치 해결 결과로 PRISMA flow의 “Records screened” 숫자 확정 |
4.4 불일치 해결
두 검토자의 판단이 다를 때 해결하는 절차. 이 단계를 제대로 하지 않으면 SR의 방법론적 정당성이 무너진다.
4.4.1 3단계 해결 프로세스
- 1단계 – 토론: 두 검토자가 불일치 레코드를 함께 검토하고 토론
- 2단계 – 기준 참조: 프로토콜의 포함/배제 기준을 정확히 재적용
- 3단계 – 제3자 중재: 여전히 합의 안 되면 슈퍼바이저가 최종 결정
| 💡 팁: 불일치 해결의 실제 팁
• 불일치 레코드를 “잘못 판단한 쪽을 찾는” 관점이 아니라, “기준이 모호한 곳을 찾는” 관점으로 본다 • 불일치가 많이 생긴 유형(예: “schizoaffective 포함 여부”)은 기준 개선 기회 • 기준 수정이 필요하면 프로토콜 amendment 문서에 기록 (Part 2 참조) • 수정된 기준은 이미 스크리닝한 레코드에도 소급 적용 (필요 시 재스크리닝) |
4.4.2 슈퍼바이저의 역할
슈퍼바이저는 모든 레코드를 재검토하지 않는다. 구체적 역할:
- 두 검토자가 합의하지 못한 불일치 레코드만 검토
- 판단의 기준 — 프로토콜에 명시된 포함/배제 기준
- 결정 이유를 기록 (향후 학습 자료)
- 반복되는 유형의 불일치가 있으면 기준 개선을 권고
4.5 2차 스크리닝 (Full-text)
1차 스크리닝에서 “Include”로 분류된 레코드의 full-text를 확보하고 상세히 검토한다.
4.5.1 Full-text 확보
- 기관 전자도서관을 통한 full-text 다운로드
- 접근 불가 시: 저자에게 이메일 요청 (ResearchGate 포함)
- Interlibrary loan(상호대차) 요청
- Sci-Hub 등: 법적윤리적 문제로 권장하지 않음
Full-text 확보 불가 시: 배제 사유를 “Unable to retrieve full-text”로 기록. 이는 PRISMA flow diagram에 별도로 표시된다.
4.5.2 Full-text 스크리닝 절차
1차와 동일하게 2인 독립 검토. 차이점:
- 시간: 1편당 10–30분 (원문 읽기)
- 판단 기준: 프로토콜의 모든 세부 기준을 엄격히 적용
- 배제 사유: 반드시 구체적으로 기록 (아래6 참조)
- 불확실성: 1차와 달리 “Maybe”는 허용 안 됨. 최종 판단 필요
4.5.3 Full-text 스크리닝 양식
| 📝 템플릿: Full-text 스크리닝 기록 양식
각 full-text 논문에 대해: • 논문 식별 정보 (저자, 연도, 저널, DOI) • 포함 기준 체크리스트 (P, I/E, C, O, S 각각 ✓/✗) • 최종 판단: Include / Exclude • 배제 시 구체적 사유 (예: “CHR 대신 FEP 환자”, “HC 비교군 없음”) • 특이사항 노트 (예: “sample overlap with [다른 논문] 가능성 확인 필요”) • 검토자 이니셜과 날짜 |
4.6 배제 사유 기록 — PRISMA 2020 item 16b
Full-text에서 배제한 모든 연구에 대해 구체적 배제 사유를 기록해야 한다. PRISMA 2020 item 16b는 이를 공식적으로 요구한다. 이는 종종 빠뜨리지만 출판 시 리뷰어가 반드시 지적하는 항목이다.
4.6.1 배제 사유의 구조화
각 배제 사유는 사전에 정의된 카테고리로 분류되어야 한다. 임의 서술형은 권장되지 않는다.
| 📌 예시: CHR 인지 SR의 배제 사유 카테고리
45. Wrong population (Population 불일치): CHR이 아닌 FEP, 만성 조현병, 기타 정신과 질환 46. No healthy control (HC 비교군 없음): 환자군만 있거나 다른 환자군만 비교 47. Wrong outcome (Outcome 불일치): 인지 측정 없음 또는 해석 불가능한 측정 48. Wrong study design (설계 불일치): 사례 보고, 사례 시리즈(n<10), 종설, 사설 49. Overlapping sample (중복 표본): 다른 포함 논문과 동일 참여자 50. Conference abstract only (학회 초록만 있음) 51. Insufficient data (데이터 불충분): 평균·표준편차 미보고 52. Language (언어): 영어·한국어 외, 번역 불가 53. Unable to retrieve full-text (원문 확보 실패) |
4.6.2 배제 사유 기록 방식
Rayyan에서는 “Reasons” 기능을 활용:
- 각 배제 사유 카테고리를 사전에 등록
- Exclude 시 해당 사유 태그 부착
- 다중 사유 가능 (예: 중복 표본 + 데이터 불충분)
- Export 시 사유별로 필터링 가능
| ⚡ 주의: 주된 사유 1개 선택
논문 1편에 여러 배제 사유가 적용될 수 있다 (예: CHR이 아니고 + HC 없음). 그러나 PRISMA 2020은 “주된(primary) 배제 사유 1개”만 보고할 것을 권장한다. 그렇지 않으면 배제 사유 합계가 배제 논문 수보다 많아져 혼란스러움. 규칙: 두 사유가 모두 적용되면 PICOS 순서로 우선 (P > I/E > C > O > S). CHR이 아니고 HC도 없으면 “Wrong population”으로 분류. |
4.6.3 배제 논문 목록의 공개
PRISMA 2020은 full-text에서 배제한 논문들의 목록과 사유를 supplementary material로 공개할 것을 요구한다.
| 📝 템플릿: 배제 논문 목록 테이블 예시
|
4.7 중간 감사 (Mid-point Audit)
1차 스크리닝의 10% 지점에서 슈퍼바이저가 검토자의 판단을 감사한다. 이는 조기에 방법론적 이탈을 발견하는 안전장치다.
4.7.1 감사 절차
- 1차 스크리닝의 10% 완료 시점에 중간 보고
- 슈퍼바이저가 무작위 50편을 재스크리닝
- 슈퍼바이저 판단 vs 검토자들의 판단 비교
- 불일치 패턴 분석:
- 메인 검토자만 불일치 → 메인 검토자 재훈련
- 보조 검토자만 불일치 → 보조 검토자 재훈련
- 양쪽 모두 불일치 → 포함/배제 기준 자체가 모호, 프로토콜 수정
- 수정 후 이미 스크리닝한 레코드 재검토 여부 결정
| ⚡ 주의: 중간 감사를 건너뛰는 유혹
바쁘고, 진행이 지연되고, 슈퍼바이저가 시간이 없다는 이유로 중간 감사를 생략하는 유혹이 강하다. 그러나 이 단계를 건너뛰었다가 최종 스크리닝 완료 후 체계적 오류가 발견되면, 전체 스크리닝을 다시 해야 한다. 프로젝트 타임라인 1–2개월 손실. 규칙: 중간 감사는 프로토콜 체크포인트로 사전에 일정에 박아두라. 슈퍼바이저의 책임이다. |
4.8 PRISMA 2020 Flow Diagram
스크리닝의 전체 과정을 시각화하는 표준 다이어그램. Page et al. (2021, BMJ)의 PRISMA 2020 statement가 표준 템플릿을 제공한다.
4.8.1 PRISMA 2020 Flow의 구조
5단계로 구성:
- Identification (식별): 각 DB별 검색 결과 수
- Screening 전 중복 제거: 중복 레코드 제거 후 수
- Screening (1차): Title/abstract 스크리닝. 배제 수 포함
- Eligibility (2차): Full-text 검토. 배제 수와 사유별 분류
- Included: 최종 포함 연구 수
| 📝 템플릿: PRISMA 2020 Flow Diagram 예시 (CHR 인지 SR)
Identification Records identified from databases: MEDLINE (via PubMed): 1,847 Embase (via Ovid): 2,634 PsycINFO: 1,203 Cochrane CENTRAL: 189 KoreaMed: 42 Total: 5,915 Records identified from other methods: Citation chasing: 23 Hand-searching: 8 Expert contacts: 4 Total: 35 Removed before screening Duplicate records removed: 2,073 Records after deduplication: 3,842 Screening (Title/Abstract) Records screened: 3,842 Records excluded: 3,456 Records for full-text retrieval: 386 Retrieval Reports sought for retrieval: 386 Reports not retrieved: 12 Reports assessed for eligibility: 374 Eligibility (Full-text) Reports excluded: 316 Wrong population: 98 No healthy control: 64 Wrong outcome: 57 Wrong study design: 43 Overlapping sample: 28 Conference abstract: 12 Insufficient data: 8 Language: 4 Other reasons: 2 Included Studies included in review: 58 (Reports of included studies: 58) |
4.8.2 Flow Diagram 작성 도구
- PRISMA 2020 official generator: prisma-statement.org/prismastatement/flowdiagram
- PRISMA2020 R package (Haddaway et al., 2022)
- Rayyan의 PRISMA export 기능
- 수동 작성: PowerPoint, Lucidchart, draw.io
| 💡 팁: 숫자의 일관성 확인
Flow diagram의 숫자들은 반드시 합이 맞아야 한다. 흔한 오류: • 중복 제거 후 수 ≠ (각 DB 합) – 중복 수 • Screened 수 ≠ Retrieved + Excluded • Included 수가 배제 사유별 분류 합과 안 맞음 출판 전 검토자가 반드시 계산기로 검증해야 한다. |
4.9 스크리닝 기록의 완전성
Part 4 완료 시 다음이 모두 보관되어야 한다. 이 기록은 PRISMA-S와 PRISMA 2020 보고에 사용된다.
4.9.1 보관해야 할 데이터
- 원본 검색 결과 (각 DB별 raw export 파일)
- 중복 제거 전/후 레코드 수
- 1차 스크리닝 판단 로그 (각 레코드, 각 검토자별)
- Pilot screening 데이터와 kappa 계산
- 본 스크리닝의 kappa 지표
- 불일치 레코드 목록과 해결 기록
- 2차 스크리닝 판단 로그
- Full-text 배제 논문 목록과 사유
- Full-text 확보 실패 논문 목록
- 중간 감사 결과
- 프로토콜 수정 이력 (있는 경우)
| 💡 팁: OSF 저장소 활용
모든 스크리닝 기록을 OSF (Open Science Framework) 프로젝트에 저장할 것을 권장한다. • 무료, 영구 URL 제공 • DOI 발급 가능 • PROSPERO 레코드와 연결 가능 • 논문 투고 시 reviewer 검증 가능 URL: osf.io |
4.10 스크리닝의 흔한 실수
| ⚠ 흔한 실수: 실수 1 — 블라인드 모드 미활성화
Rayyan의 기본 설정에서 블라인드가 꺼져 있을 수 있다. 확인 없이 시작하면 두 검토자가 서로의 판단을 보게 된다. 해결: 프로젝트 설정에서 “Blind mode ON” 명시적으로 활성화. 스크리닝 시작 전 “다른 검토자의 판단이 안 보인다”는 것을 각자 확인. |
| ⚠ 흔한 실수: 실수 2 — Pilot 없이 본 스크리닝 시작
“시간이 없다”는 이유로 pilot을 생략하고 본 스크리닝 시작. 1500편 스크리닝 완료 후 kappa 측정 → 0.4 → 전체 재스크리닝. 해결: Pilot은 필수. 50편 스크리닝에 4–6시간, kappa 계산과 토론에 2시간. 총 하루 투자로 이후 수 주의 재작업 방지. |
| ⚠ 흔한 실수: 실수 3 — “Maybe” 남발
확신이 없어서 대부분을 “Maybe”로 표시. 결국 거의 모든 레코드가 full-text 검토로 넘어가 스크리닝 효율 제로. 해결: 1차에서 “포함 기준에 명백히 반하지 않으면 Include” 원칙. Maybe는 전체의 5% 미만이어야 한다. |
| ⚠ 흔한 실수: 실수 4 — 배제 사유 기록 생략
Full-text 배제 시 “not relevant”로만 기록. 리뷰어의 요청으로 300편을 재검토해야 하는 상황 발생. 해결: 사유 카테고리를 사전 정의 후 Rayyan의 Reasons 기능으로 태그. 처음부터 체계적으로 기록. |
| ⚠ 흔한 실수: 실수 5 — 중복 샘플 미확인
같은 연구 참여자가 여러 논문에 보고된 것을 확인하지 않고 모두 포함. 메타분석이라면 과대가중치 문제. 해결: Full-text 검토 시 “sample source” 항목 확인 (예: NAPLS-2, EDIPPP, PACE 같은 코호트 이름). 중복이 의심되면 저자 연락 + 둘 중 하나 선택 (더 긴 추적, 더 큰 n, 더 최신). |
| ⚠ 흔한 실수: 실수 6 — 스크리닝 중 기준 변경 기록 누락
스크리닝 도중 “아, schizoaffective는 포함하자”로 방침 변경. 그러나 기록 없음. 해결: 모든 기준 변경을 프로토콜 amendment 문서에 기록 (변경 일자, 이유, 소급 적용 여부). PRISMA 2020 item 24c 요구. |
4.11 Part 4 산출물
- 완료된 Rayyan 프로젝트 (공유 가능 URL)
- Pilot screening 보고서 (kappa 계산 포함)
- 본 스크리닝 kappa 최종 지표
- 불일치 해결 로그
- Full-text 확보 기록 (성공 vs 실패)
- 최종 포함 연구 목록 (서지정보)
- Full-text 배제 논문 목록 + 사유 (supplementary)
- PRISMA 2020 flow diagram (초안)
- 중간 감사 결과 보고서
4.12 Part 4 종료 체크포인트
| ✔ 체크포인트: 자기 평가 체크리스트
방법론적 정당성 ☐ 2명의 독립적 검토자가 모든 단계에서 작업했다. ☐ Rayyan의 블라인드 모드가 활성화된 상태로 스크리닝했다. ☐ Pilot screening을 수행하고 kappa ≥ 0.6을 달성했다. ☐ 본 스크리닝의 kappa도 측정했다. ☐ 불일치 레코드는 토론 또는 제3자 중재로 해결했다. ☐ 중간 감사를 1차 스크리닝의 10% 지점에서 수행했다. 스크리닝 완성도 ☐ 1차 스크리닝을 완료했다 (Title/Abstract). ☐ 2차 스크리닝을 완료했다 (Full-text). ☐ Full-text 배제 논문에 대해 구체적 사유를 모두 기록했다. ☐ 배제 사유는 사전 정의된 카테고리로 분류했다. ☐ 중복 샘플을 확인하고 처리했다. ☐ Full-text 확보 실패 논문을 별도 기록했다. 보고 준비 ☐ PRISMA 2020 flow diagram을 작성했다. ☐ Flow diagram의 숫자가 모두 일관된다 (합이 맞음). ☐ 최종 포함 연구 목록이 확정되었다. ☐ 모든 데이터가 OSF 또는 로컬 백업에 보관되어 있다. ☐ 슈퍼바이저가 최종 포함 연구 목록을 검토하고 승인했다. |
Part 4 주요 참고문헌
Byrt, T., Bishop, J., & Carlin, J. B. (1993). Bias, prevalence and kappa. Journal of Clinical Epidemiology, 46(5), 423–429. [Kappa paradox]
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
Gwet, K. L. (2008). Computing inter-rater reliability and its variance in the presence of high agreement. British Journal of Mathematical and Statistical Psychology, 61(1), 29–48.
Haddaway, N. R., Page, M. J., Pritchard, C. C., & McGuinness, L. A. (2022). PRISMA2020: an R package and Shiny app for producing PRISMA 2020-compliant flow diagrams. Campbell Systematic Reviews, 18(2), e1230.
Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
McDonagh, M., Peterson, K., Raina, P., Chang, S., & Shekelle, P. (2013). Avoiding bias in selecting studies. In: Methods Guide for Effectiveness and Comparative Effectiveness Reviews. AHRQ.
Ouzzani, M., Hammady, H., Fedorowicz, Z., & Elmagarmid, A. (2016). Rayyan — a web and mobile app for systematic reviews. Systematic Reviews, 5, 210.
Page, M. J., McKenzie, J. E., Bossuyt, P. M., et al. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ, 372, n71.
Stoll, C. R. T., Izadi, S., Fowler, S., Green, P., Suls, J., & Colditz, G. A. (2019). The value of a second reviewer for study selection in systematic reviews. Research Synthesis Methods, 10(4), 539–545.
Waffenschmidt, S., Knelangen, M., Sieben, W., Bühn, S., & Pieper, D. (2019). Single screening versus conventional double screening for study selection in systematic reviews: a methodological systematic review. BMC Medical Research Methodology, 19, 132.