Part 4. 스크리닝 — 이중 독립 검토의 실제

Part 3에서 당신은 수천 편의 레코드를 수집했다. 이제 그 중 실제로 당신의 연구 질문에 맞는 연구만 남겨야 한다. 스크리닝은 SR의 가장 긴 단계이며, 방법론적 엄격성이 가장 쉽게 흔들리는 단계이기도 하다. 수많은 SR이 여기서 조용히 타협하고, 리뷰어가 나중에 그 타협을 발견한다.

스크리닝은 2단계로 진행된다:

  • 1차 스크리닝 (Title/Abstract): 제목과 초록만으로 명백히 관련 없는 연구를 걸러낸다. 빠르게, 포괄적으로.
  • 2차 스크리닝 (Full-text): 남은 연구의 전체 원문을 읽고 포함배제 기준에 따라 판단한다. 느리게, 정확하게.

이 파트가 끝나면 당신은 다음을 갖게 된다:

  1. 1차 스크리닝 완료: 수천 편 → 수백 편
  2. 2차 스크리닝 완료: 수백 편 → 최종 포함 연구 (예상 30–80편)
  3. 배제된 full-text 연구 목록 + 각 배제 사유 (PRISMA 2020 item 16b)
  4. 검토자 간 일치도 지표 (Cohen’s kappa)
  5. PRISMA 2020 flow diagram 초안
  6. 슈퍼바이저의 중간 감사(mid-point audit) 결과

4.1 Rayyan — 도구 선택과 설정

스크리닝은 종이에 출력해서 할 수도 있지만, 수천 편 규모에서는 전용 소프트웨어가 필수다. 선택지는 여러 가지다.

4.1.1 도구 비교

도구 비용 장점 단점
Rayyan 무료 블라인드 모드, 협업 쉬움, AI 추천, 대규모 지원 고급 기능은 유료, 데이터 추출 불가
Covidence 유료 (기관 구독) 스크리닝→추출→편향평가 통합, Cochrane 공식 도구 비용 부담, Cochrane/기관 구독 필요
Abstrackr 무료 머신러닝 기반 우선순위화 인터페이스 투박, 개발 정체
SRDR+ 무료 (NIH) 스크리닝+추출 통합, 공개 저장소 학습 곡선 가파름, 사용자 적음
Excel/Google Sheets 무료 완전한 커스터마이징, 친숙 블라인드 불가, 오류 발생 쉬움, 추천 안 함

본 튜토리얼은 Rayyan을 표준으로 사용한다. 이유: (i) 무료, (ii) 한국·국제 연구실 모두 접근 가능, (iii) 블라인드 모드가 기본 기능, (iv) 2인 이상 협업이 쉽다.

4.1.2 Rayyan 프로젝트 설정

Part 3에서 중복 제거를 마친 레코드를 Rayyan에 업로드한 상태에서 시작한다.

  1. Rayyan 로그인 → “New Review” 또는 기존 프로젝트 선택
  2. “Import” 버튼 → Zotero에서 export한 RIS 파일 업로드
  3. Rayyan의 자동 중복 제거 실행 (Zotero에서 놓친 중복 추가 탐지)
  4. 프로젝트 설정 → “Blind on” 활성화 (필수!)
  5. 공동 검토자 초대: “Invite” → 이메일 입력 → 역할 “Collaborator”로 설정
⚡ 주의: 블라인드 모드 — 반드시 활성화

블라인드 모드는 각 검토자가 자신의 판단만 볼 수 있고, 다른 검토자의 판단은 볼 수 없게 한다. 이것이 “독립적” 검토의 핵심이다.

블라인드 모드를 활성화하지 않으면:

•       검토자 A가 “Include”를 표시하면, 검토자 B가 그 표시를 보고 편향될 수 있다

•       Anchoring bias가 발생 — 첫 검토자의 판단이 기준점이 됨

•       일치도 지표(kappa)가 인위적으로 높아져 실제 신뢰도를 과대평가

Rayyan에서 블라인드 모드는 프로젝트 설정에서 켤 수 있다. 스크리닝 시작 전 반드시 확인하라.

4.1.3 Rayyan 라벨과 태그

스크리닝 중 다음 기능을 활용:

  • Include (포함): 명백히 포함되거나 full-text 검토 필요
  • Exclude (배제): 명백히 관련 없음
  • Maybe (보류): 판단 어려움. 2차 스크리닝으로 넘김 또는 토론
  • Reason labels (배제 사유 라벨): 배제 시 사유를 태그로 부착 (아래4 참조)
  • Highlights: 중요 키워드 하이라이트 (예: “CHR”, “cognition”) — 빠른 시각적 스캔 가능

4.2 Pilot Screening — 칼리브레이션의 결정적 단계

스크리닝을 본격적으로 시작하기 전에 반드시 pilot screening을 수행하라. 이 단계를 생략하면 이후 스크리닝 결과가 흔들린다. 대학원생이 가장 자주 건너뛰는 단계이자, 건너뛰면 안 되는 단계다.

4.2.1 Pilot screening의 목적

  1. 포함/배제 기준의 모호함 발견: “사례 시리즈 n=12도 포함? n=8은 배제?” 같은 경계 사례
  2. 검토자 간 해석 차이 발견: 두 검토자가 같은 기준을 다르게 적용하는지 확인
  3. 포함 기준의 조작적 정의 정련: 애매한 표현을 구체화
  4. 검토자 간 일치도(Cohen’s kappa) 측정: 본 스크리닝 시작 전 ≥ 0.6 확보
  5. 스크리닝 속도 측정: 시간 계획 수립

4.2.2 Pilot screening 절차

  1. 전체 레코드에서 무작위 50–100편 선택 (너무 적으면 통계적 의미 없음)
  2. 메인 검토자와 보조 검토자가 독립적으로 스크리닝
  3. 각자 Include/Exclude/Maybe 판단
  4. Cohen’s kappa 계산
  5. 불일치 사례 토론 → 기준 명확화
  6. 필요 시 프로토콜 수정 (Part 2의 amendment 문서화)
  7. kappa < 0.6이면 새 50편으로 재시도

4.2.3 Cohen’s kappa 계산과 해석

두 검토자 간 일치도를 측정하는 통계량. 우연에 의한 일치를 제거한다.

κ = (Pₒ – Pₑ) / (1 – Pₑ)  Pₒ = 관찰된 일치 비율 Pₑ = 우연에 의해 기대되는 일치 비율

수계산 예시:

📌 예시: Kappa 계산 — 50편 pilot

두 검토자의 판단 교차표:

  B: Include B: Exclude 합계 (A)
A: Include 12 4 16
A: Exclude 3 31 34
합계 (B) 15 35 50

 

Pₒ = (12 + 31) / 50 = 0.86 Pₑ = (16×15)/50² + (34×35)/50² = 0.096 + 0.476 = 0.572 κ = (0.86 – 0.572) / (1 – 0.572) = 0.288 / 0.428 = 0.673

해석: κ = 0.67 → 본 스크리닝 진행 가능 (허용 기준 ≥ 0.6)

Kappa 해석 기준 (Landis & Koch, 1977):

Kappa 범위 일치도 수준 SR에서의 조치
< 0.0 Poor (우연 이하) 심각한 문제. 기준 완전 재작성.
0.00 – 0.20 Slight 기준 재작성 필수. 재훈련.
0.21 – 0.40 Fair 기준 수정 + 새 50편 pilot.
0.41 – 0.60 Moderate 경계선. 기준 명확화 후 재시도.
0.61 – 0.80 Substantial 수용 가능. 본 스크리닝 진행.
0.81 – 1.00 Almost perfect 우수. 단 너무 높으면 기준이 자명한지 의심.

⚡ 주의: Kappa 해석의 함정

Kappa는 prevalence(기준 사건의 빈도)에 민감하다. 스크리닝에서는 대부분이 “Exclude”이므로 “Include”의 prevalence가 낮다. 이 경우 kappa가 낮게 나올 수 있음에도 실제 동의율은 높을 수 있다 (“kappa paradox”).

대안 지표:

•       Prevalence-adjusted bias-adjusted kappa (PABAK): 불균형에 덜 민감

•       Percent agreement: 단순하지만 기저율 보정 없음 — 기본 참고용

•       Gwet’s AC1: 불균형에 강건

권장: Cohen’s kappa와 percent agreement를 함께 보고하라.

4.2.4 Rayyan에서 Kappa 계산

Rayyan은 내장 kappa 계산기를 제공한다:

  1. 두 검토자가 각자 pilot 50편 스크리닝 완료
  2. 프로젝트 “Reports” → “Inter-rater agreement”
  3. Cohen’s kappa 자동 계산 + 불일치 레코드 목록
  4. 불일치 레코드를 클릭하여 이유 토론

💡 팁: R로 kappa 계산

Rayyan을 쓰지 않거나 PABAK 등 추가 지표를 원한다면 R:

library(irr) # x1, x2는 두 검토자의 판단 벡터 (“include”, “exclude”) kappa2(cbind(x1, x2))  # PABAK library(psych) cohen.kappa(cbind(x1, x2))

4.3 1차 스크리닝 (Title/Abstract)

Pilot에서 kappa ≥ 0.6을 확보했다면 본 스크리닝을 시작한다.

4.3.1 1차 스크리닝의 원칙

  1. 빠르게: 1편당 30초–2분 목표. 1000편 스크리닝은 약 20–30시간.
  2. 포괄적으로: 확신이 없으면 “Include”로 표시 (full-text에서 다시 판단)
  3. 독립적으로: 다른 검토자의 판단을 보지 않고 자신의 판단만 기록
  4. 일관되게: 프로토콜의 포함 기준을 기계적으로 적용
  5. 기록하라: 배제 사유 라벨 부착 (선택적이지만 권장)

4.3.2 1차 스크리닝 체크리스트

제목과 초록을 읽을 때 다음 순서로 확인:

  1. 연구 대상(P)이 CHR에 해당하는가? (명시적 또는 합리적 추정)
  2. 관련 결과 변수(O)가 언급되는가? (인지, 신경심리, 특정 과제)
  3. 비교군(C)이 있는가? (건강대조군 또는 유사)
  4. 연구 설계(S)가 포함 범위인가? (단면/종단 vs 사례 보고 등)
  5. 명백한 배제 조건이 있는가? (종설, 사설, 동물, 프로토콜)

4.3.3 Title/Abstract만으로 판단 어려운 경우

초록이 부족하거나 모호한 경우가 많다. 원칙:

초록에서 배제할 확실한 이유가 없으면 포함한다 (“when in doubt, include”).

이 원칙을 따르는 이유:

  • 1차 스크리닝의 목표는 명백한 비관련 연구 제거이지, 최종 판단이 아니다
  • Full-text에서 다시 판단할 기회가 있다
  • 과도한 1차 배제는 “false negative”를 낳는다 (실제 관련 있는 연구 누락)
⚠ 흔한 실수: 1차 스크리닝에서 과도한 배제

신입 검토자가 자주 저지르는 실수: “초록에 [특정 측정 도구]가 없으면 배제” 같은 경직된 적용.

현실: 초록 공간이 제한적이라 저자가 모든 세부사항을 쓰지 못한다. “working memory”만 언급하고 n-back 과제임을 초록에 쓰지 않은 연구는 흔하다.

규칙: 1차 스크리닝에서는 “P와 O의 큰 틀”만 본다. 세부 측정 도구, 구체적 연령 범위, 정확한 진단 기준은 full-text에서 확인한다.

4.3.4 1차 스크리닝 워크플로우

📌 예시: 2주간의 1차 스크리닝 일정 (1800편 기준)

Week 1 (월~금):

•       매일 2시간 × 5일 = 10시간. 약 400편/일 × 5일 ≈ 800편

•       메인 연구자와 보조 연구자가 독립적으로 진행

•       금요일 오후 30분 중간 미팅: 어려웠던 케이스 공유

Week 2 (월~금):

•       나머지 1000편 스크리닝 완료

•       금요일: Rayyan에서 일치도 확인 및 불일치 해결

•       불일치 해결 결과로 PRISMA flow의 “Records screened” 숫자 확정

4.4 불일치 해결

두 검토자의 판단이 다를 때 해결하는 절차. 이 단계를 제대로 하지 않으면 SR의 방법론적 정당성이 무너진다.

4.4.1 3단계 해결 프로세스

  1. 1단계 – 토론: 두 검토자가 불일치 레코드를 함께 검토하고 토론
  2. 2단계 – 기준 참조: 프로토콜의 포함/배제 기준을 정확히 재적용
  3. 3단계 – 제3자 중재: 여전히 합의 안 되면 슈퍼바이저가 최종 결정
💡 팁: 불일치 해결의 실제 팁

•       불일치 레코드를 “잘못 판단한 쪽을 찾는” 관점이 아니라, “기준이 모호한 곳을 찾는” 관점으로 본다

•       불일치가 많이 생긴 유형(예: “schizoaffective 포함 여부”)은 기준 개선 기회

•       기준 수정이 필요하면 프로토콜 amendment 문서에 기록 (Part 2 참조)

•       수정된 기준은 이미 스크리닝한 레코드에도 소급 적용 (필요 시 재스크리닝)

4.4.2 슈퍼바이저의 역할

슈퍼바이저는 모든 레코드를 재검토하지 않는다. 구체적 역할:

  • 두 검토자가 합의하지 못한 불일치 레코드만 검토
  • 판단의 기준 — 프로토콜에 명시된 포함/배제 기준
  • 결정 이유를 기록 (향후 학습 자료)
  • 반복되는 유형의 불일치가 있으면 기준 개선을 권고

4.5 2차 스크리닝 (Full-text)

1차 스크리닝에서 “Include”로 분류된 레코드의 full-text를 확보하고 상세히 검토한다.

4.5.1 Full-text 확보

  1. 기관 전자도서관을 통한 full-text 다운로드
  2. 접근 불가 시: 저자에게 이메일 요청 (ResearchGate 포함)
  3. Interlibrary loan(상호대차) 요청
  4. Sci-Hub 등: 법적윤리적 문제로 권장하지 않음

Full-text 확보 불가 시: 배제 사유를 “Unable to retrieve full-text”로 기록. 이는 PRISMA flow diagram에 별도로 표시된다.

4.5.2 Full-text 스크리닝 절차

1차와 동일하게 2인 독립 검토. 차이점:

  • 시간: 1편당 10–30분 (원문 읽기)
  • 판단 기준: 프로토콜의 모든 세부 기준을 엄격히 적용
  • 배제 사유: 반드시 구체적으로 기록 (아래6 참조)
  • 불확실성: 1차와 달리 “Maybe”는 허용 안 됨. 최종 판단 필요

4.5.3 Full-text 스크리닝 양식

📝 템플릿: Full-text 스크리닝 기록 양식

각 full-text 논문에 대해:

•       논문 식별 정보 (저자, 연도, 저널, DOI)

•       포함 기준 체크리스트 (P, I/E, C, O, S 각각 ✓/✗)

•       최종 판단: Include / Exclude

•       배제 시 구체적 사유 (예: “CHR 대신 FEP 환자”, “HC 비교군 없음”)

•       특이사항 노트 (예: “sample overlap with [다른 논문] 가능성 확인 필요”)

•       검토자 이니셜과 날짜

4.6 배제 사유 기록 — PRISMA 2020 item 16b

Full-text에서 배제한 모든 연구에 대해 구체적 배제 사유를 기록해야 한다. PRISMA 2020 item 16b는 이를 공식적으로 요구한다. 이는 종종 빠뜨리지만 출판 시 리뷰어가 반드시 지적하는 항목이다.

4.6.1 배제 사유의 구조화

각 배제 사유는 사전에 정의된 카테고리로 분류되어야 한다. 임의 서술형은 권장되지 않는다.

📌 예시: CHR 인지 SR의 배제 사유 카테고리

45.  Wrong population (Population 불일치): CHR이 아닌 FEP, 만성 조현병, 기타 정신과 질환

46.  No healthy control (HC 비교군 없음): 환자군만 있거나 다른 환자군만 비교

47.  Wrong outcome (Outcome 불일치): 인지 측정 없음 또는 해석 불가능한 측정

48.  Wrong study design (설계 불일치): 사례 보고, 사례 시리즈(n<10), 종설, 사설

49.  Overlapping sample (중복 표본): 다른 포함 논문과 동일 참여자

50.  Conference abstract only (학회 초록만 있음)

51.  Insufficient data (데이터 불충분): 평균·표준편차 미보고

52.  Language (언어): 영어·한국어 외, 번역 불가

53.  Unable to retrieve full-text (원문 확보 실패)

4.6.2 배제 사유 기록 방식

Rayyan에서는 “Reasons” 기능을 활용:

  1. 각 배제 사유 카테고리를 사전에 등록
  2. Exclude 시 해당 사유 태그 부착
  3. 다중 사유 가능 (예: 중복 표본 + 데이터 불충분)
  4. Export 시 사유별로 필터링 가능
⚡ 주의: 주된 사유 1개 선택

논문 1편에 여러 배제 사유가 적용될 수 있다 (예: CHR이 아니고 + HC 없음).

그러나 PRISMA 2020은 “주된(primary) 배제 사유 1개”만 보고할 것을 권장한다. 그렇지 않으면 배제 사유 합계가 배제 논문 수보다 많아져 혼란스러움.

규칙: 두 사유가 모두 적용되면 PICOS 순서로 우선 (P > I/E > C > O > S). CHR이 아니고 HC도 없으면 “Wrong population”으로 분류.

4.6.3 배제 논문 목록의 공개

PRISMA 2020은 full-text에서 배제한 논문들의 목록과 사유를 supplementary material로 공개할 것을 요구한다.

📝 템플릿: 배제 논문 목록 테이블 예시

 

# 서지 정보 배제 사유 비고
1 Kim et al. 2020, Schizophr Res Wrong population FEP cohort, CHR 아님
2 Lee et al. 2019, Psychiatry Res No healthy control CHR vs FEP 비교만 있음
3 Smith et al. 2018, JAMA Psychiatry Overlapping sample Johnson 2019 논문과 동일 NAPLS2 코호트

4.7 중간 감사 (Mid-point Audit)

1차 스크리닝의 10% 지점에서 슈퍼바이저가 검토자의 판단을 감사한다. 이는 조기에 방법론적 이탈을 발견하는 안전장치다.

4.7.1 감사 절차

  1. 1차 스크리닝의 10% 완료 시점에 중간 보고
  2. 슈퍼바이저가 무작위 50편을 재스크리닝
  3. 슈퍼바이저 판단 vs 검토자들의 판단 비교
  4. 불일치 패턴 분석:
    • 메인 검토자만 불일치 → 메인 검토자 재훈련
    • 보조 검토자만 불일치 → 보조 검토자 재훈련
    • 양쪽 모두 불일치 → 포함/배제 기준 자체가 모호, 프로토콜 수정
  5. 수정 후 이미 스크리닝한 레코드 재검토 여부 결정
⚡ 주의: 중간 감사를 건너뛰는 유혹

바쁘고, 진행이 지연되고, 슈퍼바이저가 시간이 없다는 이유로 중간 감사를 생략하는 유혹이 강하다.

그러나 이 단계를 건너뛰었다가 최종 스크리닝 완료 후 체계적 오류가 발견되면, 전체 스크리닝을 다시 해야 한다. 프로젝트 타임라인 1–2개월 손실.

규칙: 중간 감사는 프로토콜 체크포인트로 사전에 일정에 박아두라. 슈퍼바이저의 책임이다.

4.8 PRISMA 2020 Flow Diagram

스크리닝의 전체 과정을 시각화하는 표준 다이어그램. Page et al. (2021, BMJ)의 PRISMA 2020 statement가 표준 템플릿을 제공한다.

4.8.1 PRISMA 2020 Flow의 구조

5단계로 구성:

  1. Identification (식별): 각 DB별 검색 결과 수
  2. Screening 전 중복 제거: 중복 레코드 제거 후 수
  3. Screening (1차): Title/abstract 스크리닝. 배제 수 포함
  4. Eligibility (2차): Full-text 검토. 배제 수와 사유별 분류
  5. Included: 최종 포함 연구 수
📝 템플릿: PRISMA 2020 Flow Diagram 예시 (CHR 인지 SR)

Identification   Records identified from databases:     MEDLINE (via PubMed): 1,847     Embase (via Ovid): 2,634     PsycINFO: 1,203     Cochrane CENTRAL: 189     KoreaMed: 42   Total: 5,915      Records identified from other methods:     Citation chasing: 23     Hand-searching: 8     Expert contacts: 4     Total: 35  Removed before screening   Duplicate records removed: 2,073   Records after deduplication: 3,842  Screening (Title/Abstract)   Records screened: 3,842   Records excluded: 3,456   Records for full-text retrieval: 386  Retrieval   Reports sought for retrieval: 386   Reports not retrieved: 12   Reports assessed for eligibility: 374  Eligibility (Full-text)   Reports excluded: 316     Wrong population: 98     No healthy control: 64     Wrong outcome: 57     Wrong study design: 43     Overlapping sample: 28     Conference abstract: 12     Insufficient data: 8     Language: 4     Other reasons: 2  Included   Studies included in review: 58   (Reports of included studies: 58)

4.8.2 Flow Diagram 작성 도구

  • PRISMA 2020 official generator: prisma-statement.org/prismastatement/flowdiagram
  • PRISMA2020 R package (Haddaway et al., 2022)
  • Rayyan의 PRISMA export 기능
  • 수동 작성: PowerPoint, Lucidchart, draw.io
💡 팁: 숫자의 일관성 확인

Flow diagram의 숫자들은 반드시 합이 맞아야 한다. 흔한 오류:

•       중복 제거 후 수 ≠ (각 DB 합) – 중복 수

•       Screened 수 ≠ Retrieved + Excluded

•       Included 수가 배제 사유별 분류 합과 안 맞음

출판 전 검토자가 반드시 계산기로 검증해야 한다.

4.9 스크리닝 기록의 완전성

Part 4 완료 시 다음이 모두 보관되어야 한다. 이 기록은 PRISMA-S와 PRISMA 2020 보고에 사용된다.

4.9.1 보관해야 할 데이터

  1. 원본 검색 결과 (각 DB별 raw export 파일)
  2. 중복 제거 전/후 레코드 수
  3. 1차 스크리닝 판단 로그 (각 레코드, 각 검토자별)
  4. Pilot screening 데이터와 kappa 계산
  5. 본 스크리닝의 kappa 지표
  6. 불일치 레코드 목록과 해결 기록
  7. 2차 스크리닝 판단 로그
  8. Full-text 배제 논문 목록과 사유
  9. Full-text 확보 실패 논문 목록
  10. 중간 감사 결과
  11. 프로토콜 수정 이력 (있는 경우)
💡 팁: OSF 저장소 활용

모든 스크리닝 기록을 OSF (Open Science Framework) 프로젝트에 저장할 것을 권장한다.

•       무료, 영구 URL 제공

•       DOI 발급 가능

•       PROSPERO 레코드와 연결 가능

•       논문 투고 시 reviewer 검증 가능

URL: osf.io

4.10 스크리닝의 흔한 실수

⚠ 흔한 실수: 실수 1 — 블라인드 모드 미활성화

Rayyan의 기본 설정에서 블라인드가 꺼져 있을 수 있다. 확인 없이 시작하면 두 검토자가 서로의 판단을 보게 된다.

해결: 프로젝트 설정에서 “Blind mode ON” 명시적으로 활성화. 스크리닝 시작 전 “다른 검토자의 판단이 안 보인다”는 것을 각자 확인.

⚠ 흔한 실수: 실수 2 — Pilot 없이 본 스크리닝 시작

“시간이 없다”는 이유로 pilot을 생략하고 본 스크리닝 시작. 1500편 스크리닝 완료 후 kappa 측정 → 0.4 → 전체 재스크리닝.

해결: Pilot은 필수. 50편 스크리닝에 4–6시간, kappa 계산과 토론에 2시간. 총 하루 투자로 이후 수 주의 재작업 방지.

⚠ 흔한 실수: 실수 3 — “Maybe” 남발

확신이 없어서 대부분을 “Maybe”로 표시. 결국 거의 모든 레코드가 full-text 검토로 넘어가 스크리닝 효율 제로.

해결: 1차에서 “포함 기준에 명백히 반하지 않으면 Include” 원칙. Maybe는 전체의 5% 미만이어야 한다.

⚠ 흔한 실수: 실수 4 — 배제 사유 기록 생략

Full-text 배제 시 “not relevant”로만 기록. 리뷰어의 요청으로 300편을 재검토해야 하는 상황 발생.

해결: 사유 카테고리를 사전 정의 후 Rayyan의 Reasons 기능으로 태그. 처음부터 체계적으로 기록.

⚠ 흔한 실수: 실수 5 — 중복 샘플 미확인

같은 연구 참여자가 여러 논문에 보고된 것을 확인하지 않고 모두 포함. 메타분석이라면 과대가중치 문제.

해결: Full-text 검토 시 “sample source” 항목 확인 (예: NAPLS-2, EDIPPP, PACE 같은 코호트 이름). 중복이 의심되면 저자 연락 + 둘 중 하나 선택 (더 긴 추적, 더 큰 n, 더 최신).

⚠ 흔한 실수: 실수 6 — 스크리닝 중 기준 변경 기록 누락

스크리닝 도중 “아, schizoaffective는 포함하자”로 방침 변경. 그러나 기록 없음.

해결: 모든 기준 변경을 프로토콜 amendment 문서에 기록 (변경 일자, 이유, 소급 적용 여부). PRISMA 2020 item 24c 요구.

4.11 Part 4 산출물

  1. 완료된 Rayyan 프로젝트 (공유 가능 URL)
  2. Pilot screening 보고서 (kappa 계산 포함)
  3. 본 스크리닝 kappa 최종 지표
  4. 불일치 해결 로그
  5. Full-text 확보 기록 (성공 vs 실패)
  6. 최종 포함 연구 목록 (서지정보)
  7. Full-text 배제 논문 목록 + 사유 (supplementary)
  8. PRISMA 2020 flow diagram (초안)
  9. 중간 감사 결과 보고서

4.12 Part 4 종료 체크포인트

✔ 체크포인트: 자기 평가 체크리스트

방법론적 정당성

☐ 2명의 독립적 검토자가 모든 단계에서 작업했다.

☐ Rayyan의 블라인드 모드가 활성화된 상태로 스크리닝했다.

☐ Pilot screening을 수행하고 kappa ≥ 0.6을 달성했다.

☐ 본 스크리닝의 kappa도 측정했다.

☐ 불일치 레코드는 토론 또는 제3자 중재로 해결했다.

☐ 중간 감사를 1차 스크리닝의 10% 지점에서 수행했다.

스크리닝 완성도

☐ 1차 스크리닝을 완료했다 (Title/Abstract).

☐ 2차 스크리닝을 완료했다 (Full-text).

☐ Full-text 배제 논문에 대해 구체적 사유를 모두 기록했다.

☐ 배제 사유는 사전 정의된 카테고리로 분류했다.

☐ 중복 샘플을 확인하고 처리했다.

☐ Full-text 확보 실패 논문을 별도 기록했다.

보고 준비

☐ PRISMA 2020 flow diagram을 작성했다.

☐ Flow diagram의 숫자가 모두 일관된다 (합이 맞음).

☐ 최종 포함 연구 목록이 확정되었다.

☐ 모든 데이터가 OSF 또는 로컬 백업에 보관되어 있다.

☐ 슈퍼바이저가 최종 포함 연구 목록을 검토하고 승인했다.

Part 4 주요 참고문헌

Byrt, T., Bishop, J., & Carlin, J. B. (1993). Bias, prevalence and kappa. Journal of Clinical Epidemiology, 46(5), 423–429. [Kappa paradox]

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.

Gwet, K. L. (2008). Computing inter-rater reliability and its variance in the presence of high agreement. British Journal of Mathematical and Statistical Psychology, 61(1), 29–48.

Haddaway, N. R., Page, M. J., Pritchard, C. C., & McGuinness, L. A. (2022). PRISMA2020: an R package and Shiny app for producing PRISMA 2020-compliant flow diagrams. Campbell Systematic Reviews, 18(2), e1230.

Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.

McDonagh, M., Peterson, K., Raina, P., Chang, S., & Shekelle, P. (2013). Avoiding bias in selecting studies. In: Methods Guide for Effectiveness and Comparative Effectiveness Reviews. AHRQ.

Ouzzani, M., Hammady, H., Fedorowicz, Z., & Elmagarmid, A. (2016). Rayyan — a web and mobile app for systematic reviews. Systematic Reviews, 5, 210.

Page, M. J., McKenzie, J. E., Bossuyt, P. M., et al. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ, 372, n71.

Stoll, C. R. T., Izadi, S., Fowler, S., Green, P., Suls, J., & Colditz, G. A. (2019). The value of a second reviewer for study selection in systematic reviews. Research Synthesis Methods, 10(4), 539–545.

Waffenschmidt, S., Knelangen, M., Sieben, W., Bühn, S., & Pieper, D. (2019). Single screening versus conventional double screening for study selection in systematic reviews: a methodological systematic review. BMC Medical Research Methodology, 19, 132.