Part 6. 편향 위험 평가 | Computational Psychiatry Center

Part 5에서 포함된 연구들의 데이터를 추출했다. 이제 각 연구의 방법론적 질을 평가해야 한다. 이 단계의 의미는 “어떤 연구가 좋은 연구인가”를 점수 매기는 것이 아니라, 각 연구의 결과가 진짜 효과를 반영하는 정도를 평가하는 것이다.

편향 위험이 높은 연구의 결과는 실제 효과보다 과장되거나 축소되어 있을 수 있다. 이 정보 없이 여러 연구를 단순 평균하면, 질 낮은 연구가 결론을 왜곡한다. 편향 평가는 이를 방지하는 핵심 장치다.

이 파트가 끝나면 당신은 다음을 갖게 된다:

연구 설계에 맞는 편향 평가 도구 선택 근거
모든 포함 연구에 대한 편향 평가 결과
2명의 독립적 평가자의 일치도 기록
Traffic light plot과 summary plot (robvis)
합성 단계에서 편향 평가를 어떻게 반영할지 계획

6.1 편향 평가 도구 — 연구 설계별 선택

가장 흔한 실수는 연구 설계에 맞지 않는 도구를 기계적으로 적용하는 것이다. CHR/FEP 관찰연구에 RoB 2를 쓰거나, 진단정확도 연구에 NOS를 쓰는 식이다. 도구 선택이 틀리면 평가 자체가 무의미해진다.

6.1.1 도구 선택 매트릭스

연구 설계	권장 도구	비고
무작위 대조 시험 (RCT)	RoB 2	Cochrane 2019 표준. 5개 도메인.
비무작위 중재 연구 (NRSI)	ROBINS-I	7개 도메인. Cochrane 권장.
관찰연구 (노출 효과)	ROBINS-E	2024 업데이트. 인과 추론용.
관찰연구 (일반, 비교)	NOS / JBI	단면/코호트/사례-대조. 한계 있음.
예후 연구	QUIPS	6개 도메인. 예후 인자 평가.
진단정확도 연구	QUADAS-2	4개 도메인. Index test와 reference.
질적 연구	CASP Qualitative	10개 항목. 질적 합성용.
단일군 전후 연구	NIH Before-After Tool	통제 비교 없는 연구.
유병률 연구	JBI Prevalence Tool	9개 항목. 샘플링 편향 중심.

⚡ 주의: 정신증 SR에서의 도구 선택

CHR/FEP 분야의 대부분 연구는 “관찰연구 + 비교”이다. 구체적으로:

• 단면연구: CHR vs HC의 현재 상태 비교 (대부분의 인지 연구)

• 종단 코호트: CHR 추적 후 transition 예측 (예후 연구)

• 사례-대조: 이미 transition한 vs 안 한 CHR 비교 (후향적)

따라서 본 튜토리얼 예시 SR에는 다음이 가장 적합:

• 단면 비교 연구 → NOS 또는 JBI Critical Appraisal Tool for Cross-Sectional Studies

• 예후 연구 → QUIPS

• 더 엄격한 인과 추론 → ROBINS-E (최신, 학습 곡선 있음)

본 예시 SR에서는 NOS를 주 도구로, 일부 예후 분석이 포함되면 QUIPS를 병용한다.

6.2 Newcastle-Ottawa Scale (NOS) — 실전

NOS는 관찰연구 평가에서 가장 널리 사용된다. Wells et al. (2000)이 개발. 단면·코호트·사례-대조 각각의 버전이 있다.

6.2.1 NOS 단면연구 버전

CHR vs HC 비교처럼 단면적 연구에 적용. 7–10개 항목, 별표(★)로 점수화.

도메인	항목	판정 기준
Selection (최대 5★)	1. 표본의 대표성	★: 특정 표적 인구에서 무작위/연속 추출 ★★: 모든 대상자
	2. 표본 크기 정당화	★: power calculation 기반
	3. 비응답자	★: 비응답률 보고 및 응답자와 유사성 비교
	4. 노출/상태 측정	★★: 타당도 검증된 도구 ★: 표준 도구 (검증 참조 없음)
Comparability (최대 2★)	5. 집단 간 비교 가능성	★: 가장 중요한 혼란변수 통제 (예: 연령, 성별) ★★: 추가 혼란변수 통제 (교육, IQ 등)
Outcome (최대 3★)	6. 결과 평가	★★: 독립 blind 평가 또는 기록 검토 ★: 자가 보고
	7. 통계 분석	★: 명확한 통계 방법, 신뢰구간 제공

총점 해석 (단면 버전, 최대 10★):

7–10★: Good quality (낮은 편향 위험)
5–6★: Fair quality (중간)
≤ 4★: Poor quality (높은 편향 위험)

6.2.2 NOS 코호트 버전

CHR 종단 추적 연구에 적용. 8개 항목, 최대 9★.

노출군의 대표성
비노출군 선택
노출 측정의 확인
연구 시작 시점 outcome 부재 입증
집단 간 비교 가능성 (최대 2★)
Outcome 평가
추적 기간의 충분성
추적 완료율

⚡ 주의: NOS의 알려진 한계

Hartling et al. (2013), Stang (2010) 등은 NOS의 중대한 한계를 보고했다:

• 검토자 간 신뢰도가 낮음 (kappa 0.27–0.54)

• 항목의 판정 기준이 모호 (“adequate”, “reasonable”의 정의 없음)

• ★ 점수의 합산이 방법론적으로 부적절 (서로 다른 차원을 더함)

• 도메인별 평가 없이 총점만 보고하면 정보 손실

대응:

• 도메인별 판정도 함께 보고 (Selection/Comparability/Outcome 각각)

• 각 ★에 대한 자체 매뉴얼 작성 (팀 내 통일된 해석)

• 파일럿 평가로 검토자 간 보정

• 총점보다는 도메인별 패턴으로 해석

6.2.3 NOS 자체 매뉴얼 작성

NOS의 모호함을 극복하기 위해 팀 내부 매뉴얼을 만든다. 각 항목에 대한 구체적 판정 기준을 프로토콜과 일치시켜 작성.

📝 템플릿: NOS 단면 버전 자체 매뉴얼 예시 (CHR 인지 SR)

항목 1: 표본의 대표성

• ★★ (Truly representative): 지역사회 스크리닝 또는 다기관 임상 모집. 명시적 포함 기준. (예: NAPLS-2, PRONIA)

• ★ (Somewhat representative): 단일 기관 연속 모집. 선택 편향 가능성 존재. (예: 단일 대학병원 고위험 클리닉)

• ☆ (Selected group): 특정 기준으로 선택된 집단 (예: 특정 증상 유무로 사전 선별)

• ☆ (No description): 모집 방법 미기술

항목 4: 노출/상태 측정 (CHR 진단)

• ★★ (Validated instrument): SIPS/SOPS 또는 CAARMS로 구조화된 임상 면담, 훈련된 평가자, 신뢰도 보고

• ★ (Non-validated but described): SIPS/CAARMS 사용했으나 평가자 훈련이나 신뢰도 미보고

• ☆ (Self-report): 자가 보고 증상 척도만 사용

• ☆ (No description): 평가 방법 미기술

항목 5: 비교 가능성

• ★ (Controls for most important factor): 연령과 성별 매칭 또는 통계적 통제

• ★★ (Additional factors): 연령, 성별 + 교육 또는 IQ 추가 통제

• ☆ (No matching or control): 집단 간 차이 보정 없음

6.3 ROBINS-E — 더 엄격한 대안

ROBINS-E (Risk Of Bias In Non-randomized Studies — of Exposures)는 2024년 공식 출시된 관찰연구 편향 평가의 최신 표준이다. NOS보다 엄격하고 체계적이지만 학습 곡선이 가파르다. 본격 출판을 지향하는 SR이라면 도입을 고려할 만하다.

6.3.1 ROBINS-E의 7개 도메인

#	도메인	평가 초점
1	Confounding	혼란변수 (CHR 상태와 인지 모두에 영향: 교육, IQ, SES 등)
2	Selection of participants	참여자 선택이 노출/결과와 연관되는지
3	Measurement of exposure	노출(CHR 상태)의 측정 신뢰도
4	Post-exposure interventions	CHR 진단 후 치료 개입이 결과에 영향
5	Missing data	결측 데이터 처리
6	Measurement of outcome	결과(인지) 측정 방법
7	Selection of reported result	선택적 결과 보고

6.3.2 ROBINS-E 판정

각 도메인은 signaling questions(선별 질문)에 답한 뒤 다음 4단계로 판정:

Low risk: 편향 발생 가능성 낮음
Some concerns: 일부 우려는 있으나 결과에 중대 영향 없음
High risk: 결과에 중대한 편향 가능성
Very high risk: 심각한 편향 — 결과 신뢰 불가

전체 연구 판정은 가장 나쁜 도메인의 등급을 따른다 (worst-case principle).

💡 팁: ROBINS-E 자료와 훈련

• 공식 사이트: riskofbias.info

• 사용자 매뉴얼 무료 다운로드 (80+ 페이지)

• 온라인 훈련 세션 (Cochrane, 무료)

• Excel 평가 템플릿 제공

팀 전체가 최소 한 번은 훈련 세션 참석 권장. 혼자 공부로는 도메인 판정이 일관되지 않는다.

6.4 QUIPS — 예후 연구 평가

CHR의 transition 예측 연구처럼 예후 인자(prognostic factor)를 다루는 연구에 사용. Hayden et al. (2013).

6.4.1 QUIPS 6개 도메인

Study Participation: 표본의 대표성, 모집 방법
Study Attrition: 추적 완료율, 탈락자의 특성
Prognostic Factor Measurement: 예후 인자의 측정 방법과 신뢰도
Outcome Measurement: 결과 측정의 신뢰도
Study Confounding: 혼란변수의 측정과 통계적 조정
Statistical Analysis and Reporting: 통계 분석의 적절성

각 도메인은 Low/Moderate/High risk로 판정.

📌 예시: CHR transition 예후 연구의 QUIPS 적용

가상 연구: Kim 2021 — “Working memory deficit as predictor of transition in CHR”

• Study Participation: SIPS로 정의된 CHR 120명 모집, 다기관 — Low risk

• Study Attrition: 2년 추적 완료율 78% — Moderate risk (≥80% 이상적)

• Prognostic Factor: MCCB 작업기억 T-score, 훈련된 평가자 — Low risk

• Outcome: DSM-5 정신증 진단, blind 평가 — Low risk

• Confounding: 연령·성별·기저 증상 조정, 그러나 IQ·교육·약물 미조정 — Moderate risk

• Statistical: Cox regression, HR과 CI 보고 — Low risk

전체 판정: Moderate risk (attrition + confounding)

6.5 RoB 2 — RCT 평가 (참고용)

본 튜토리얼 예시 SR은 관찰연구 중심이므로 RoB 2를 직접 사용하지 않는다. 그러나 SR에 RCT가 일부 포함된다면(예: 인지교정 RCT), 해당 연구에는 RoB 2를 적용한다. 절대 RCT에 NOS를 쓰지 말라.

6.5.1 RoB 2의 5개 도메인

Randomization process: 무작위 할당의 적절성
Deviations from intended interventions: 의도한 중재로부터의 이탈
Missing outcome data: 결측 결과 데이터
Measurement of the outcome: 결과 측정의 편향
Selection of the reported result: 선택적 결과 보고

각 도메인은 signaling question에 답한 뒤 Low / Some concerns / High risk로 판정. 전체 판정은 가장 나쁜 도메인을 따름.

6.5.2 RoB 2의 두 가지 분석 프레임

RoB 2는 연구 질문에 따라 두 가지로 분리된다:

Intention-to-treat (ITT) effect: 무작위 배정된 대로의 효과 (정책적 관점)
Per-protocol effect: 실제 받은 중재의 효과 (생물학적 관점)

SR의 질문에 따라 적절한 프레임 선택. 대부분 ITT 사용.

💡 팁: RoB 2 도구

• 공식 Excel 템플릿: riskofbias.info/welcome/rob-2-0-tool

• 자동화된 Shiny 앱: 클릭만으로 평가 완료

• 각 signaling question의 가이드가 매뉴얼에 상세히 기술됨

6.6 이중 평가와 불일치 해결

스크리닝·추출과 마찬가지로 편향 평가도 2명의 독립적 평가자가 수행한다.

6.6.1 절차

두 평가자가 동일한 도구(NOS/QUIPS/ROBINS-E)를 사용
파일럿 평가: 3–5편으로 판정 기준 보정
각자 독립적으로 모든 포함 연구 평가
도메인별 판정과 근거(justification) 기록
판정 비교 → 불일치 항목 식별
불일치 해결: 토론 → 프로토콜 재검토 → 슈퍼바이저 중재

⚡ 주의: 판정 근거의 기록이 필수

“Low risk”로 판정만 하고 근거를 기록하지 않으면 리뷰어가 “왜?”를 물을 때 답할 수 없다.

각 도메인 판정에 대해 1–3 문장의 근거를 함께 기록하라. 예:

“Comparability: Low risk. The authors matched CHR and HC groups on age, sex, and years of education, and additionally adjusted for parental SES in regression models (Table 2, footnote).”

이 기록은 논문의 supplementary로도 쓸 수 있고, 팀 내부 일관성을 유지하는 기능도 한다.

6.6.2 불일치 패턴 분석

불일치가 반복되는 도메인·항목이 있으면 프로토콜 차원의 문제일 수 있다:

특정 도메인의 판정 기준이 모호 → 자체 매뉴얼 보강
연구 유형에 따라 해석 달라지는 경우 → 규칙 추가
한 평가자의 체계적 경향(엄격 vs 관대) → 재훈련 + 재평가

6.7 결과 시각화 — robvis

편향 평가 결과는 traffic light plot과 summary plot으로 시각화한다. robvis (McGuinness & Higgins, 2021)가 표준 도구다.

6.7.1 robvis 소개

R package: cran.r-project.org/package=robvis
웹 앱 (코딩 불필요): mcguinlu.shinyapps.io/robvis/
지원 도구: RoB 2, ROBINS-I, ROBINS-E, QUIPS, QUADAS-2, NOS(제한적)
출력: traffic light plot, summary plot (모두 출판 품질)

6.7.2 Traffic light plot

각 연구(행) × 각 도메인(열)의 판정을 색상으로 표시. 한눈에 편향 패턴 파악 가능.

D1 D2 D3 D4 D5 Overall Kim 2020 🟢 🟡 🟢 🟢 🟢 🟡 Lee 2019 🟢 🟢 🔴 🟢 🟡 🔴 Park 2021 🟡 🟡 🟡 🟡 🟡 🟡 … 🟢 Low risk 🟡 Moderate/Some concerns 🔴 High risk

6.7.3 Summary plot

전체 연구에서 각 도메인의 편향 위험 분포를 가로 막대로 표시. 어느 도메인에서 연구들이 체계적으로 약한지 파악 가능.

📌 예시: Summary plot 해석 예시

가상 CHR 인지 SR의 summary plot이 다음과 같다고 하자:

• Domain 1 (Selection): 80% Low, 15% Moderate, 5% High

• Domain 2 (Comparability): 40% Low, 45% Moderate, 15% High ← 약함

• Domain 3 (Exposure measurement): 90% Low, 10% Moderate

• Domain 4 (Outcome measurement): 85% Low, 15% Moderate

• Domain 5 (Statistical): 70% Low, 25% Moderate, 5% High

해석: CHR 연구들은 대체로 SIPS/CAARMS 표준화로 진단 측정이 좋다. 그러나 교육·IQ 매칭의 부실(Domain 2)이 체계적 약점. Discussion 섹션에서 이를 논의해야 한다.

6.8 편향 평가를 합성에 반영하기

편향 평가는 단순히 “했다”로 끝나면 안 된다. 합성 단계에서 실제로 활용해야 한다.

6.8.1 합성 반영의 3가지 방식

방식 1: 민감도 분석

주 분석은 모든 연구 포함. 민감도 분석에서 고편향 연구를 제외한 결과와 비교.

주 분석: d = -0.52, 95% CI [-0.68, -0.36], 포함 연구 58편 민감도: d = -0.48, 95% CI [-0.65, -0.31], 고편향 제외 후 43편 → 결과 robustness 확인 (방향과 크기 유사)

방식 2: 편향 위험별 하위그룹 합성

Low/Moderate/High 각각의 편향 위험별로 효과 크기를 분리해 제시.

📌 예시: 편향 위험별 하위그룹 결과 제시

편향 위험	연구 수	평균 d	해석
Low	18	-0.45	진짜 효과 추정에 가까움
Moderate	28	-0.52	주의 필요
High	12	-0.78	효과 과장 가능성

해석: 고편향 연구에서 효과 크기가 크다 → 편향이 효과 과대추정으로 작용. Low risk 연구의 d=-0.45가 진짜에 가까운 추정.

방식 3: 서술적 통합과 해석

메타분석 없는 SR(본 튜토리얼)에서는 편향 평가가 결과 해석의 정성적 틀로 작동한다:

포함 연구 대다수가 Low risk → 결과 신뢰도 높음
Moderate/High가 우세 → 결과를 잠정적으로 해석
특정 도메인이 체계적으로 약함 → GRADE의 “risk of bias” 평가에 반영

6.8.2 편향 평가 결과의 논문 보고

SR 논문에는 다음을 포함:

Method 섹션: 사용한 도구, 평가자, 불일치 해결 방법
Result 섹션: 전체 분포 요약 (“45% 연구가 Low risk…”)
Figure: Traffic light plot 또는 summary plot
Supplementary: 각 연구의 도메인별 판정과 근거
Discussion: 편향 패턴이 결론에 미치는 영향

6.9 Part 6의 흔한 실수

⚠ 흔한 실수: 실수 1 — 연구 설계에 맞지 않는 도구 사용

RCT에 NOS를 적용 (NOS는 관찰연구용). CHR 관찰연구에 RoB 2 적용 (RoB 2는 RCT용).

해결: Part 6.1의 도구 선택 매트릭스를 엄격히 준수. 포함 연구 설계가 혼합이면 각 설계에 맞는 도구를 사용하라. 한 SR에서 RCT는 RoB 2로, 관찰연구는 NOS/ROBINS-E로 평가하는 것이 정상이다.

⚠ 흔한 실수: 실수 2 — 도메인별 판정 없이 총점만 보고

NOS 평가 결과를 “총 8점, quality good”로만 보고. 리뷰어가 “어느 도메인에서 점수 잃었나?” 질문 시 답 불가.

해결: 각 도메인별로 판정을 기록. 표 또는 traffic light plot으로 제시. 총점만 쓰는 것은 지양.

⚠ 흔한 실수: 실수 3 — 판정 근거 기록 생략

각 연구별로 “Low / Moderate / High”로만 찍고 넘어감. 몇 주 뒤 “왜 이 연구를 high로 판정했지?” 자신도 기억 못함.

해결: 각 도메인 판정마다 1–3 문장의 근거를 함께 기록. Excel에 “justification” 열 추가. 출판 시 supplementary로 제공.

⚠ 흔한 실수: 실수 4 — NOS를 맹신하기

NOS 점수 8점 = “좋은 연구”로 해석하고 그대로 반영. 그러나 NOS는 신뢰도가 낮고 총점 합산이 방법론적으로 부적절하다.

해결: NOS 결과를 참고하되, 도메인별 패턴과 자체 판단을 병행하라. 가능하면 ROBINS-E로 검증하라. 논문에 NOS 한계도 언급.

⚠ 흔한 실수: 실수 5 — 파일럿 평가 생략

두 평가자가 바로 본 평가 시작. 10편 평가 후 kappa < 0.3. 재평가 필요.

해결: 3–5편 파일럿으로 판정 기준 보정. 불일치가 많은 항목은 자체 매뉴얼로 해결. 본 평가 시작 전 kappa ≥ 0.6 확보.

⚠ 흔한 실수: 실수 6 — 편향 평가를 합성에 반영하지 않음

평가를 한 뒤 논문의 Method에만 기술하고, 결과 해석에는 반영하지 않음. “편향 평가를 왜 했나?” 무의미해짐.

해결: 민감도 분석, 하위그룹 합성, 서술적 통합 중 하나 이상으로 실제 합성에 반영. Discussion에서 편향이 결론에 미치는 영향 명시.

6.10 Part 6 산출물

도구 선택 근거 문서 (왜 NOS/QUIPS/ROBINS-E를 선택했는지)
자체 평가 매뉴얼 (각 항목의 판정 기준 명시)
파일럿 평가 결과 (일치도 지표)
각 연구의 도메인별 판정 + 근거 (Excel 또는 Covidence)
Traffic light plot (robvis)
Summary plot (robvis)
편향 평가 결과의 합성 반영 계획
슈퍼바이저 검토 완료된 최종 평가

6.11 Part 6 종료 체크포인트

✔ 체크포인트: 자기 평가 체크리스트

도구 선택

☐ 포함 연구의 설계에 맞는 도구를 선택했다.

☐ 연구 설계가 혼합일 경우 각 설계에 맞는 도구를 병용했다.

☐ 도구 선택 근거를 프로토콜과 논문 Method에 명시했다.

평가 절차

☐ 자체 평가 매뉴얼을 작성하여 판정 기준을 명확화했다.

☐ 파일럿 평가로 검토자 간 보정을 수행했다.

☐ 2명의 독립적 평가자가 모든 연구를 평가했다.

☐ 각 도메인 판정에 근거를 기록했다.

☐ 불일치를 토론 또는 슈퍼바이저 중재로 해결했다.

☐ 최종 일치도 지표(kappa 또는 percent agreement)를 기록했다.

시각화와 보고

☐ Traffic light plot을 작성했다 (robvis).

☐ Summary plot을 작성했다.

☐ 도메인별 분포를 표로 정리했다.

☐ 각 연구의 상세 판정을 supplementary에 포함할 준비가 되었다.

합성 반영

☐ 편향 평가 결과를 합성에 어떻게 반영할지 계획했다.

☐ 민감도 분석 또는 편향 위험별 하위그룹 계획이 있다.

☐ GRADE 평가 시 “risk of bias” 요인에 반영할 준비가 되었다.

Part 6 주요 참고문헌

Hartling, L., Milne, A., Hamm, M. P., et al. (2013). Testing the Newcastle Ottawa Scale showed low reliability between individual reviewers. Journal of Clinical Epidemiology, 66(9), 982–993.

Hayden, J. A., van der Windt, D. A., Cartwright, J. L., Côté, P., & Bombardier, C. (2013). Assessing bias in studies of prognostic factors. Annals of Internal Medicine, 158(4), 280–286. [QUIPS]

Higgins, J. P. T., Savović, J., Page, M. J., et al. (2023). Chapter 8: Assessing risk of bias in a randomized trial. In: Cochrane Handbook for Systematic Reviews of Interventions v6.4. [RoB 2]

McGuinness, L. A., & Higgins, J. P. T. (2021). Risk-of-bias VISualization (robvis): an R package and Shiny web app for visualizing risk-of-bias assessments. Research Synthesis Methods, 12(1), 55–61.

Moola, S., Munn, Z., Tufanaru, C., et al. (2020). Chapter 7: Systematic reviews of etiology and risk. In: JBI Manual for Evidence Synthesis.

Ross, R. G., & Heinssen, R. (2013). Early identification of psychosis. [CHR/FEP 편향 평가의 맥락 논의]

Sterne, J. A., Hernán, M. A., Reeves, B. C., et al. (2016). ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ, 355, i4919.

Sterne, J. A. C., Savović, J., Page, M. J., et al. (2019). RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ, 366, l4898.

ROBINS-E Development Group. (2024). Risk Of Bias In Non-randomized Studies — of Exposures (ROBINS-E). Launch version, 2024. https://www.riskofbias.info/welcome/robins-e-tool

Stang, A. (2010). Critical evaluation of the Newcastle-Ottawa scale for the assessment of the quality of nonrandomized studies in meta-analyses. European Journal of Epidemiology, 25(9), 603–605.

Wells, G. A., Shea, B., O’Connell, D., et al. (2000). The Newcastle-Ottawa Scale (NOS) for assessing the quality of nonrandomised studies in meta-analyses. Ottawa Hospital Research Institute.

Whiting, P. F., Rutjes, A. W. S., Westwood, M. E., et al. (2011). QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Annals of Internal Medicine, 155(8), 529–536.