의학공부

[통계]닥터배의 술술 보건의학통계를 읽으며 -1

simsiminsights 2024. 7. 31. 23:18

1. 순위 척도(범주형자료에 속함)와 연속형 자료를 잘 구분하자. 
    : 평균을 낼 수 있냐 없냐로 구분할수 있다. 
      ex> 2학년과 4학년의 평균은 3학년이 아니듯 학년은 순위척도이다. 
             28도와 30도의 평균은 29도 이듯이 연속형 자료이다. 
 
2. p(유의확률)의 의미 
   : 보건의학연구론은 효과의 차이가 없다는 '귀무가설'을 기본으로 한다. 
     귀무가설(H0) : 효과(혹은 차이)가 없다. 
     대립가설(H1) : 효과(혹은 차이)가 있다. 
     p<0.05 라는 것은 유의수준을 0.05로 설정했을때
    귀무가설이 옳다면 임상시험의 결과(여기서는 '효과가 있다')가
    발생할 확률이 5% 미만으로 매우 희박하므로 귀무가설을 기각하고 대립가설을 
    채택하겠다는 논리이다. 
 
   

출처 : https://drhongdatanote.tistory.com/76

 
   여기서 유의수준을 같이 이야기 하면
   임상시험의 결과 실제로는 효과가 없는데 임상시험에서는 
   효과가 있다고 하는 것이 1종오류 이며, 
   H0가 참인데 H0를 기각하는 오류를 범할 확률(1종오류)을
   5% 미만(유의수준 미만)으로 조절해야 
   통계검정의 유효성을 인정하겠다는 말이다. 
 
  >위에 써둔 말과 아래에 써둔 말이 서로 연결이 되지 않는 느낌을 받는다. 
    위에 써둔 말은 p<0.05 라는 결과를 얻었을때 통계적으로 유의하다고 해석하는 
    논리를 말하는 것이고, 아래 것은 1종오류를 기준으로 설명해서 
    실제로는 같은말이다. 
 
3. 다중비교
    여러개의 검정을 동시에 수행하게 되면 한가지의 검정을 수행할 때와는 다르게 
    제 1종오류가 증가하게 된다. 
    유의수준이 5%라고 한다면 귀무가설이 참일때 귀무가설을 채택할 확률은
    1-5% = 95% 이상으로 유지되어야 한다. 
    유의수준이 5%인 검정을 동시에 n번 수행하게 되면
    귀무가설이 참일때 전부다 귀무가설을 채택할 확률은 1-(0.95)^n 이다. 
    2회 이상 수행하게 되면 유의수준은 5% 이상이 된다. 
    즉, 여러개의 검정을 동시에 수행하게 된다면 1종오류가 발생할 확률이 
    5% 이상이 된다는 말이 되므로 
    전체 유의수준이 5% 가 넘지 않게 Bonferroni's method 등의 방법을 이용해서
    전체 유의수준을 조절해야한다. 
    여러개의 검정을 동시에 수행하게 되면 각 검정의 유의수준을 5% 미만으로 해야
    전체 유의수준이 5% 가 넘지않게 할 수 있다. 
 
 
4. 동등성 검증
    H0 : 두치료법은 차이가 있다. 
    H1 : 두 치료법은 차이가 없다. 
   > 다른 귀무가설과 달리 동등성 검증은 두 군의 차이가 없음을 검정하는 것이
     목적이기 때문에 대립가설이 '두 치료법은 차이가 없다'가 되어야 한다. 
 
      또한, 동등성 검증에서 귀무가설을 '두 치료법은 차이가 없다'로 설정하면
      연구대상의 수만 줄이면 두 군의 차이를 입증하기 어려워
      유의확률이 올라가기 때문에 
      항상 대립가설을 기각하고 귀무가설을 채택하게 되므로, 
      연구대상의 수만 줄이면 항상 두 치료법이 동등하다는 결론을 내게되는 문제가 생긴다. 
 
5. 모수적 방법 vs 비모수적 방법, 정규성 검정 
    보통 N수가 30 이상이면 중심극한의 정리에 따라서 표본평균의 분포가 정규분포를 따르게 된다.
    N수가 10 ~ 30 이면 정규성 검정을 해서 표본평균의 분포가 정규분포를 따르는지 확인해야한다. 
    N수가 10미만이면 정규분포를 따르지 않으므로 비모수적 방법을 이용해야한다. 
 
    N수가 10-30 일 경우 정규성 검정을 해서 정규분포를 따르는지를 확인해야하므로 
    정규성 검정을 같이 다뤄보면 
    H0 : 자료는 정규분포를 따른다. 
    H1 : 자료는 정규분포를 따르지 않는다. 
 
   분포검정은 벗어나는 정도가 큰 것으로 검정을 하니 디폴트가 정규분포를 따르는 것이고 
   벗어나는지 여부를 확인하는 것이 정규성 검정이 된다. 
   (이 부분이 아직은 이해가 완벽히 되지는 않음) 
 
 
6. 독립표본 T검정 (student T test) 
    두 집단의 평균의 차이를 검정하는 것. 
    이때 두 집단은 ①독립성 ②정규성 ③등분산성을 모두 만족해야한다. 
 
    독립성을 만족하지 못하는 경우인 자료가 서로 짝을 이루는 경우에는 
    정규성은 만족하는 경우엔 대응표본 T검정
    정규성 만족하지 못하는 경우 wilcoxon-signed rank test 
 
   정규성 만족하지 못하는 경우 Mann-whitney test, wilcoxon-rank sum test등
   비모수적 방법을 이용해야한다. 
 
7. 세군 이상의 비교 
    앞서 다중비교에서 다룬것 처럼 여러개의 검정을 동시에 수행할 때 
    동일한 유의수준을 적용하면 1종오류가 증가하는 상황이 생기게 된다. 
    따라서 세 군 사이에 크기의 차이가 있는지 '전반적인 검정'을 먼저 시행하고 
    차이가 있다고 증명되었을 때 비로소 다중비교에 착수한다. 
 
    첫단계로 전반적인 검정이 
    모수적 방법은 일원배치 분산분석(ANOVA)이고 
    비모수적 방법은 Kruskal-Wallis test이다. 
 
    이후 다중비교하는 것이 사후분석(post hoc analysis)인데 
    전체 유의수준을 5%로 지키면서 
    독립표본 T검정이나 Mann-whitney test등을 시행한다. 
 
    #군간에 서열관계가 있는 경우 
      셋 이상의 군이 서로 독립적이기는 하지만 군간에 서열관계가 있는 경우 
      즉, 독립변수간의 양적변화에 따라 종속변화의 증가 또는 감소 경향을 보이는 경우 
     Jonckheere-Terpstra test를 사용한다. 
     예를 들면, 고혈압약 5mg, 10mg, 20mg을 투여한 3군 사이에 
     투여용량이 증가함에 따라 혈압의 감소 정도의 경향성이
     존재하는지 검정하고 싶은 경우 사용. 
 
     이경우 H0 : A1, A2, A3,---는 크기 순서 없이 모두 같다. 
                 H1 : A1, A2, A3,---은 크기의 순서가 존재한다. 
 
8. 일원배치 분산분석 
 

출처 : https://www.wasyresearch.com/demystifying-p-value-in-analysis-of-variance-anova/

 
일원배치 분산분석은 F분포를 이용하기 때문에 F검정이라고도 불린다. 

 
총 변동 = 군 간의 변동 + 군 내의 변동 이라고 할 수 있다. 
군 간의 변동이 크다면 군 내의 변동은 상대적으로 작아지면서 F값이 커질 것이다. 
F값이 커지면 위의 그래프에서 우측으로 움직일 것이고, p value는 작아질 것이다. 
결국 유의수준 이하로 p value가 작아지게 된다면
군 간의 변동이 유의한 차이라고 할 수 있을 것이다. 

반응형