오즈비(Odds Ratio) 사례 분석
약물은 치료효과를 가지고 있지만, 예상치 못한 부작용을 일으키는 경우도 많다.
"'심혈관 질환의 희망' 스타틴…'부작용 논란' 어디까지 믿을까?", 2024-11-08, 한겨레
https://www.hani.co.kr/arti/hanihealth/medical/1166451.html
심장병, 뇌졸중 등 심혈관 질환을 예방하는 데 스타틴 계열의 약물이 효과가 탁월하지만, 이 약물은 당뇨병을 유발할 수도 있다는 논란이 있다. 이 기사에서 "황 교수는 '메타분석 결과 스타틴 투약으로 당뇨병 발생 위험이 9% 높아지는 것으로 나타났지만 고강도 스타틴은 최대 36%까지 그 위험도가 올라갔다'며 '고강도 스타틴은 24% 정도 혈당에 부정적인 영향을 미치는 것으로 조사됐다.... "라는 내용을 보면서 약물의 부작용 "위험성"을 어떻게 수치로 나타내는지 궁금했다. 위험성 높은지 낮은지는 어떻게 알 수 있을까?
의약품안전원 "고혈압약 아질사르탄, 간손상 위험 높아", 2024.03.28, 뉴시스
https://www.newsis.com/view/NISX20240328_0002678974
이 기사에서는 "올메사르탄 사용군의 간손상 발생 위험은 발사르탄 사용군보다 0.73배(95% CI: 0.55-0.96) 낮았으나, 아질사르탄 단독 사용군의 간손상 발생 위험은 발사르탄 사용군보다 6.55배(95% CI: 5.28-8.12) 유의하게 높았다" 라는 내용이 있다. 95%는 통계의 신뢰도 95%를, CI는 Confidence interval의 약자로 통계의 신뢰구간을 뜻한다고 한다. 이 기사의 통계가 어떻게 계산되는지, 통계 결과치가 어떤 의미를 가지는지 알기 위해 조사했다.
약물 부작용 위험도에 대한 통계는 RR(Relative Risk), OR(Odds Ratio), HR(Hazard Ratio)를 사용한다고 한다. 실제 연구과정에서는 약물의 부작용 위험도에 대한 통계계산은 직접 계산하지 않고 통계프로그램을 이용해 계산결과를 얻는다고 한다.
세가지 통계방법 중 많이 사용되면서 개념 이해가 쉬울 것 같은 OR(Odds Ratio)에 대해 구체적으로 어떤 통계방법을 사용하는지 그 원리와 개념을 중심으로 자료를 조사했다.
OR(Odds Ratio) 통계 방법을 이해하기 위해 데이터를 구체적으로 예시하고 계산과정을 설명한 자료를 조사하였다.
https://bioinformatics-kleis.tistory.com/tag/Odds%20ratio
BIOINFORMATICS WITH PARK-KLEIS
bioinformatics-kleis.tistory.com
이 자료에서 다음의 데이터 예시 자료를 선택했다.
약물투여 | 경색증(infarction) | Odds | OR(Odds Ratio) | ||
약물투여 여부 | 인원 | 발생 | 발생않음 | ||
약물 투여않음 (통제변인) |
167 | 35 | 132 | $$\frac{35}{132}=0.27$$ | - (비교기준) |
약물 투여 (조작변인) |
69 | 28 | 41 | $$\frac{28}{42}=0.68$$ | $$\frac{0.68}{0.27}=2.58$$ |
※ 경색증(infarction) : 동맥경화나 혈전 또는 색전, 드물게는 외부 압박 등에 의해 동맥이 막혀서 조직이 혈액을 공급받지 못해 산소 부족으로 괴사가 발생하는 과정
약물투여 그룹에서 경색증이 발생하는 비율이 약물비투여 그룹에서 경색증이 발생하는 비율에 대비하여 얼마나 되는지에 대해 OR(Odds Ratio)를 계산한다. 이때 OR을 계산하는 수식은 다음과 같이 정의되어 있다.
$$ OR = \frac{\text{약물투여그룹의 부작용 발생한 사람수}}{ \text{약물투여그룹의 부작용 없는 사람수}} \div \frac{ \text{약물비투여그룹의 부작용 발생한 사람수}}{ \text{ 약물비투여그룹의 부작용 없는 사람수}} $$
위 표에서 보듯이, 위 데이터에서 OR 값은 2.58이 된다. 이것을 어떤 의미로 해석해야 할까?
OR은 어떤 조건에서 더 위험한지를 수치로 나타내기 위한 통계 방법이다. 위 경우처럼 어떤 약물을 투여했을 때와 그렇지 않았을 때로 나눈다면, 어떤 약물을 투여했을 경우는 그렇지 않았을 경우와 비교했을 때 부작용 발생 위험이 얼마나 더 높은지를 수치로 계산하기 위한 방법이다.
OR 값은 비율 값이므로 0 ~ +∞ 구간의 실수 값을 갖는다. OR 값은 1을 기준으로 다음과 같이 해석된다.
- OR = 1 경우 : 약물 투여 여부에 상관 없는 경우 (약물 투여 여부에 상관없이 부작용 발생정도 비율은 동일)
- OR > 1 경우 : 약물 투여 경우, 투여하지 않을 경우에 비해 부작용이 OR 값 만큼의 비율로 부작용 증가발생
- OR < 1 경우 : 약물 투여 경우, 투여하지 않을 경우에 비해 부작용이 OR 값 만큼의 비율로 부작용 감소발생
위에서 OR 값이 2.58이면, 보통 "약물을 투여하지 않았을 때와 비교했을 때 약물을 투여하면 경색증 부작용 발생이 2.58배로 증가할 수 있다"라고 해석하기도 한다. 하지만 연구방식에 따라서는 보다 엄밀한 해석이 필요할 수도 있다고 한다.
※ 공식 허가를 받은 약물에 대한 부작용에 대한 연구결과들을 보면, OR 값이 높은 값으로 계산결과가 나오더라도 1.15 내외 가량의 비교적 작은 값을 갖는게 통상적이다. 위 예시 데이터의 2.58 값은 사실 극단적인 경우에 해당한다고 할 수 있다.
사례-대조 연구(case-control study) 경우에는 OR을 사용해야 보다 정확한 수치를 얻을 수 있다고 한다. 그래서 보건/의료 분야에서 현재 널리 쓰이고 있다.
※ 사례-대조 연구는 대상자들을 결과(outcome)에 따라 사례군(case group)과 대조군(control group)으로 분류하고, 각 집단을 과거에 특정 요인을 가지고 있었는지를 구분하여 분석하는 관측연구의 한 방법이다. 예를 들어, 치료 중인 폐암 환자들(사례군)을 조사하여 과거의 흡연 경험을 구분하고, 비폐암 환자들(대조군)도 조사하여 과거의 흡연 경험을 구분함으로써, 흡연과 폐암의 관련성을 추론한다. ※ 이때 사례군(case group)은 조작변인에 해당하는 그룹이고, 대조군(control group)은 통제변인에 해당하는 그룹이다. 위 데이터 사례에서는 "약물투여 그룹"이 사례군(조작변인)에 해당하고, "약물 투여 않은 그룹"은 대조군(통제변인)에 해당한다. |
OR(Odds Ratio) 값은 표본으로부터 추정한 값이다. OR 값은 표본에서 얻은 값이므로 모집단의 실제 OR 값과 동일할 것이라고 단정할 수는 없다. 이에 모집단의 실제 OR 값이 어떤 범위에 있을 수 있는지에 대한 통계치도 필요하다. 주로 OR 값에 대해 95% 신뢰도의 신뢰구간을 계산하여 함께 통계치로 제시한다. OR 결과 값이 어느 정도의 신뢰성을 가질 수 있는 추정치인지 가늠할 수 있게 한다.
표본을 추출했을 때 표본의 통계치는 표본의 정규분포를 따른다.
표본의 정규분포는 - ∞ ~ +∞ 의 전체 실수 값을 갖는 확률변수를 대상으로 한다.
하지만 OR 값은 실수 전체 값이 아니라 비율이 가질 수 있는 0 ~ +∞ 구간의 실수 값을 갖는다. 따라서 이 값은 정규분포의 확률변수로 사용할 수 없다.
하지만, OR 값에 로그를 취하면 log(OR) 값이 - ∞ ~ +∞ 의 전체 실수 값이 된다. 통계학에서는 log(OR) 값을 표본 정규분포의 확률변수로 사용함으로써 표본 정규분포에 의한 추정방법을 적용할 수 있는 통계방법을 개발했다. OR 값을 얻는데 사용하는 표본 경우에도 충분히 표본크기가 크다면, log(OR) 값은 표본 정규분포를 따른다고 한다. 이때 log는 e를 밑으로 하는 로그인 자연로그를 주로 사용한다.
표본 정규분포에서 평균값의 95% 신뢰도 신뢰구간을 구하는 경우의 식은 다음과 같이 알려져 있다.
$$ \bar{X} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq m \leq \bar{X} + 1.96 \cdot \frac{\sigma}{\sqrt{n}} $$
하지만, log(OR) 경우는 평균값이 아니며, 표본의 성격도 평균값을 구하는 경우와 다르다.
신뢰도 95% 경우, 위 식을 일반식 형태로 표현하면, 다음과 같이 된다. 이때 V는 표본분산 값이다. 표본표준편차 σ/√n 의 제곱 값이 표본분산 값에 해당한다.
$$ \bar{X} - 1.96 \cdot \sqrt{V} \leq \text{모집단 통계치} \leq \bar{X} + 1.96 \cdot \sqrt{V} $$
OR 경우의 표본분산 값을 근사치로 구하는 식이 통계학자에 의해 개발되어 알려져 있다. (표본분산 값을 안다면 표본표준편차 값은 표본분산의 제곱근을 적용하면 바로 알 수 있다)
이를 적용하면 위 데이터 예시 경우, 다음과 같은 수식이 된다.
$$ V(\log(OR)) \approx \frac{1}{\text{약물투여그룹의 부작용 발생한 사람수}} + \frac{1}{ \text{약물투여그룹의 부작용 없는 사람수}} + $$
$$ \frac{1}{ \text{약물비투여그룹의 부작용 발생한 사람수}} + \frac{1}{ \text{ 약물비투여그룹의 부작용 없는 사람수}} $$
$$ = \frac{1}{35} + \frac{1}{132} + \frac{1}{28} + \frac{1}{41} =0.096 $$
이 값을 적용하여 95% 신뢰구간을 구하면, 다음과 같이 계산된다. 이때의 log는 e를 밑으로 하는 로그인 자연로그이다.
$$ \log(OR) = \log(2.58) = 0.95 $$
$$ \log(OR) - 1.96 \times \sqrt{V(\log(OR))} \leq \text{log(OR) 모집단 통계치} \leq \log(OR) + 1.96 \times \sqrt{V(\log(OR))} $$
$$ \log(OR) - 1.96 \times \sqrt{0.096} \leq \text{log(OR) 모집단 통계치} \leq \log(OR) + 1.96 \times \sqrt{0.096} $$
$$ 0.95 - 1.96 \times \sqrt{0.096} \leq \text{log(OR) 모집단 통계치} \leq 0.95 + 1.96 \times \sqrt{0.096} $$
$$ 0.95 - 1.96 \times 0.31 \leq \text{log(OR) 모집단 통계치} \leq 0.95 + 1.96 \times 0.31 $$
$$ 0.95 - 0.61 \leq \text{log(OR) 모집단 통계치} \leq 0.95 + 0.61 $$
$$ 0.34 \leq \text{log(OR) 모집단 통계치} \leq 1.56 $$
이 값을 다시 원래의 OR 값 범위로 변환하기 위해, 양변에 e 지수를 적용하면,
$$ e^{0.34} \leq \text{OR 모집단 통계치} \leq e^{1.56} $$
$$ 1.4 \leq \text{OR 모집단 통계치} \leq 4.7 $$
OR 값 2.58에 대해, 95% 신뢰도의 신뢰구간은 [1.4, 4.7] 이 된다. [1.4, 4.7]의 신뢰구간 중에 표본으로부터 추정된 OR 값 2.58도 포함되어 있다.
OR의 95% 신뢰도는 표본추출을 100회 반복했을 때, 그중 95회 정도에서는 모집단의 실제 OR 값이 표본 데이터로부터 계산된 추정치의 신뢰구간에 포함되어 있을 수 있다는 의미이다. 5회 정도는 모집단의 실제 OR 값이 포함되지 않은 경우도 발생할 수 있다.
위 OR 값 2.58에 대한 95% 신뢰도의 신뢰구간 [1.4, 4.7] 경우는 100회 표본 추출 중에서 모집단 실제 OR 값을 근접하게 추정하는 데 성공하는 95%에 속할 수도 있고, 아니면 그렇지 않은 5%에 속할 수도 있다. 어디에 속하는지는 확실히 알 수 없다. 하지만 "모집단 실제 OR 값을 근접하게 추정하는 데 성공하는 95%에 속할 가능성"이 더 많다고 볼 수는 있다. 이것이 "95%의 신뢰도"가 갖는 의미라 할 수 있다.
OR(Odds Ratio) 외에도 RR(Relative Risk), HR(Hazard Ratio) 가 있다. 이들은 모두 비율 값으로써 비록 각각의 표본 분산 값 계산 수식에서는 차이가 있을 수 있으나 OR 경우에서와 같이 log를 취한 값을 사용하여 표본 정규분포를 이용하는 기본 개념은 동일하다. 따라서 95% 신뢰도의 신뢰구간에 대한 해석도 동일하게 이루어질 수 있다.
고혈압 치료에 사용되는 약물 중 아질사르탄의 위험성에 관련된 앞서 기사의 "올메사르탄 사용군의 간손상 발생 위험은 발사르탄 사용군보다 0.73배(95% CI: 0.55-0.96) 낮았으나, 아질사르탄 단독 사용군의 간손상 발생 위험은 발사르탄 사용군보다 6.55배(95% CI: 5.28-8.12) 유의하게 높았다"는 내용은 다음과 같이 해석될 수 있겠다.
- 올메사르탄 사용 경우, 간손상 발생 위험은 발사르탄을 사용하는 경우에 비해 0.73배로 낮았다.
- 이때의 95% 신뢰구간은 [0.55, 0.96]으로써 0.73을 포함하여, 실제 그 비율은 0.55~0.96 값 범위에 있을 수 있다.
- 발사르탄 경우에 비교할 때, 올메사르탄 사용 경우 간손상 발생 위험이 증가한다고는 볼 수 없다.
- 아질사르탄 단독 사용 경우, 간손상 발생 위험은 발사르탄을 사용하는 경우에 비해 6.55배로 "유의하게" 높다.
- 이때 95% 신뢰구간은 [5.28, 8.12] 으로써 6.55를 포함하며, 실제 그 비율은 5.28~8.12 값 범위에 있을 수 있다.
- 발사르탄 경우에 비교할 때, 간손상 발생 위험성 정도의 비율이 1을 한참 벗어나 6.55배로 높아서, 거의 확실하게 간손상 부작용 유발 작용이 있다고 판단할 수 있다.
- 만약 여기에 사용된 표본이 모집단의 특성을 잘 반영하고 있다면, 모집단의 실제 OR 값이 최소 5.28에서 최대 8.12 값 구간에 있을 가능성이 있다는 의미가 된다. 그렇다면 이 약물(아질사르탄)은 타 약물(발사르탄 등)에 비해, 치료 처방에 사용될 수 없을 정도의 심각한 간손상 발생 위험성을 지니고 있는 것으로 볼 수도 있다.
실제 약물의 부작용 위험성 연구에서는 통계전문 프로그램을 사용하여 필요한 수치 데이터를 입력해 주면 OR 등의 통계치와 이에 더불어 95% 신뢰도의 신뢰구간 값을 자동으로 계산해낼 수 있다고 한다.
여러 가지 약물에 대해 약물 부작용 여부와 부작용 정도를 수치로 산정하는 것은 아주 중요하다. 위 기사에 나오는 것과 같이, 의약품안전원 등과 같은 정부산하 기관에서는 주요 약물마다 그 부작용에 대한 조사를 진행하고 있다. OR(Odds Ratio), RR(Relative Risk), HR(Hazard Ratio)와 같은 통계방법으로 수치를 얻어내고 이를 바탕으로 약물의 안전한 사용 기준 권고, 또는 위험 약물의 사용 판매 금지 등의 조치를 취하고 있다. 외국에서도 다양한 약물에 대해 그 위험성에 대한 점검을 하고 있다.
약물 부작용 위험성에 대해 수치 값으로 그 위험정도를 산정할 수 있게 하는 통계적 방법은 실생활의 안전한 약물 사용에 있어 상당히 중요한 기여를 하고 있다고 할 수 있다.
OR(Odds Ratio)에 대해 간략히 정리하자면,
- Odds Ratio는 두 집단 간의 특정 사건 발생 가능성을 비교하는 지표로, 약물 부작용 발생 위험도를 정량적으로 표현하는 데 유용하다. OR이 1보다 크면 노출군에서 부작용이 더 많이 발생했음을 의미하고, 1보다 작으면 노출군에서 덜 발생했음을 나타낸다.
- OR의 정확성은 데이터 수집 방식에 크게 좌우된다. 예를 들어, 관찰 연구에서는 선택 편향(selection bias)이나 교란 변수(confounding variables)를 고려해야 한다. 표본을 편향됨 없이 "무작위"로 선정하여야 표본 정규분포 적용에 있어 문제가 없게 된다. 표본 정규분포를 활용하는 통계 수식은 무작위로 추출된 표본이라는 가정하에서 이론적 검증을 통해 만들어진 것이다. 따라서 무작위 표본인 경우에 한정하여 그 수식이 유효하게 성립될 수 있다.
- (활용, 의약품 안전성 평가) 신약 개발 과정에서 임상시험 데이터를 통해 약물의 부작용 가능성을 분석하는 데 OR이 필수적이다. 약물-약물 상호작용이나 특정 인구집단(고령자, 임산부 등)에 대한 위험성을 평가하는 데 활용된다.
- (활용, 의료 의사결정) OR은 의약품 사용 여부를 결정하는 중요한 근거로 활용된다. 예를 들어, 고위험 환자에게 특정 약물을 사용해도 되는지 판단할 때 OR 분석 결과가 도움을 준다.
- (환자의 안전성 강화) OR 분석을 통해 특정 약물의 위험성이 높다고 밝혀지면, 해당 약물을 대체하거나 용량을 조절하여 환자의 안전을 보장할 수 있다. 또한 약물 라벨링이나 경고 문구에 반영되어 소비자들이 더 안전하게 약물을 사용할 수 있도록 돕는다.
- (개인 맞춤형 약물 치료) OR 데이터를 기반으로 특정 환자군(예: 유전적 요인, 질환 상태)에 적합한 약물을 추천하거나 부작용 위험이 높은 환자를 사전에 파악할 수 있다.
- (공중보건 정책 수립) 약물 부작용 데이터를 토대로 공공 보건 정책을 수립하고, 약물 사용 가이드라인을 개선하는 데 기여한다.
참고 자료 :
- 오즈비 관련 예시 데이터와 신뢰구간 구하는 구체적인 방법이 제시된 자료
https://bioinformatics-kleis.tistory.com/9
오즈비의 신뢰구간 ; 95% confidence interval of Odds Ratio
오즈비에 관한 통계적 추론 표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log(θ )를 이용한다. 두 변수 X, Y 가 서로 독
bioinformatics-kleis.tistory.com
- 위와 동일한 블로그의 Odds Ratio 관련 글 모음
https://bioinformatics-kleis.tistory.com/tag/Odds%20ratio
BIOINFORMATICS WITH PARK-KLEIS
bioinformatics-kleis.tistory.com