"환자의 병명은 중2병입니다!"


의사들은 이런 결정을 어떻게 할까요? 병원가면 응당 있는 일이라 특별한 일 아니라고 생각할 지 모르지만 자세히 까보면 심오한 부분이 있습니다. 결론부터 얘기하면 병에 대한 연구와 진료 행위는 서로 반대방향을 바라보는 행위라는 점이 바로 얘기하고자 하는 바입니다. 그러니까...


연구는 병이 먼저 걸렸을 때 이후 증상에 대해 알아보는 것인 반면

진료는 증상을 먼저 관찰하고 이후 병을 맞추는 것입니다.

정확히 반대죠.


의사들이 가진 고민의 궁극적인 어려움이 바로 여기 있습니다. 의사는 여러 증상을 보고 어떤 병일 확률이 제일 높은지 따져보고 진단하죠. 그리고 이 문제는 생각보다 간단한 얘기가 아닙니다. 조금 더 자세히, 가상의 병을 상정하여 얘기해보도록 합시다. '과학병'이라는 병이 있다고 해보자구요. 이 병에 걸린 환자의 90%는 잘난척을 합니다. 그냥 뭐 그렇다고 해요.


뭐 어때요. 알파카가 말도 하는데요 뭐.


알파카가 도 씁니다!

한권씩 사보세요.

은근 어려....가 아니고 재밌음.


명색이 블로근데 좀 있어보이게 표현해봅시다. 그림으로 말이죠. 온갖 증상이 일어나는 경우들과 병에 걸린 경우들을 다음 그림 처럼 간단히 나타낼 수 있습니다. 그림에 각 도형의 크기는 사건의 크기입니다. 저 크기를 이용해 우리는 간단하게 확률을 실체화하듯이 볼 수 있지요.

일단은 각 영역이 나타내는 바가 무엇인지 명확히 하고 넘어갑시다.

제일 먼저 1번 영역에 대해 설명해보도록 하지요.

지정하지 않은 다른 모든 사건입니다. 다른 병에 걸렸다거나 아무 병도 안 걸렸다거나 발가락이 간지럽다거나 등등등... 사실 표현할 수 없이 거대한 사각형입니다. 지금은 적당히 작게 그린것일 뿐이죠.

그 다음 2번.

과학병에 안 걸렸는데도 잘난척 하는 사건을 나타냅니다. 이런 경우 많지요. 정말이지 굉장히 많습니다. 주변을 생각해보세요. '과학병' 안 걸려도 잘난척하는 사람 천지에요~! 가만히 있다가도 잘난척 하고 싶은 분야가 대화에 등장하면 때는 이때다 흥분하는 사람 정말정말 많지요. 소설병에 걸렸을 수도 있고 시크릿가든병에 걸렸을 가능성도 있고 역사병도 만만치 않으며, 뭐 여튼 많습니다.

그리고 3번.

과학병에 걸려서 잘난척하는 아주 상식적인 대단히 익숙한 경우죠.

마지막으로 4번

과학병에 걸렸는데 잘난척을 안하는 경우입니다. 이럴 리가 없......



전 알파카이기 때문에

잘난척이니 과학병이니

상관 없습니다.


자 이제 본격적으로 확률을 나타내 볼까요. 제일 먼저 사람들이 잘난척하는 증상을 나타낼 확률을 나타내 봅시다. 애초 얘기한 대로 확률은 영역의 비율이니까요, 전체 그림 중에 잘난척을 나타내는 영역과 전체 영역의 면적 비로 나타낼 수 있습니다. 면적 비니까 분수 형태로 나타내집니다. 아래 그림에서 위 아래를 가르는 가운데 검정 선이 분수에서 나타나는 막대에요.

이렇게 구한 값을 수식으로 P(잘난척)이라고 표현 합니다.


다음으로는 중요한 예를 들어보겠습니다. 과학병에 걸린 사람 중에 90%는 잘난척을 한다는 사실을 그림에서 이해할 필요가 있습니다. 이것이 바로 과학병에 대한 연구 결과 그 자체거든요. 그렇다면 '과학병'을 나타내는 동그라미 면적의 90%는 잘난척을 나타내는 동그라미가 차지해야 합니다. 그러니까 다음 그림처럼 표현할 수 있습니다.


수식으로 표현하면

P(잘난척|과학병)이 됩니다.

조금 어렵네요.....

그래서 이런 표현은

되도록 안 쓰려구요.



병에 관한 연구를 그림으로 알아봤으니까 이제 의사 선생님의 진단 행위를 그림으로 나타낼 차례입니다. 결정적으로 의사 선생님은 환자가 과학병에 걸렸는지 아닌지 아직 모릅니다. 그저 증상이 잘난척이라는 것만 확인한 상태이지요. 의사는 잘난척 증상이 나타나는 경우중에 가장 확률이 높은 원인을 찾아내야 하는 것이지요. 그것이 진단입니다. 진단에 필요한 정보를 그림으로 잘 이해하기 위해 표현을 조금만 바꾸면, '잘난척 증상을 보이는 환자중 몇퍼센트가 과학병을 앓고 있을까?'가 됩니다. 그럼 그림으로도 이해할 수 있습니다.


이것이 바로 궁금한 값이지요. 역시 수식으로 나타낼 수 있습니다. P(과학병|난척) 어랏? 아까랑 정확히 반대 아닌가요? 설명 듣기 전에 이것 눈치챘으면 당신은 과학병 환ㅈ... 가 아니고 훌륭하신 분!


문제는 여기에서 발생합니다. 세상 누구도 2의 크기(혹은 3의 크기)를 미리 모른다는 것이죠. 잘난척 하는 사람 중에 얼마나 과학병에 걸렸나 어떻게 미리 알아내겠어요. 잘난척하는 사람을 전부 검사할수도 없는데 말입니다. 이건 그냥 추정만 하기도 힘든 값입니다. 잘난척 하는 인간만 세면 되는게 아니고 그 중에 과학병에 안 걸린 사람을 골라내야 하는 거니까요. 계산적으로는 진단 행위가 거대한 벽에 부딪힌 셈입니다. 


그렇다고 진단을 안할수는 없으니까 그래도 추정할 수 있는 방법을 만들어야 될것 같아요. 그래도 그냥 잘난척 하는 인간의 비율이 얼마인지는 대충 알지 않을까요? 그냥 잘난척이요. 왜 살다보면 한반에 몇명이나 잘난척하는지 알잖아요. 이런 식으로 대강의 값들을 몇개 추정하면 진단에 도움이 되도록 확률값을 알 수 있게 됩니다.


수학이에요. 수학!

그림으로 하면

안 어려울.....껄요?

우선 알고 싶은 값을 등호 왼쪽에 놓고.....


바로 밑에 계산 원리를 그림으로 알려드립니다.

왼쪽에 있는 값들을 각각 오른쪽으로 옮기고

그 사이에 통분해서 사라지는 값들을

대각선으로 배치한 것이죠.

그러면 양쪽은 값이 같습니다.


이해하기 그렇게 난해하지 않은 분수를 이용한 식입니다. 그런데 이렇게 해 놓으면 등호의 왼쪽은 전혀 알 수 없는 값이었는데 오른쪽은 추론을 통해 알 수 있는 값이 됩니다. 정말이에요. 하나하나 알아볼께요.

등호 오른쪽의 첫번째인데 이것은 앞서 이미 봤습니다. 바로 연구로 알아낸 과학병에 걸렸을 때 잘난척할 확률입니다. 바로 90%요. 따라서 수학적으로는 0.9가 되겠지요. (면적비니까 1이 곧 100%를 의미합니다.)

등호 오른쪽의 두번째인데 이것은 보통 사람이 과학병에 걸릴 확률입니다. 그니까 대충 추정해야 되는 값이지만 딱히 어려울 것 같지는 않습니다. 대충 한반에 서너명 있잖아요? 그러니까 4/30이라고 과감하게 추론합시다.

이것은 등호 오른쪽의 제일 오른쪽 것입니다. 보통 사람이 잘난척을 할 확률입니다. 정확히는 그럴 확률을 뒤집은 값이지요. 역수인 것입니다. 여튼 잘난척 하는 사람은 무지 많을 것으로 예상되지만 너무 많으면 우리의 삶이 너무 안타까우니까 세 명 중 하나 정도로 합시다. 그래서 10/30. 식에 들어갈때 위아래가 뒤집혀 있으니 30/10. 모든 것을 종합하여 누군가 잘난척을 했는데 과학병에 걸릴 확률을 추정하여 다음과 같이 계산할 수 있습니다.


그러면 결과적으로 값이 0.36이 나오네요. 잘난척한다고 과학병 걸린거 아니냐고 물어보러 의사 선생님한테 가면 의사 선생님은 36% 확률로 확신을 갖는 상황, 한마디로 확진 못하는 상황입니다. 캬울. 그래서 아마도 다른 검사를 하자고 할겁니다. 과학병이 나타내는 다른 증상이 더 있는지 알아보려고 말입니다. 여태 확률적으로 진단행위를 이해했으니 의사선생님들이 왜 다른 검사를 하자고 하는지 이제 명확히 이해할 수 있습니다.


정확한 진단을 내리기 위해서 의사선생님이 해야 할 가장 원리적인 것들이 수식에 잘 표현되어 있습니다. 첫째, 병에 걸리면 높은 확률로 나타나는 증상을 찾아내는 겁니다.병에 걸리면 무조건 나타나는 증상을 알아내면 최고지요. 수식에 따르면 등호 오른쪽에 있는 것중에 첫번째 것의 값이 커야 하는 것이죠. 과학병의 예에서는 잘난척은 환자의 90%가 보이는 증상이니까 병의 지표로서 잘난척은 첫단계 통과한 셈입니다.


둘째, 증상 중에 병에 고유한 증상을 알아내는 것입니다. 위의 예에서 진단 확률이 안 좋아진 이유는 잘난척이란 증상이 너무 흔한 증상이기 때문입니다. 만약 30/10이 아니고 30/4가 곱해졌다고 생각해보세요. 확률은 자그마치 90%가 됩니다. 의사 선생님들은 그래서 여러 증상을 동시에 관찰해서 관찰하는 증상이 고유한 증상이 되도록 만드는 것이죠. 병원가면 이거저거 검사 많이 하는 이유가 이겁니다. 많은 검사를 통해 '특정 병에만 기인하는 증상'을 조합해내면 진단 확률이 매우 높아지니까요. 잘난척 때문에 가면 아마 의사선생님이 주기율표를 외우고 있는지 원주율을 몇자리까지 외우는지 등등 더 검사할 겁니다.


여태 얘기 한 것이 바로

베이지 정리(Bayes' theorem)입니다.


몇년전부터 대단히 각광받는 베이지안 확률론의 시작이자 기본이자 핵심이자..... 뭐 그런 겁니다. 처음 이 정리가 만들어진 지는 한참되었는데 말입니다. 토마스 베이지가 1701년에 태어난 사람이니까 상당히 오래된 얘기지요. 그런데 요 근래에 다시 널리 퍼지게 된 데에는 이 수식이 뜻하는 바가 인간의 인지와 대단히 비슷하다는 것이 큰 원인으로 작용했습니다.

인간은 불확실한 상황에서 주어진 정보를 이용해 판단을 내립니다. 매순간 주어진 정보를 기반으로 이 일이 무엇인지 개연성이 제일 높은 일을 선택하지요. 그 과정은 이 베이즈 정리가 표현하는 바와 매우 비슷합니다. 이 글에서는 예를 통해 '베이지안 정리'가 나타내는 바와 '진단' 같다고 했지만 사실 의사선생님의 진단이 우리가 살면서 내리는 판단과 본질적으로 크게 다르지 않습니다. 일상생활에서도 어떤 사건이 일어나면 그것을 본 후에 기존에 알고 있던 사실을 바탕으로 추론해서 원인이 무엇인지 확률적으로 판단하죠.

이런 유사성은 과학과도 연관이 있습니다. 제가 이 이야기를 길게 풀어낸 이유이기도 하지요. 다음에는 이 포스트를 기본으로 해서 이야기를 조금 더 심도있게 풀어봅시다. 베이지 통계가 과학과 무슨 상관인지 가볍게 다루는 것에서부터 기술적으로(?) 어떤 식으로 사용되는지 등등 할 얘기가 많습니다.


바로 다음은 아닐지도 몰라요.

일단 퇴로는 열어 놓고....


-끝-


WRITTEN BY
The Alpaca
물리오디세이의 주인공 알파카입니다.

트랙백  0 , 댓글  0개가 달렸습니다.
secret