"환자의 병명은 중2병입니다!"


의사들은 이런 결정을 어떻게 할까요? 병원가면 응당 있는 일이라 특별한 일 아니라고 생각할 지 모르지만 자세히 까보면 심오한 부분이 있습니다. 결론부터 얘기하면 병에 대한 연구와 진료 행위는 서로 반대방향을 바라보는 행위라는 점이 바로 얘기하고자 하는 바입니다. 그러니까...


연구는 병이 먼저 걸렸을 때 이후 증상에 대해 알아보는 것인 반면

진료는 증상을 먼저 관찰하고 이후 병을 맞추는 것입니다.

정확히 반대죠.


의사들이 가진 고민의 궁극적인 어려움이 바로 여기 있습니다. 의사는 여러 증상을 보고 어떤 병일 확률이 제일 높은지 따져보고 진단하죠. 그리고 이 문제는 생각보다 간단한 얘기가 아닙니다. 조금 더 자세히, 가상의 병을 상정하여 얘기해보도록 합시다. '과학병'이라는 병이 있다고 해보자구요. 이 병에 걸린 환자의 90%는 잘난척을 합니다. 그냥 뭐 그렇다고 해요.


뭐 어때요. 알파카가 말도 하는데요 뭐.


알파카가 도 씁니다!

한권씩 사보세요.

은근 어려....가 아니고 재밌음.


명색이 블로근데 좀 있어보이게 표현해봅시다. 그림으로 말이죠. 온갖 증상이 일어나는 경우들과 병에 걸린 경우들을 다음 그림 처럼 간단히 나타낼 수 있습니다. 그림에 각 도형의 크기는 사건의 크기입니다. 저 크기를 이용해 우리는 간단하게 확률을 실체화하듯이 볼 수 있지요.

일단은 각 영역이 나타내는 바가 무엇인지 명확히 하고 넘어갑시다.

제일 먼저 1번 영역에 대해 설명해보도록 하지요.

지정하지 않은 다른 모든 사건입니다. 다른 병에 걸렸다거나 아무 병도 안 걸렸다거나 발가락이 간지럽다거나 등등등... 사실 표현할 수 없이 거대한 사각형입니다. 지금은 적당히 작게 그린것일 뿐이죠.

그 다음 2번.

과학병에 안 걸렸는데도 잘난척 하는 사건을 나타냅니다. 이런 경우 많지요. 정말이지 굉장히 많습니다. 주변을 생각해보세요. '과학병' 안 걸려도 잘난척하는 사람 천지에요~! 가만히 있다가도 잘난척 하고 싶은 분야가 대화에 등장하면 때는 이때다 흥분하는 사람 정말정말 많지요. 소설병에 걸렸을 수도 있고 시크릿가든병에 걸렸을 가능성도 있고 역사병도 만만치 않으며, 뭐 여튼 많습니다.

그리고 3번.

과학병에 걸려서 잘난척하는 아주 상식적인 대단히 익숙한 경우죠.

마지막으로 4번

과학병에 걸렸는데 잘난척을 안하는 경우입니다. 이럴 리가 없......



전 알파카이기 때문에

잘난척이니 과학병이니

상관 없습니다.


자 이제 본격적으로 확률을 나타내 볼까요. 제일 먼저 사람들이 잘난척하는 증상을 나타낼 확률을 나타내 봅시다. 애초 얘기한 대로 확률은 영역의 비율이니까요, 전체 그림 중에 잘난척을 나타내는 영역과 전체 영역의 면적 비로 나타낼 수 있습니다. 면적 비니까 분수 형태로 나타내집니다. 아래 그림에서 위 아래를 가르는 가운데 검정 선이 분수에서 나타나는 막대에요.

이렇게 구한 값을 수식으로 P(잘난척)이라고 표현 합니다.


다음으로는 중요한 예를 들어보겠습니다. 과학병에 걸린 사람 중에 90%는 잘난척을 한다는 사실을 그림에서 이해할 필요가 있습니다. 이것이 바로 과학병에 대한 연구 결과 그 자체거든요. 그렇다면 '과학병'을 나타내는 동그라미 면적의 90%는 잘난척을 나타내는 동그라미가 차지해야 합니다. 그러니까 다음 그림처럼 표현할 수 있습니다.


수식으로 표현하면

P(잘난척|과학병)이 됩니다.

조금 어렵네요.....

그래서 이런 표현은

되도록 안 쓰려구요.



병에 관한 연구를 그림으로 알아봤으니까 이제 의사 선생님의 진단 행위를 그림으로 나타낼 차례입니다. 결정적으로 의사 선생님은 환자가 과학병에 걸렸는지 아닌지 아직 모릅니다. 그저 증상이 잘난척이라는 것만 확인한 상태이지요. 의사는 잘난척 증상이 나타나는 경우중에 가장 확률이 높은 원인을 찾아내야 하는 것이지요. 그것이 진단입니다. 진단에 필요한 정보를 그림으로 잘 이해하기 위해 표현을 조금만 바꾸면, '잘난척 증상을 보이는 환자중 몇퍼센트가 과학병을 앓고 있을까?'가 됩니다. 그럼 그림으로도 이해할 수 있습니다.


이것이 바로 궁금한 값이지요. 역시 수식으로 나타낼 수 있습니다. P(과학병|난척) 어랏? 아까랑 정확히 반대 아닌가요? 설명 듣기 전에 이것 눈치챘으면 당신은 과학병 환ㅈ... 가 아니고 훌륭하신 분!


문제는 여기에서 발생합니다. 세상 누구도 2의 크기(혹은 3의 크기)를 미리 모른다는 것이죠. 잘난척 하는 사람 중에 얼마나 과학병에 걸렸나 어떻게 미리 알아내겠어요. 잘난척하는 사람을 전부 검사할수도 없는데 말입니다. 이건 그냥 추정만 하기도 힘든 값입니다. 잘난척 하는 인간만 세면 되는게 아니고 그 중에 과학병에 안 걸린 사람을 골라내야 하는 거니까요. 계산적으로는 진단 행위가 거대한 벽에 부딪힌 셈입니다. 


그렇다고 진단을 안할수는 없으니까 그래도 추정할 수 있는 방법을 만들어야 될것 같아요. 그래도 그냥 잘난척 하는 인간의 비율이 얼마인지는 대충 알지 않을까요? 그냥 잘난척이요. 왜 살다보면 한반에 몇명이나 잘난척하는지 알잖아요. 이런 식으로 대강의 값들을 몇개 추정하면 진단에 도움이 되도록 확률값을 알 수 있게 됩니다.


수학이에요. 수학!

그림으로 하면

안 어려울.....껄요?

우선 알고 싶은 값을 등호 왼쪽에 놓고.....


바로 밑에 계산 원리를 그림으로 알려드립니다.

왼쪽에 있는 값들을 각각 오른쪽으로 옮기고

그 사이에 통분해서 사라지는 값들을

대각선으로 배치한 것이죠.

그러면 양쪽은 값이 같습니다.


이해하기 그렇게 난해하지 않은 분수를 이용한 식입니다. 그런데 이렇게 해 놓으면 등호의 왼쪽은 전혀 알 수 없는 값이었는데 오른쪽은 추론을 통해 알 수 있는 값이 됩니다. 정말이에요. 하나하나 알아볼께요.

등호 오른쪽의 첫번째인데 이것은 앞서 이미 봤습니다. 바로 연구로 알아낸 과학병에 걸렸을 때 잘난척할 확률입니다. 바로 90%요. 따라서 수학적으로는 0.9가 되겠지요. (면적비니까 1이 곧 100%를 의미합니다.)

등호 오른쪽의 두번째인데 이것은 보통 사람이 과학병에 걸릴 확률입니다. 그니까 대충 추정해야 되는 값이지만 딱히 어려울 것 같지는 않습니다. 대충 한반에 서너명 있잖아요? 그러니까 4/30이라고 과감하게 추론합시다.

이것은 등호 오른쪽의 제일 오른쪽 것입니다. 보통 사람이 잘난척을 할 확률입니다. 정확히는 그럴 확률을 뒤집은 값이지요. 역수인 것입니다. 여튼 잘난척 하는 사람은 무지 많을 것으로 예상되지만 너무 많으면 우리의 삶이 너무 안타까우니까 세 명 중 하나 정도로 합시다. 그래서 10/30. 식에 들어갈때 위아래가 뒤집혀 있으니 30/10. 모든 것을 종합하여 누군가 잘난척을 했는데 과학병에 걸릴 확률을 추정하여 다음과 같이 계산할 수 있습니다.


그러면 결과적으로 값이 0.36이 나오네요. 잘난척한다고 과학병 걸린거 아니냐고 물어보러 의사 선생님한테 가면 의사 선생님은 36% 확률로 확신을 갖는 상황, 한마디로 확진 못하는 상황입니다. 캬울. 그래서 아마도 다른 검사를 하자고 할겁니다. 과학병이 나타내는 다른 증상이 더 있는지 알아보려고 말입니다. 여태 확률적으로 진단행위를 이해했으니 의사선생님들이 왜 다른 검사를 하자고 하는지 이제 명확히 이해할 수 있습니다.


정확한 진단을 내리기 위해서 의사선생님이 해야 할 가장 원리적인 것들이 수식에 잘 표현되어 있습니다. 첫째, 병에 걸리면 높은 확률로 나타나는 증상을 찾아내는 겁니다.병에 걸리면 무조건 나타나는 증상을 알아내면 최고지요. 수식에 따르면 등호 오른쪽에 있는 것중에 첫번째 것의 값이 커야 하는 것이죠. 과학병의 예에서는 잘난척은 환자의 90%가 보이는 증상이니까 병의 지표로서 잘난척은 첫단계 통과한 셈입니다.


둘째, 증상 중에 병에 고유한 증상을 알아내는 것입니다. 위의 예에서 진단 확률이 안 좋아진 이유는 잘난척이란 증상이 너무 흔한 증상이기 때문입니다. 만약 30/10이 아니고 30/4가 곱해졌다고 생각해보세요. 확률은 자그마치 90%가 됩니다. 의사 선생님들은 그래서 여러 증상을 동시에 관찰해서 관찰하는 증상이 고유한 증상이 되도록 만드는 것이죠. 병원가면 이거저거 검사 많이 하는 이유가 이겁니다. 많은 검사를 통해 '특정 병에만 기인하는 증상'을 조합해내면 진단 확률이 매우 높아지니까요. 잘난척 때문에 가면 아마 의사선생님이 주기율표를 외우고 있는지 원주율을 몇자리까지 외우는지 등등 더 검사할 겁니다.


여태 얘기 한 것이 바로

베이지 정리(Bayes' theorem)입니다.


몇년전부터 대단히 각광받는 베이지안 확률론의 시작이자 기본이자 핵심이자..... 뭐 그런 겁니다. 처음 이 정리가 만들어진 지는 한참되었는데 말입니다. 토마스 베이지가 1701년에 태어난 사람이니까 상당히 오래된 얘기지요. 그런데 요 근래에 다시 널리 퍼지게 된 데에는 이 수식이 뜻하는 바가 인간의 인지와 대단히 비슷하다는 것이 큰 원인으로 작용했습니다.

인간은 불확실한 상황에서 주어진 정보를 이용해 판단을 내립니다. 매순간 주어진 정보를 기반으로 이 일이 무엇인지 개연성이 제일 높은 일을 선택하지요. 그 과정은 이 베이즈 정리가 표현하는 바와 매우 비슷합니다. 이 글에서는 예를 통해 '베이지안 정리'가 나타내는 바와 '진단' 같다고 했지만 사실 의사선생님의 진단이 우리가 살면서 내리는 판단과 본질적으로 크게 다르지 않습니다. 일상생활에서도 어떤 사건이 일어나면 그것을 본 후에 기존에 알고 있던 사실을 바탕으로 추론해서 원인이 무엇인지 확률적으로 판단하죠.

이런 유사성은 과학과도 연관이 있습니다. 제가 이 이야기를 길게 풀어낸 이유이기도 하지요. 다음에는 이 포스트를 기본으로 해서 이야기를 조금 더 심도있게 풀어봅시다. 베이지 통계가 과학과 무슨 상관인지 가볍게 다루는 것에서부터 기술적으로(?) 어떤 식으로 사용되는지 등등 할 얘기가 많습니다.


바로 다음은 아닐지도 몰라요.

일단 퇴로는 열어 놓고....


-끝-

저작자 표시 비영리 변경 금지
신고

WRITTEN BY
The Alpaca
물리오디세이의 주인공 알파카입니다.

받은 트랙백이 없고 , 댓글이 없습니다.
secret


미세먼지에 대해 자세히 알고 싶어서 한 과학자와 이야기를 나누었습니다.

그림과 같이 원대한 포부를 갖고 말이죠.


미세먼지가 오롯이 중국 때문이라는 것도 믿을수 없고, 또 한국의 영향이 50%에 육박한다는 얘기 역시 믿고 싶지 않아서 동영상을 하나 구해서 이야기를 시작하려고 했지요. 순진한 마음에 동영상만 잘 보면 한국에서 자체생산한 미세먼지와 중국에서 배달온 미세먼지를 구별할 수 있을거라고 생각했기 때문입니다. 정확한 수치 계산을 원하는 것은 아니었기 때문에 이 정도면 충분하지 않을까 했던 것이지요. 그래서 구한 것이 다음 동영상입니다.


출처는 이곳으로 강하게 추정됩니다.

http://www.kaq.or.kr/



그림을 보면 할 말이 많을거 같습니다. 중국에서 벌건 미세먼지의 파도가 오기 전에 서울과 부산이 점점더 붉어지는거보니 수도권과 경남권에도 미세먼지 자체생산이 많다든가. 미세먼지가 남기고 간 자국을 보면 한국에 미세먼지를 남기고 가는지도 모른다거나. 이런 다채로운 이야기를 하려고 이 동영상을 보여주었는데 사실 돌아온 대답은 모든 것을 정지시켰습니다.


"저게 측정값이야? 시뮬레이션이야?"


(...왔더...)


아마도 이 과학자의 세부전공이 정확히 이 부분이 아니어서 정확히 알지 못했던 것이겠지요? 하지만 중요한 것은 그의 태도입니다. 보통 사람들은 결론을 먼저 내리지요. 저렇게나 멋진 영상을 보면 더더욱 쉽게 빠져듭니다. '중국에서 어마무지한 미세먼지 파도가 오는구나'라고 생각하고 마는 것이지요. 하지만 과학자들은 일단 자료의 신빙성부터 확인하는 겁니다. 아주 중요한 부분입니다.

그리고나서 가만 생각해보니 딱히 과학자가 아니었더라도 충분히 의심될만한 것들이 저 그림에 담겨 있습니다. 한반도를 뒤덮는 저 공간에 미세먼지를 전부 측정해서 저 그림안에 측정값을 넣었을리 없잖아요. 특히 바다 위에서는 말입니다. 이렇게 생각하면 사실 측정 기술이 있는지부터도 의심해야 합니다. 초미세먼지, pm2.5는 2.5마이크로미터 보다 작습니다. 과연 지금은 어떻게 측정하는 걸까요? 아직은 신뢰도가 충분히 높은 위성측정이 불가능하다고 하는데 말이죠. 그렇다면 화면에 보고 있는 저것은 무엇인지 의심이 들어야 합니다. 이게 진짜야? 하고 말입니다.


저랑 얘기한 대기과학자는 돈문제도 중요하다고 하더라구요ㅎ


대화는 당연히 산으로 갔습니다. 아니 사실 대화 자체가 아니었지요. 의도한 질문은 제대로 꺼내지도 못했습니다. 과학자가 과학자로서 생각하며 꺼내드는 질문을 조용히 듣고 있을 수 밖에 없었습니다. '전라도 옆에 저 파란 영역은 왜 생기는 걸까요?' '미세먼지 파도가 저기를 비껴서 전달된다니 말도 안된다고 봅니다.' 이런 류의 질문인지 독백인지 하는 문장들이 쏟아졌고 결국 대기과학자가 연구하는 방법론에 대한 강의를 듣는 것과 크게 다르지 않은 시간이 흘렀지요.


이런 결과도 시뮬레이션이랍니다.

큰 경향성 정도는 믿을만하다고 하네요.

(출처 : http://pm25.jp/ )


과학자가 과학적인 자료와 과학적인 언명, 과학적인 사고에 대해 어느 정도 비판적으로 사고하는지 다시한번 알 수 있는 기회였습니다. 과학자가 믿을만하다고 하면 정말 믿을만한 것입니다. 이런 종류의 인간들은 내일 해가 뜨냐는 질문에도 '정말이지 매우매우 믿을만 합니다'라고 할 사람들입니다.

그러고나서 위의 그림들의 출처에 가보니 전부 시뮬레이션 결과임을 명시하고 있고, 또 사실과 차이가 있을 수 있다는 말을 하고 있으며, 어떤 시뮬레이션 툴을 사용했는지 써 놓기도 했네요. 그들에게는 보통 사람들은 아~~무런 관심도 주지 않는 것들이 대단히 중요하니까 말입니다. 


결국 미세먼지 얘기는 하나도 못했습니다. 우리나라 미세먼지는 어디서 오는걸까요? 미세먼지 예보는 믿을만한 걸까요? 칼을 꺼냈으니 두부라도 써는 심정으로 과학자한테 물어봤더니 아직 믿을만한게 없다면서 대화 바로 접어버리네요. 정작 미세먼지 얘기는 몇분 하지도 못했습니다. 이 인간들 진짜.


-끝-


21세기에 예보를 왜 컴터와 과학자한테 시키는 겁니까?

무당한테 물어보면 되는데.



-진짜 끝-


아 첫번째 사진 출처는 위키피디아에요.

https://en.wikipedia.org/wiki/Particulates

Author : Giorgiogp2


-진짜진짜 끝-

저작자 표시 비영리 변경 금지
신고

WRITTEN BY
The Alpaca
물리오디세이의 주인공 알파카입니다.

받은 트랙백이 없고 , 댓글이 없습니다.
secret

책에 오류가 있어서 바로잡습니다.



혹시나 책을 읽다가 이상하셨던 분들께

이 정보가 크게 도움이 되기를 바랍니다.






위의 그림에서 보는 것과 같이

287p에서 시작되는 두 문단의 내용을

아래와 같이 고칩니다........고칠 수는 없구나!



아래와 같이 고쳤으면 하는 저자의 바램을

이렇게나마 전해드립니다.



"따라서 첫 번째 빛이 홀로 경험한 공간의 성격은 공통된 적색편이량을 제외한 나머지 부분에서 드러나게 됩니다. 적절한 계산을 통해 이 두 빛의 성질을 비교하여 첫 번째 빛이 홀로 경험한 공간의 성격을 유추해 낼 수 있으면 과거의 우주공간이 어떤 식으로 팽창했는지 알 수 있는 것이지요. 많은 사람들이 우주는 예쁘게, 즉 일정하게 팽창하는 중이라고 예상했습니다. 그런데 관측된 결과는 달랐습니다.


위의 그림은 실제 관측 데이터와 계산결과입니다. 그래프의 초반부는 가까운 별들로 계산한 결과이고 따라서 허블의 결과와 마찬가지로 직선에 가깝습니다. 그러나 그래프를 전체적으로 보면 계산값이 곡선 모양을 나타내고 있습니다. 이 곡선은 놀랍게도 현재 우주가 과거 우주보다 빠르게 팽창하고 있다고 가정할 때 얻을 수 있는 곡선입니다. 우주는 가속팽창하고 있는 것이죠!"



앞으로도 많은 AS가 있을 예정입니다.



저작자 표시 비영리 변경 금지
신고

WRITTEN BY
The Alpaca
물리오디세이의 주인공 알파카입니다.

받은 트랙백이 없고 , 댓글이 없습니다.
secret