의료 인공지능의 기준은 의사
지능 검사나 체스에서 어른 수준의 성능을 발휘하는 컴퓨터를 만들기는 상대적으로 쉬운 반면, 지각이나 이동 능력 면에서 한 살짜리 아기만 한 능력을 갖춘 컴퓨터를 만드는 일은 어렵거나 불가능하다.
한스 모라벡(Hans Moravec)
인공지능 개발 초창기인 1970년대부터 현재까지 인공지능의 성능을 판별하는 기준으로서 회자되곤 하는 모라벡의 역설(Moravec’s Paradox)입니다.
현대 인공지능 학자들은 모라벡의 역설이 틀렸을 가능성을 제시합니다. 외부 자극을 힘의 형태로 감지하는 기술이 개발됨으로써 눈 덮인 산길을 걸어서 내려가는 로봇, 장애물에 부딪쳤을 때 멈추거나 방향을 바꿀 수 있는 로봇의 제작 사례가 속속 보고된 탓입니다.
나아가 2016년 구글의 알파고는 인공지능의 새로운 가능성을 열었습니다. 체스 기계 딥블루(Deepblue)의 사례가 존재했음에도 알파고의 승리가 충격적이었던 건 이전까지는 바둑에서 가능한 모든 경우를 컴퓨터가 계산하는 게 불가능하다고 생각했기 때문입니다. 체스 게임이 10의 100승 가량의 수를 계산해야 했다면 바둑은 그보다 많은 10의 200승 이상의 데이터를 처리해야 합니다. 사실 그 정도의 숫자를 다루는 컴퓨터는 앞으로도 당분간 개발하기 어려울 거라고 해요. 그럼에도 불구하고, 우리는 이미 알파고를 만났습니다.
체스나 바둑과 같은 형태의 경기에서 플레이어가 해야 할 일은 크게 두 가지입니다. 자신의 수를 선택하고 상대의 수를 예측하는 일이죠. 딥블루가 보여준 방식은 경기에서 가능한 모든 경우의 수를 계산한 다음, 승리할 확률이 가장 높은 수를 고르는 일이었습니다.
알파고는 다른 접근 방식을 보여주었습니다. 우선 시도해봄직한 몇 가지의 수를 추려낸 다음 계산하는 겁니다. 이러면 전체를 고려할 필요가 없습니다. 또 게임이 진행될수록 해당 대국에서 가능한 값은 줄어들 테니 연산의 부담도 점차 적어지게 됩니다.
그런데 인공지능이 무엇을 ‘시도해봄직하다’라고 생각하는 건 좀 이상한 일입니다. 기계가 가치 판단을 해냈다는 이야기인데, 무엇을 기준으로요?
의료 인공지능의 기준은 의사
해답은 딥러닝에 있었습니다. 인간이 미래의 전망을 얻기 위해 과거에 발생했던 사건을 역사화하여 학습하듯 알파고 역시 프로기사들의 사례를 학습해서 이를 기준으로 탐색의 우선순위를 결정할 수 있었던 것이죠.
비슷한 맥락에서, 의료 인공지능의 학습 기준은 의사여야 합니다. 가장 먼저 의사는 의료 인공지능의 학습 내용을 선정하는 일종의 기획자로서 활동합니다. 실제 의료 현장의 니즈를 가장 잘 알고 있는 건 엔지니어보다는 의사일 테니까요.
다음으로는 의료 인공지능의 학습 결과를 감독하는 교수자로서의 역할이 의사에게 요구됩니다. 이는 기술적인 부문과 윤리적인 부문 모두에서 그러한데, 특히 환자와의 대면 진료를 패턴화하는 영역에서는 반드시 의사의 개입이 필요합니다.
아직은 인공지능을 학습시킬 때 무엇이 좋은 데이터이고 나쁜 데이터인지, 사람이 판단할 수밖에 없습니다. 전문영역인 의료에서는 이를 의사가 판단할 수밖에 없습니다. 결국 데이터를 다룰 줄 아는 의사가 필요할 수밖에 없습니다.
스스로 학습하고 판단하고 어디든 적용할 수 있는 범용(초) 인공지능이 구현되지 않는 이상,
비앤빛의 고민은 인공지능을 어떻게 가르칠 것인가와 관계되어 있습니다. 인간이 아는 것을 컴퓨터가 알 수 있는 형태로 가공하는 것, 이를 우리는 지식표현(knowledge representation)이라고 하는데요.
인공지능의 학습에 필요한 데이터의 수는 5만 건 정도면 충분하다고 판단합니다. 그러니 비앤빛이 확보한 자료의 양은 이미 충분한 상태입니다. 비앤빛에서는 매년 4만에서 4만4천 가까이 되는 수술 경험이 새롭게 축적되니까요. 이들 정보는 단순히 저장되는 데 그치지 않고 필요에 따라 검색하고 정렬하는 일이 가능합니다.
위와 같은 데이터베이스가 구축되기 이전에는 1,000건 이상의 수술을 경험한 국내 의사가 100건 정도의 사례를 연구한 해외 논문으로 공부하는 상황이 일반적이었습니다. 연구를 하려면 몇 백 건에서 몇 만 건에 이르는 환자 정보를 한꺼번에 다루어야 하는데 차트를 일일이 되짚어 필요한 정보를 찾으려니 시간 소모가 심했던 것이죠.
비앤빛은 계속되는 연구를 통해 매년 여러 편의 SCI급 논문을 게재하고 있습니다.
가공되지 않은 의사 개인의 진료 경험이 데이터의 수준으로 존재한다고 할 때, 여기에 체계를 도입해 정리해야만 데이터는 필요에 따라 분류 가능한 정보가 됩니다. 연구자는 이렇게 분류한 정보가 정확히 뭘 의미하는지를 분석함으로써 나열된 정보를 보다 상위의 차원인 지식의 수준으로 발전시킨다고 할 수 있습니다.
이는 인공지능 학습에 있어 ‘지식표현’의 문제가 의미하는 바와 유사합니다. 지식을 다루는 인공지능을 개발하기 위해서는 우선 하위 수준의 데이터 학습이 선행되어야 하는데, 이때 의사와 컴퓨터 사이에도 일종의 통역 과정이 필요한 거죠.
인공지능을 어떻게 가르칠 것인가
현재 안과나 영상의학과에서 인공지능 연구가 특히나 활발한 건 이러한 지식표현 문제의 해결이 비교적 수월한 탓이 큽니다. 객관적 데이터 분석이 진료에 더 많은 영역을 차지하기도 하거니와 그간 쌓인 데이터 자체가 표준화된 기준을 토대로 작성해왔던 것들이거든요.
특히 영상의학의 경우가 그렇습니다. 영상의학과에서는 X-Ray, CT, MRI 등의 의료영상 장비를 활용하여 인체 내부를 촬영하고 이를 통해 병변 현상을 추적하는데요. 이때 촬영한 영상은 전부 의료영상저장전송시스템(PACS)에 자동으로 저장되고 이후 영상의 판독과 검색, 전송이 모두 이 시스템을 통해 이루어집니다.
그래서 영상의학의 경우 비교적 간단히 인공지능에게 필요한 학습 자료를 제작할 수 있다는 이점이 있습니다. 인공지능이 병변부를 확인할 수 있도록 자료에서 문제가 되는 부분을 표시하는 라벨링(labeling) 작업만 거치면 되니까요.
최근 생성적 적대 신경망(generated adversarial network, GAN)이라는 딥러닝 기술을 이용하여 훈련에 필요한 영상을 직접 생성하는 작업이 진행되고 있습니다.
더불어 2019년 1월, 서울아산병원 김남국 교수팀에서는 인공지능의 학습에 필요한 자료영상을 무제한으로 생성할 수 있는 기술을 개발하는 일에 성공했다고 발표했습니다. 라벨링 과정에서 소모되는 비용과 시간의 문제 역시 기술적으로 해결될 조짐이 보이고 있는 겁니다.
하지만 이와 같은 대규모 데이터 학습이 해답이 되지 않는 상황도 분명 존재합니다. 앞서 말씀드린 영상의학과의 사례와 다르게, 텍스트 기반 자료인 전자의무기록(EMR)의 학습을 필요로 하는 의료 인공지능의 개발이 까다로운 것과 맥락을 함께 합니다.
EMR은 과거 의사들의 수기 차트를 전산화한 시스템이라 할 수 있습니다. 환자의 신상 정보부터 병원 방문 기록, 병력, 진찰 및 치료의 결과를 저장해서 지속적으로 열람 가능하다는 점에서는 영상의학과에서 사용하는 PACS와 동일한 모델입니다.
다만 EMR을 작성하는 의사마다 정보를 기입하는 방식, 사용하는 언어, 약어의 종류들이 천차만별이라는 문제가 있습니다. 데이터 작성 양식이 표준화되어 있지 않은 상태인 거죠.
문제를 해결하기 위해서 크게 두 가지 방안이 있을 텐데, 장기적으로 의사들의 진료 기록을 표준화하는 것 그리고 자연어 처리(naural language processing, NLP) 기법의 도입입니다.
자연어 처리 기법은 인간의 언어를 인공지능이 알아들을 수 있도록 가공하는 방식이 아니라, 인공지능에게 인간이 사용하는 언어를 가르치자는 발상에서 출발한 분야인데요. NLP는 컴퓨터가 인간의 언어로 인간과 상호작용하며, 인간에 의해 발화·작성된 자료를 인식하고 분류하고 번역하는 등 일반적으로 자연언어를 다루는 프로그램 전반에 관계된 기법이기도 합니다.
자료가 전산화되어 있고 대응할 도구도 있는데 어째서 EMR 자료 기반의 의료 인공지능의 개발이 더 까다로울까요?
이와 관련해서는 2016년에 마이크로소프트에서 제작한 인공지능 테이(Tay)의 사례가 중요한 단서를 제공해주는 듯싶습니다.
테이는 미국에 사는 18~24세 연령층을 대상으로 제작된 채팅 로봇입니다. 채팅 서비스가 시작되자 일부 사용자들은 테이에게 욕설 및 인종·성차별적인 발언 등을 훈련시켰습니다. 테이는 학습한 그대로 부적절한 응답을 반복했고 결국 서비스를 개시한 지 16시간 만에 운영이 중단되어야 했습니다.
모라벡이 인공지능을 연구하던 시대로부터 기술은 한없이 발전을 거듭하여, 우리는 현재 지각이나 이동 능력 면에서도 인간과 견주는 게 가능한 인공지능의 개발을 목전에 두고 있습니다. 그럼에도 불구하고 모라벡의 역설이 아직도 유효함을 테이의 사례는 보여줍니다. 윤리에 대한 책임을 의식하는 건 기계에게는 어려운, 인간의 일인 것이죠.
의사가 할 수 있는 것과 인공지능이 할 수 있는 것
의과대학을 갓 졸업하고 대학병원에 인턴으로 온 ‘의사’는 우리 몸 전반에 대한 지식이 해박합니다. 하지만 전공의, 전문의 과정을 거치며 전공 분야의 지식과 경험이 쌓이는 만큼 다른 분야의 지식은 잊힙니다. 안과 전문의가 당뇨병 환자를 볼 수 없는 이치이지요.
이를 탈숙련화라고 하는데, 인공지능은 이런 문제에서 자유롭습니다. 또한 매일 쏟아지는 새로운 의학 지식과 논문들을 인공지능은 쉬지 않고 학습할 수 있고, 한 번 학습한 내용은 잊어버리지 않습니다. 기계는 실수하지 않습니다. 지치지도 않습니다. 그러므로 사람의 생명이 오가는, 또는 보고 못 보는 중요한 상황에서 데이터를 바탕으로 객관적인 판단의 근거를 내놓을 수 있습니다.
하지만 인공지능은 명의는 될 수 없습니다. 공부를 열심히 한다고 명의가 될 수 있는 건 아니거든요. 진료를 통해 얻은 경험과 판단력이 쌓여 지혜가 되고, 그것이 의학적인 지식과 의료 행위와 더해질 때 명의라 불립니다. 인공지능은 학습 가능한 데이터 세트만 가지고 있습니다. 그러므로 불완전할 수밖에 없고, 여러 진단 결과와 상황을 종합해 판단을 내리는 것은 여전히 의사의 몫입니다.
과연 인공지능을 믿을 수 있느냐 하는 신뢰도에도 의사의 역할이 중요해집니다. 인공지능에게 어떤 일을 맡기고, 무엇을 가르쳐 어떤 기능을 하게 할지, 기획하고 가르치고 감독하고 평가하고 책임지는 일 모두가 의사가 해야 하는 일입니다.
정리하자면 인공지능이 할 수 있는 일과 의사가 할 수 있는 일은 꽤나 명확하게 구분됨을 알 수 있습니다.
의료는 인공지능이 가장 활발하게 논의되고 연구되는 분야이자, 인공지능 도입에 대한 우려 역시 큰 분야입니다.
우리는 인공지능이 보다 정확하고 안전한 체크 시스템이 되어 의료 행위에 도움을 줄 거라 믿습니다. 인공지능이 발달할수록 의사의 일은 더 가치 있어질 것이라고 믿습니다.