4차 산업혁명의 핵심인 머신러닝과 딥러닝에 대해 자세히 알아보기

  4차 산업혁명은 이제 우리 눈앞으로 다가왔다. 통신 회사들은 5G 시대를 개막하면서 더 빠르고, 더 정교한 네트워킹을 실현할 수 있게 되었으며, 인공지능 기술의 발전으로 산업 분야는 물론, 문화나 경제 분야에서도 4차 산업혁명의 영향이 미치고 있다.
  특히 인공지능 산업은 4차 산업혁명의 핵심이라고 할 수 있다. 성장 가능성이 높다고 예견되는 만큼 성장 규모도 매년 폭발적일 것으로 예상된다. Tractica와 KT 경제연구소에서 조사한 2018년 인공지능 글로벌 시장 규모는 대략 250억 달러이고 2년 뒤인 2020년에는 두 배 이상인 500억 달러를 넘어설 것으로 예상한다. 국내 시장 역시 올해만 해도 7조 원을 넘기고 2020년에는 대략 11조 원까지 성장할 것으로 예상한다.
  이번 기사를 통해 4차 산업혁명 기술 중에서도 매우 중요한 핵심기술인 머신러닝과 딥러닝에 대해 알아보고자 한다.

머신러닝과 딥러닝의 활용분야 인포그래픽/ 김동환 기자

  정의와 특징

  더하기를 예로 들어보자. 수학적으로 1 더하기 1은 당연히 2다. 컴퓨터도 그렇게 계산을 한다. 만약 1 더하기 1에서 ‘더하기’가 빠진다면, 문제는 달라진다. 사람은 이 빈 곳을 ‘더하기’라는 의미로 해석할 수 있지만, 컴퓨터는 그렇게 할 수 없다. 반면 머신러닝(Machine-learning)은 ‘더하기’라는 정보가 식에서 사라졌을 때 그 ‘더하기’의 존재를 많은 양의 정보를 이용하여 컴퓨터가 스스로 찾아낼 수 있다.
  딥러닝은 머신러닝의 한 영역이다. 사람이 풀고 싶어 하는 문제가 더욱 어려워지는 한편 학습할 수 있는 데이터의 양은 점점 늘어났다. 이에 수학적 모델을 이용해서 더 많은 데이터로부터 더 어려운 문제를 해결하고자 하는 것이 딥러닝이다. 보다 학술적으로는 요즘 사용하는 딥러닝 모델에 대한 정의는 '숨겨진 층(hidden layer)'을 2개 이상 사용한 인공신경망 모델이라고 볼 수 있다. 숨겨진 층은 인공신경망에서 입력 단계와 출력 단계 사이에 존재하는 층으로, 변수 값들을 함수로 처리하여 출력 단계 또는 다른 숨겨진 층으로 전달한다.
  머신러닝과 딥러닝의 특징은 많은 부분에 확률적인 모형을 사용하고 있고, 우리에게 현재 주어진 데이터에 기반해서 학습한다는 것이다. 그렇기에 언제나 통계적 오류가 발생할 수 있고, 보지 않은 형태의 데이터에 대해서는 예측 성능이 확연하게 저하된다.
  딥러닝은 보다 많은 데이터로 보다 복잡한 문제를 풀기 때문에 통계적 오류가 발생할 가능성이 높다. 학자들 사이에서는 이런 문제들을 과적합이라고도 하고 모델이 예민하다고도 한다. 따라서 일반적인 머신러닝보다 이런 위험을 줄이기 위한 연구가  활발하게 진행되고 있다. 
  현재까지는 머신러닝과 딥러닝 모델들이 사람을 완전히 대체하는 수준이라고 보기는 어렵다. 예를 들어 일반적인 시스템인 키오스크 같은 경우는 간단하지만, 확정적인 작업을 대체하므로 인력을 완전히 배제할 수 있다. 그러나 머신러닝 모델의 경우 아무리 정확도가 높아도 확률적인 부분이 여전히 남아있기 떄문에, 이 부분을 보완하기 위한 다른 시스템이나 사람의 도움이 필요하다.


  원리

  머신러닝은 대부분 수학적·통계적인 기법을 통해서 문제를 해결한다. 머신러닝의 핵심 컨셉을 한 줄로 요약하면, ‘나와 비슷한 데이터는 나와 같은 종류’이다. 예를 들어, 기침과 열이 있는 환자가 내원하면 과거 유사한 증세를 보인 환자들의 진단 기록을 통해 새로운 환자를 진단한다. 요즘 유행하는 딥러닝의 인공신경망 모델은 학습 데이터의 공간에 수많은 선을 그은 후 이를 조합해 판단한다. 다만 어떤 선이 더 우리의 문제를 해결하기에 최적화된 선인지는 알 수 없으니 알고리즘을 통해 최적의 선을 찾아 나가는 것이다. 
 
  장·단점

  머신러닝의 장점은, 과거 사람이 일일이 정의하지 못한 복잡한 판단 기준을 수학적 알고리즘과 대용량 데이터로 모델이 자체적으로 정할 수 있다. 예를 들어, 의사가 환자에 대해 진단을 내린다고 할 때 의사는 지식과 경험을 토대로 진단한다. 이를 컴퓨터 프로그램으로 대체한다고 한다면, 판단 기준에 대한 경우의 수가 너무 많아 모든 경우를 다 규칙으로 프로그래밍하기 어렵다. 반면, 머신러닝을 이용할 경우 수많은 환자 데이터에서 환자의 가족력, 병력, 증상, 처방 등을 모델에 학습시키면, 복잡한 판단 기준과 많은 케이스를 일일이 프로그래밍할 필요 없이 머신러닝 모델이 알아서 진단하기 위해 규칙을 생성해준다는 장점이 있다.
  단점은 과거 데이터에 기반한 확률적인 판단에서 발생하는 오류다. 이 문제는 시간이 지나 데이터의 특성이 변하면 오류를 범할 확률은 더욱 커진다. 또한 학습하는 데이터가 좋지 못하면 모델의 성능은 급격하게 떨어지게 된다(이런 걸 garbage-in, garbage-out이라고 한다). 머신러닝 모델이 틀렸을 때 책임을 누가 질 것인지도 난제 중 하나다. 머신러닝의 오진으로 환자가 사망했을 때 그 책임을 누가 질 수 있을까? 전통적 방식의 경우, 의사나 병원에서 책임을 지고 심지어 판단이 틀렸더라도 충분히 전문가가 인정할 수 있는 범위면 그 책임의 범위가 축소되기도 한다. 그러나 머신러닝 모델이 틀렸을 경우 그 책임을 알고리즘 연구자, 머신러닝 모델 개발자, 병원의 머신러닝 시스템 담당자, 의사 중 누구에게 책임을 물어야 할 지 결정하기 어렵다. 머신러닝이전문가의 의사결정을 돕는 보완적인 도구로 더 널리 사용되는 이유 역시 이와 동일하다.

  우리 사회의 변화

  머신러닝과 딥러닝으로 인한 우리 사회의 변화를 컴퓨터융합학부 김동일 교수과 함께 알아봤다. 머신러닝과 딥러닝으로 인한 우리 사회의 변화에 대해 크게 두 가지 관점이 있다. 하나는 머신러닝의 인력 대체 여부다. 혹자는 의사, 택시 운전사, 통역사, 회계사 등의 직업이 사라지고 사람들의 일자리는 점점 축소될 것이라고 예측한다. 그러나 머신러닝의 한계 때문에 머신러닝이 완전히 사람의 업무를 대체하는 것은 아직 어렵다. 오히려 전문가들의 단순 반복 작업을 덜어주는 역할로써 머신러닝은 발전해왔다. 물론 그 과정에서 일부 사람들의 일자리는 위협받을 수 있겠지만, 일순간의 일자리 증발은 아닐 것이다. 기술에 의한 사회적인 변화는 역사적으로 봤을 때 늦출 수는 있어도 거스를 수는 없다. 거스를 수 없다면 기술 혁신으로 피해를 보는 일부 직업군에 대한 재교육과 재배치에 더 신경을 써야 하고, 이런 논의나 연구도 머신러닝의 기술적 발전과 함께 이루어져야 한다.
  또 다른 관점은 머신러닝과 인공지능 관련 산업이 급성장하리라는 전망이 다. 그러나 이런 산업이 단독으로 성장해서 시장에서 큰 수익을 내는 경우는 많지 않다. 대부분 기존 산업을 보다 지능적이고 효율적으로 하기 위한 도움의 성격이 강하다. 현재 이 분야 선두라고 할 수 있는 구글, 페이스북, 아마존 등의 회사들도 결국 기존에 제공하고 있는 서비스들을 향상시키기 위해 머신러닝 기술을 이용하고 있다. 따라서 기존 산업을 완전히 버리고 전 국가적으로 인공지능 산업을 육성해야 한다는 것은 위험할 수 있다. 결국 기존 산업에 대한 경쟁력이 충분히 갖춰진 상태에서 머신러닝 기술을 적극적으로 활용하려는 의지가 있는 기업이 앞으로 강세를 보일 것이다. 최근 양상은 기존 대기업들이 머신러닝 기술을 가진 스타트업 등과 협력하거나 흡수하고 있다. 즉, 기존 산업 경쟁력과 머신러닝 기술의 성공은 분리해서 생각할 수는 없지만, 여전히 신생 기업들의 기회는 열려있는 편이다.
  머신러닝이 모든 것을 다 해결해주는 만능열쇠는 아니다. 항상 중요한 것은 문제 해결 방안에 대한 고민이며, 그 해결 방법은 시기에 따라 다르다. 아직까지는 머신러닝이 기존에 해결하지 못했던 문제에 대해 큰 성과를 얻고 있지만, 언제 다른 기술이 머신러닝을 대체하거나 보완할지 알 수 없다. 머신러닝을 받아들이는 것은 굉장히 추천할 만한 일이지만 모든 문제를 머신러닝으로 해결해야 한다고 생각하는 것은 학생들이나 연구자들에게 위험할 수 있다.

저작권자 © 충대신문 무단전재 및 재배포 금지