Q
경영학의 핵심 이슈인 기업의 지속가능성 측면에서 이 머신러닝 연구를 어떻게 바라볼 수 있을까요?
A
저는 기본적으로 경영학의 근본 취지가 ‘의사결정을 잘해보자’라는 명제에서 시작했다고 생각합니다. 그런데 과거에 의사결정이 이루어져 온 패턴을 살펴보면, 몇몇 관리자의 개인적인 경험이라든가 직관에 의존하여 중요한 의사결정들을 해왔음을 알 수 있습니다. 이와 같은 의사결정 방식에 의존할 경우, 운이 좋으면 기업은 수익도 내면서 지속하여 유지되는 데 큰 문제가 없는 경우도 있었습니다. 그러나 경영환경의 변화가 빨라지고 다양한 이해당사자들과 경쟁자들이 생기면서 개인의 직관이나 경험에 의존하는 것에는 한계가 발생하고 있습니다. 이러한 상황에서 머신러닝은 훌륭한 전략적 도구가 될 수 있다고 생각합니다. 인간의 경험이나 직감에 의존한 의사결정의 질보다 데이터에 기반한 의사결정의 질은 훨씬 좋은 결과를 산출할 수 있다는 것이지요. 그것은 결국 기업의 지속가능한 경영에 큰 영향을 미칠 것입니다. 결론적으로, 머신러닝의 활용은 기업의 지속가능성에 상당히 큰 영향을 미칠 수 있기 때문에, 연구자들은 더욱 적극적으로 머신러닝을 활용한 기업의 지속가능 경영 관련 연구에 매진해야 한다고 생각합니다.
Q
머신러닝 기법이 예측기법으로써 활용될 수 있는 곳이 매우 많을 것 같아요. 이 연구는 인적자원관리 측면에서의 예측이었는데, 기업 또는 학생들에게 머신러닝은 어떤 확장성을 가질 수 있을까요?
A
결론부터 말씀드리면, 경영학의 다양한 분야에서 머신러닝의 활용 가치는 무궁무진하다고 말씀드릴 수 있습니다. 아시다시피 경영학에는 다양한 세부 전공들이 있는데 어느 전공에서든지 머신러닝은 활용 가능하다고 생각합니다.
인적자원(인사조직) 관리 분야를 예를 들어 말씀드려 보겠습니다. IT 관련 분야는 노동자들의 잦은 이직으로 기업의 인적자원 관리에 큰 어려움이 있습니다. 왜냐하면, 기술은 급격히 발전하는데 이를 적절히 적용할 수 있는 숙련된 전문가들이 많지 않다 보니, 기업에서는 숙련된 전문가들을 확보하기 위해 혈안이 될 수밖에 없기 때문이지요. 기업의 핵심역량을 지속적으로 발전시켜야 할 핵심 자원이 빈번히 이직한다면 그 기업의 지속가능성은 어찌 되겠습니까? 그래서 제가 한참 박사 과정을 마무리하던 시기에 많은 학자가 “IT 분야의 직원들이 왜 이직을 많이 하는가?”라는 연구문제를 두고 다양한 실증 연구를 했습니다. 직원들의 이직 의도에 영향을 미칠 수 있는 요인들, 예를 들면, 근무 여건, 급여 수준, 업무의 강도 등에 관한 연구였지요. 직원의 이직 의도가 높아지면 그것은 실제 이직으로 이루어질 가능성이 커지기 때문에 이직 의도에 관한 연구를 했던 것입니다.
그런데 머신러닝을 잘 활용하면 특정 직원의 실제 이직 여부를 정확하게 예측을 할 수 있습니다. 관련 데이터가 잘 정리만 되어 있다면 말이지요. 그동안 우리는 이론적 프레임을 만들어서 논리적인 근거를 제시하며 이를 통계적인 기법을 활용하여 실증해 왔습니다. 그런데 이러한 체계 속에서 실제 인간의 행동에 대하여는 미루어 짐작할 수밖에 없는 한계가 있었습니다. 다시 말해서 특정 직원이 이직할지 안 할지 예측할 수는 없었다는 이야기입니다. 사실 그것이 궁금하여 이직 의도에 관한 다양한 연구들을 해 왔는데 말이지요.
그런데 관련 데이터들을 차곡차곡 잘 모아놓고 컴퓨터를 잘 학습시키면, 누군가 새로 입사했을 때, 그 직원의 3년 내 또는 5년 내 이직 여부를 정확하게 예측할 수 있다는 말입니다. 부채도사보다 훨씬 정확하게 말이지요. 만일 특정 직원이 6개월 안에 이직할 가능성이 90%라고 예측이 되면, 그 직원이 떠나기 전에 잡아야 하지 않겠습니까. 그러면 자원을 더 투입해서라도 잡아야 하는 거죠. 백날 이직 의도나 따지고 있고, 그 의도에 영향을 미치는 요인을 탐색해서 무엇을 어찌하겠습니까? 제한된 자원을 가지고 마냥 급여를 높여주고, 근무 여건을 개선해주고, 업무의 강도를 줄여 줄 수 없는 현실인데, 이직 의도에 영향을 미치는 요인을 실증분석하는 것이 어떤 의미가 있겠습니까?
머신러닝은 생산관리 측면에서 정확한 수요를 예측하는 것에도 큰 도움이 됩니다. 제가 지난 2020년 2학기에 이인지 학생과 「정보시스템연구」라는 학술지에 게재했던 “머신러닝을 활용한 지역 축제 방문객 수 예측모형 개발”이라는 수요예측에 관한 논문이 한 편 있습니다. 어떠한 상품 또는 서비스를 개발하거나, 특별한 이벤트를 진행할 경우, 가장 선행되어야 할 것이 무엇일까요? 바로 수요예측이지요. 얼마나 많은 사람이 본 상품을 구매할지, 또는 얼마나 많은 방문객이 본 이벤트에 참여할지 파악하는 것 말입니다. 최근 많은 지방자치단체에서 지역 경제 활성화와 지역 문화 홍보를 위해 많은 축제를 개최하고 있습니다. 시민들의 소중한 세금을 투입하여 축제를 준비하기도 하니, 정확하게 수요를 예측하고 적당한 자원(예산)을 활용하여 낭비 없이 축제를 치러야 하지요. 그런데 실제 지역 축제의 수요예측, 즉 몇 명이 축제에 방문할지에 대한 예측이 어떻게 이루어지고 있는지 아십니까? 해당 실무자의 엄청난 직감과 경험으로 방문객 수를 예측하는 경우가 대부분입니다. 축적하고 있는 데이터를 기반으로 머신러닝을 활용하면 축제 방문객 수를 상당히 높은 정확도로 예측할 수 있음을 위의 논문을 통해 확인하실 수 있습니다. 머신러닝의 활용 분야는 무궁무진합니다.
Q
앞으로 머신러닝이 코로나 시대를 거쳐서 4차 산업혁명 시대에 어떻게 발전하고 중요해질까요?
A
큰 틀에서 말씀드리기보다는 구체적인 사례로 말씀드릴게요. 우리나라에서 ‘옥션’이나 ‘11번가’를 통해 상품을 오늘 주문해서 내일 받는 건 당연한 일일 겁니다. 잠들기 전에 스마트 폰으로 배송조회를 하여 ‘현재 옥천 허브까지 상품이 이동 중이네. 그럼 내일 받을 수 있겠구나’ 이렇게 안심하며 잠들지 않습니까.
미국의 경우를 살펴보지요. 미국은 땅이 굉장히 넓습니다. 예를 들어, 제가 LA에 거주하는데 ‘아마존’이나 ‘ebay’를 통해서 물건을 샀다고 가정해 보지요. 그런데 사고 나서 보니 배송지가 뉴욕인 겁니다. 그럼 이게 비행기로 오지 않는 한, 차로 오면 최소 5일이 걸립니다. 그러나 지금 ‘아마존’은 ‘당신이 오늘 주문하면 내일 받게 해줄게’라고 하는 거 아닙니까. 배송지가 어디든 간에 말이지요. 그것이 가능한 이유가 바로 머신러닝을 활용하기 때문입니다.
최용득 교수님이 고객이라고 합시다. ‘아마존’에서는 최 교수님께서 삼일 뒤에 아기 기저귀를 주문할지 안 할지를 알 수 있습니다. 과거 구매 데이터를 기반으로 최 교수님의 구매패턴을 이미 확인하여, 삼일 뒤 기저귀 구매 여부를 이미 알고 있다는 이야기입니다. 최 교수님의 거주지와 가장 가까운 중간 물류센터에 최 교수님께서 구매할 예정인 기저귀를 미리 가져다 놓는 겁니다. 결국, 미리 가져다 놓았기 때문에 오늘 주문하면 다음 날 받아 볼 수 있는 거죠. 땅이 넓은 미국에서 이것을 예측하는 것은 엄청난 일입니다. 고객이 주문할 때까지 기다렸다가 배송을 시작해서는 불가능한 일이죠. 이러한 일은 디지털 트랜스포메이션의 아주 작은 예이고, 이러한 예의 기본 중의 기본이 머신러닝이라 할 수 있습니다.
Q
머신러닝만으로도 충분히 효과를 발휘하겠지만, 어떤 것과 같이 결합되었을 때 더 좋아질까요? 기업에서 머신러닝을 도입하고 활용하기 위해서 같이 해야 하는 것들이 있을까요?
A
아주 핵심적인 질문입니다. 머신러닝을 잘 활용하면 기업의 지속가능성을 제고하는데 큰 도움이 될 수 있습니다만, 그것이 만병통치약이 될 수는 없습니다.
훌륭한 문학작품을 쓰고 싶어하는 누군가가 있다고 칩시다. 그를 위해 제가 조언을 합니다. ‘네가 만약 좋은 소설을 쓰고 싶다면, 지금 당장 컴퓨터 앞에 앉아서 분당 600타 정도 칠 수 있는 타자 실력을 길러라’라고 조언을 합니다. 열 권 분량의 대하소설을 금방 쓸 수 있겠지요? 어떻습니까? 아니죠.
최근 AI 기반의 애플리케이션이 많이 등장하고 있습니다. 그러다 보니 큰 숲은 보지 못하고 작은 나무 하나만을 보며 숲이라 일컫는 듯한 느낌을 많이 받습니다. 계속 이야기한 머신러닝을 잘하려면 분명 코딩을 할 수 있는 역량이 필요합니다. 그러나 코딩은 수단이지 목적이 될 수 없습니다. 코딩만 잘하면 모든 것을 잘할 수 있다고 믿는 경우가 많은 것 같습니다. 그러다 보니 코딩 교육 또는 학습에만 몰입되어 수단과 목적을 구분하지 못하고 우를 범하는 듯합니다.
코딩 실력으로만 따지면, 전 세계에 코딩 잘하는 사람들이 수백만 명쯤 될 겁니다. 그런데 제가 앞서 언급한 인적자원 채용에 있어서 머신러닝을 활용하는 방안에 대안 논문의 경우, 코딩만 잘하는 사람은 절대 쓸 수 없는 논문입니다. 축제 방문객 수 예측모형에 관한 논문도 코딩 능력만 가지고는 절대 쓸 수 없는 논문입니다. 경영학 전반에 대한 다양한 경험과 지식을 가지고 있는 사람이 또는 조직이 코딩기술을 활용하여 머신러닝을 실행할 경우 그 효과성은 배가될 것으로 생각합니다.
기업의 지속가능성을 향상시키기 위해 데이터를 구조화하여 더욱 유익한 의사결정을 할 수 있는 역량을 갖춘 데이터 과학자가 필요한 시기입니다. 단순히 데이터를 수집하고 코딩하는 데이터 노동자 말고요.
조직체에서는 실제 조직의 제일 말단에서 데이터를 수집하고 단순 조작하며 코딩하는 데이터 노동자를 확보하고 교육하는 일도 중요하지만, 조직의 목적을 달성하기 위해 머신러닝 기법을 적용하고 디자인할 수 있는 데이터 과학자의 육성이 더욱 시급하다고 생각합니다.
특히 경영학을 연구하는 학자가 되고자 공부하고 있는 경영학도들에게 하고 싶은 이야기가 있습니다. 이미 늦었습니다. 세상에 코딩 잘하는 사람은 차고 넘칩니다. 그러나 코딩 능력을 활용하여 좋은 논문을 쓸 줄 아는 연구자는 많지 않습니다. 위기이자 기회가 될 수 있다는 것입니다. 코딩만 잘해 봐야 데이터 노동자로 살아갈 수 있을 뿐입니다.
그러면 이제 무엇을 해야 할까요? 코딩은 기본입니다. 경영학을 전공하는 학생들은 경영학 background가 강하지 않습니까. 시장을 읽을 줄 알고 종업원 개개인의 특성에 대한 감각이 있어요. 여기에 데이터를 다룰 수 있는 역량만 겸비할 수 있다면 그 시너지는 대단할 거라고 봅니다. 제가 인적자원 채용에 대한 감각이 있고, 코딩을 할 수 있기 때문에 ‘인적 자원 채용에 있어서 이런 문제가 있겠네. 아, 이건 코딩을 통해서 잡을 수 있겠네’하는 인사이트를 얻을 수 있었다고 봅니다. 코딩만 할 줄 아는 사람은 이런 아이디어를 낼 수가 없다는 말이죠. 그러니까 자기가 어떤 전공을 하든, 자신의 경영학 지식에 머신러닝 기법을 적용할 수 있는 역량을 기르는 것이 중요하다고 생각합니다.
Q
그러니까 이것을 활용하는 사람이, 교수님 논문도 보면 예측하기 위해서 데이터들이 있는 건데 그런 심리를 이해하거나 시장을 이해해야지만 그 정확도를 높일 수 있다는 말씀인 거죠?
A
사실은 제가 석사 학생과 함께 작년 「지식경연연구」에 게재했던 논문(머신러닝을 활용한 TV 오디션 프로그램의 우승자 예측모형 개발: 프로듀스X 101 프로그램을 중심으로)이 바로 그런 측면에서 탄생한 것입니다.
프로듀스X 101이라는 오디션 프로그램이 있었습니다. 매주 방영을 하여 약 2달간 진행이 되는데요. 매주 거르고 걸러서 최종 101명 중 11명을 선발하여 가수로 데뷔를 시켜주는 포맷이었습니다. 그렇게 선발된 연습생들이 스타가 된 거죠. 이런 프로그램이 있다는 것을 알고, ‘한 번 예측해볼까?’ 하고 연구를 시작했었습니다. 그래서 2019년 5월에 방영된 시즌4를 대상으로 연구를 진행했습니다. 시즌4가 방송 중이었던 2019년 5월 말에 최종 승자 11명을 예측했습니다. 그리고 그해 7월에 최종 결과가 발표되었는데, 머신러닝으로 예측했던 우리의 결과와 조금 차이가 나는 거예요. 제가 이론적으로 분석을 해보니까 예측정확도가 92% 정도였는데 실제 결과와 비교해 보니 4명 정도가 틀린 것으로 나왔죠. 그래서 ‘우리가 뭘 잘못했나?’ 이런 생각을 했었습니다. 그런데 그다음 날부터 인터넷에 난리가 난 거죠. 누가 개입을 한 것이 아니냐는…. 결국, 프로그램 PD가 투표결과를 조작한 사실이 밝혀져서 실형 선고를 받았잖아요.
사실 인적자원의 부정채용은 내부 고발자가 있지 않으면 밝히기가 어렵잖아요. 얼마 전에 하나은행에서 채용 비리 사건이 있었지요. 12명을 뽑는데 면접 점수를 조작해서 최종 선발자를 바꾸었지요. 이런 건 내부 고발자가 없으면 밝히기 어렵습니다.
예를 들어, 한전에서 매년 약 1,000명의 신입사원을 뽑는다면, 이와 관련한 수년간의 데이터가 저장되어 있을 겁니다. 그 데이터를 컴퓨터로 학습을 시키는 거죠. 그리고 최종 신입사원 선발 결과가 나오면 머신러닝을 통해 검증해 볼 수 있을 것 같습니다. 선발될 사람이 선발되었는지, 탈락될 사람이 선발되었는지, 선발될 사람이 탈락되었는지 등… 만일 선발되어야 할 사람이 떨어졌다면 이 부분은 정밀감사를 해볼 수 있다는 거죠. 이러한 발상이 본 논문의 모티브가 된 거죠.
본 논문에서도 언급했지만, 실제 법정에서 재판을 할 때, 거짓말탐지기의 결과는 법적 효력이 없습니다. 그러나 수사 과정에서 증거가 부족할 경우, 거짓말탐지기를 사용하는 것은 좋은 전략적 도구가 될 수 있거든요. 앞으로 머신러닝을 활용하면 인사 담당자들이 채용 부조리를 저지를 경우, 적발의 가능성이 커진다는 것은 대단히 의미가 있습니다. 강력한 심리적 견제수단이 될 수 있으며 부조리 발생을 사전에 차단하는 효과가 나타날 수 있다는 겁니다. 실제 부정행위가 발생했을 때, 감지할 수도 있고, 사전에 선제적으로 막을 수도 있고요.
Q
그러면 교수님 앞으로 연구하는 사람들도 그렇고 실제 이 인터뷰를 본 기업들이 새겨들을 만한 문제, 그러니까 머신러닝을 하고는 싶은데 해결해야 할 과제라든가 주의해야 할 것들이 있을까요?
A
제대로 된 Data Warehouse 구축이 중요합니다. 아마존과 구글이 그걸 잘하는 기업입니다. 그것이 무엇이 되었든, 기업에서 원하는 최적의 의사결정을 위해서 머신러닝 기법을 활용할 수 있는데, 이를 위해서 관련된 데이터들이 잘 구조화되고 저장되어 있어야 합니다. 머신러닝의 기본은 데이터 구축이라고 생각합니다. 최대한 빠르고 정교하게 데이터를 저장하는 일부터 시작해야 한다고 봅니다.
Q
나중을 위해서 이 데이터들을 축적하는 방식이 중요하다는 말씀이시죠?
A
네. 그렇습니다. 전문가의 육성과 제대로 된 Data Warehouse의 구축이 시급하다고 생각합니다.