논의
본 연구는 기초간호학 분야 중 미생물학 및 약리학에 대해 본 연구팀이 개발한 질문을 무료버전인 GPT-3.5와 유료버전인 GPT-4에 각각 입력한 후 생성된 답변을 평가하였다. 인공지능의 성능을 평가할 수 있는 여러가지 평가기준이 있으나, 기초간호학 분야와 관련된 생명과학분야에서 가장 중요한 평가지표는 정확성이기에, 본 연구에서는 두 가지 버전의 GPT가 생성한 답변의 정확도를 중심으로 비교 평가하였다.
먼저 GPT-3.5와 GPT-4의 일반적인 특성은 다음과 같은 차이가 있었다. GPT-3.5가 3,072개 어휘(토큰: 4,096개)를 기억하여 대답하고, 텍스트만 검색하는 것이 가능하였다면, ChatGPT-4는 24,576개 어휘(토큰: 32,768개)를 기억하여 대답할 수 있으며, 이미지 검색이 가능하고, 추론까지 가능하여 보다 정교해지고 지식 또한 향상되었다[
18,
19]. GPT-3.5와 GPT-4가 생성한 답변을 비교분석하였을 때 영문으로 생성된 답변의 경우 문장 일치도와 정확도가 GPT-3.5와 GPT-4 모두 100.0%였으나, GPT-3.5가 국문으로 생성한 문장에서는 정확도가 62.7%에 불과하였다. 반면 GPT-4가 국문으로 생성한 답변에서는 문장 일치도와 정확도가 100.0%인 것으로 나타나 무료버전인 GPT-3.5를 사용하는 경우 질문 입력 시 영어 질문을 하는 경우 정확성이 더 높을 것으로 사료된다. 추가로 GPT-3.5의 한국어 답변은 총 51문장이었으나 GPT-4의 한국어 문장은 총 68문장이었고, GPT-3.5의 영어 답변은 총 70문장이었으나 GPT-4의 영어 답변은 총 75문장이었다. 이는 동일한 한국어 또는 영어 질문이어도 GPT-3.5에 비해 GPT-4가 더 자세하게 설명하는 경향이 있다는 것을 알 수 있다.
본 연구에서 GPT-3.5와 GPT-4 각각에서 첫 번째로 한 질문은 ‘그람염색 방법에 대해 A4 한 페이지로 설명해줘’라는 질문이다. 이에 GPT-3.5와 GPT-4의 한국어 답변을 비교한 결과는 다음과 같다. GPT-3.5는 머리염색법에 관한 내용을 생성하였으나, GPT-4는 세균감별에 관한 내용을 생성하였다. 그람염색법은 세균의 세포벽 차이에 따라 그람양성균과 그람음성균을 분류하기 위해 널리 사용되는 방법으로[
20] GPT-4는 이와 관련된 명확한 답변을 생성했지만, GPT-3.5는 전혀 관계없는 정보를 마치 사실인 것처럼 제공하였다. 이는 ChatGPT가 이용되는 법률, 연구, 학술출판 등의 분야에서 부정확하거나 불완전한 정보를 제공한다는 국내외 자료들을 통해서도 확인할 수 있다[
11,
21,
22]. 이에 ChatGPT를 개발한 OpenAI에서는 GPT-4를 개발하며 사실이 아니지만 마치 사실인 것처럼 답변하는 환각(hallucination)을 개선하기 위해 노력하고 있으며, 이를 통해 직전 모델인 GPT-3.5보다 19.0% 향상된 결과를 보였으나 아직까지 여전히 모든 답변을 완전히 신뢰할 수는 없다고 언급하였다[
8]. 이에 ChatGPT가 제공하는 내용은 아직 100% 신뢰하기 어려운 것으로 보이며, 따라서 간호대학생이 과제 수행이나 보고서 작성 시 ChatGPT를 이용하는 경우 인공지능이 제공하는 정보를 맹목적으로 신뢰하는 대신, 학습을 위한 유익한 도구로써 지혜롭게 활용해 나갈 필요가 있겠다.
두 번째로 ‘고압증기멸균에 대해 한 단락으로 설명해줘’라는 질문에 GPT-3.5와 GPT-4의 한국어 답변을 비교한 결과는 다음과 같다. 먼저 GPT-3.5에서는 고압과 높은 온도를 이용하여 살균하는 방법이라고 언급하는 수준에 그쳤으나, GPT-4는 온도와 압력의 구체적인 수치까지 상세하게 제시하였다. 또한 고압과 고온을 이용한 고압증기멸균에 적절하지 않은 품목으로 플라스틱을 언급하는 등 GPT-4가 생성한 답변의 내용이 더 풍부하고 자세하였다. 이는 GPT-4가 이전 모델을 능가하며, 특히 한국어 답변의 정확도가 77.0% (cf. 영어 답변의 정확도 85.5%)로 나타난 결과와 맥락을 같이 한다[
8]. 이는 간호대학생이 과제 수행이나 보고서 작성, 전공과 관련된 공부를 수행하기 위해 GPT-4를 활용하는 경우, 지식의 구조화, 분석, 정리 등을 수행해주는 효과가 있으므로 자료수집에 필요한 시간과 노력을 경감시켜 줄 수 있을 것으로 여겨진다. 즉, 학습을 위해 스스로 자료를 찾아 분석하고 정리하던 수고를 줄여줄 수 있으며 이러한 ChatGPT의 장점을 활용하여 더욱 능동적으로 이용할 수 있도록 국내 한 대학에서는 ChatGPT의 이용방안에 대한 가이드라인을 제공하기도 하였다[
23].
세 번째로 ‘세포매개성 면역에 대해 200자로 설명하고, 참고문헌을 알려줘’라는 질문에 GPT-3.5와 GPT-4의 한국어와 영어 답변을 비교한 결과는 다음과 같다. 먼저 200자로 답변을 생성해달라는 한국어 질문에 대해 GPT-3.5와 GPT-4가 생성한 단어 수는 각각 75개, 36개였으나 영어로 요청한 경우의 단어 수는 각각 203개, 181개로 나타나, 영문으로 200 words라고 요청한 경우에만 단어의 수를 유사하게 맞춰서 생성하였다. 이는 ChatGPT에게 질문을 하는 과정에서 사용자가 원하는 구체적인 조건을 영어로 이용하여 입력하는 경우, 한국어로 입력하는 것보다 원하는 내용에 더욱 근접한 답변을 얻을 수 있을 것으로 여겨진다. 한편 생성된 답변에서 제시된 참고문헌 중, GPT-3.5에서 제공한 참고문헌 일부는 존재하지 않는 문헌이었으며, 이는 GPT-4가 한국어와 영어 답변을 통해 제공한 참고문헌이 모두 실재하는 문헌으로 나타난 결과와 차이가 있다. 따라서 간호대학생이 ChatGPT를 통해 제공된 내용을 이용할 때 생성된 내용 및 참고문헌의 사실 여부를 파악할 필요가 있으며, 생성된 내용을 맹목적으로 추종하는 대신, 전반적인 방향성을 확인하는 용도로 사용해야 할 것이다.
네 번째로 ‘결핵의 치료약에 대해 A4 반 페이지로 설명해줘’라는 질문에 GPT-3.5와 GPT-4의 한국어와 영어 답변을 비교한 결과는 다음과 같다. 먼저 GPT-3.5의 경우 결핵약의 명칭이 한국어보다 영어로 출력된 답변이 명확하였다. 한국어 답변의 경우 라이프암피신, 에티오페이드는 대한민국의 의약품정보 검색 사이트[
24]에서 검색되지 않았다. 반면, GPT-4가 한국어와 영어로 생성한 답변은 대표적인 결핵약이라 할 수 있는 네 가지 약의 약어가 모두 같았다. 이에 간호대학생이 GPT-4를 사용하여 간호과정 등의 과제를 수행하는 경우 한국어로 질문을 하더라도, 영어로 질문한 경우와 유사한 수준의 답변을 제공받을 수 있을 것이라 기대할 수 있다. 한편 무료버전인 GPT-3.5를 이용하는 간호대학생은, 생성된 답변이 다소 부정확한 측면이 있으므로 이를 비판적으로 판단하지 않고 사용하게 된다면 간호 대상자에게 잘못된 정보와 간호를 제공할 수 있음을 인식해야 할 것이다. 또한 제시된 참고문헌 중 WHO의 자료는 출판 연도가 잘못 기재되어 있었다. 따라서 생성된 자료의 제시된 출처를 확인하지 않고 그대로 이용한다면, 해당 자료를 사용할 또 다른 사용자에게 의도치 않게 오류 생성을 유도할 수 있으므로[
25] 간호대학생은 인공지능이 생성한 자료를 이용할 때 비판적인 시각을 견지해야 할 것이다.
다섯 번째로 ‘NSAIDs의 대표적인 약과 작용기전에 대해 설명해줘’라는 질문에 GPT-3.5와 GPT-4의 한국어와 영어 답변을 비교한 결과는 다음과 같다. 먼저 GPT-3.5가 생성한 한국어 답변에서 실제 NSAIDs계열로 분류되지 않는 아세트아미노펜을 NSAIDs라고 언급하였다. 한편 GPT-3.5가 생성한 영어 답변에서는 NSAIDs 약물로 아세트아미노펜은 작성되지 않은 대신, 명확하게 NSAIDs인 약물만이 제시되었다. 이에, 한국의 간호대학생이 ChatGPT의 GPT-3.5를 보다 효과적으로 활용하기 위해서는 먼저 한국어로 질문을 작성한 다음, 이를 영어로 번역하여 ChatGPT에 입력하고, 이를 다시 한국어로 번역하여 이용하는 것이[
11] 더 정확한 정보를 획득하기에 용이할 것으로 보인다.
여섯 번째로 ‘안지오텐신 전환효소 억제제의 종류와 작용기전에 대해 설명해주고 참고문헌을 알려줘’라는 질문에 GPT-3.5와 GPT-4의 한국어와 영어 답변을 비교한 결과는 다음과 같다. GPT-3.5는 안지오텐신 전환효소의 작용기전에 대해 일부 부정확한 내용을 생성하였으나 GPT-4는 한국어와 영어 답변 모두 정확한 작용기전을 제시하였다. 이에 ChatGPT가 생성한 내용이 마치 사실인 것처럼 작성되었어도, 이에 대해 추가적인 검토과정이 필요하다. 또한 ChatGPT가 생성하는 내용은 현실적이며 구체적인 날짜와 수치까지 제공해주고 있으므로 실제 존재하는 사실인 것처럼 답변을 생성하므로[
26], 결국 간호대학생이 사용해야 하는 최종적인 정보는 인공지능이 아닌 인간의 수준에서 검토하고 이용되어야 하며 최종 완성본에 대한 책임은 결국 저자에게 있다는 것[
27]을 명심해야 할 것이다.
지금까지 미생물학 및 약리학 질문에 대해 GPT-3.5와 GPT-4가 제공한 답변을 평가하고 ChatGPT를 간호대학생이 학업에 적용할 때 유의해야 할 사항을 확인하였으며, 이를 바탕으로 ChatGPT를 사용하거나 이에 대한 사용을 지도해야 할 책임이 있는 교수자는 다음의 사항들을 고려해야 할 필요가 있다. 즉, ChatGPT를 이용하는 간호대학생은 효율성과 시간 절약의 장점을 이용할 수 있지만, 부정확한 내용을 제공받을 수 있다는 점을 인지하고 정확성을 확인하는데 주의를 기울여야 한다[
28,
29]. 또한 ChatGPT는 신뢰할 수 있는 참조, 인용을 생성하는 기능이 제한되어 있으므로, 참고문헌을 빠르게 생성하긴 할지라도 이에 대한 진위여부를 확인할 수 있는 능력이 없으므로 인용이 부정확한 경우가 많다[
28,
29]. 이와 같은 부적절한 정보제공은 신뢰성과 정확성을 중요하게 생각하는 학문 분야에 위협이 될 수 있으므로, ChatGPT를 효과적으로 활용하기 위해서는 이러한 오류를 감지할 수 있는 충분한 지식을 보유해야 할 필요가 있다[
28]. 최근 ChatGPT로 작성한 글을 선별하는 프로그램[
30]이나 AI로 만든 글을 판별하는 클래시파이어(Classifier)가 출시되어[
30], 의심가는 글을 넣으면 AI가 생성하였는지, 또는 불분명한지 등을 다섯 단계로 구분해주기 때문에 간호교육자는 위의 도구들을 간호대학생의 과제 평가에 활용하는 것 또한 고려해 볼 필요가 있다.
ChatGPT가 생성한 자료는 그동안 훈련받은 자료에 의한 것이며, 만일 자료 자체에 편향이 있다면 매우 사실적인 거짓 자료를 생성할 가능성이 있으므로[
31], 간호대학생에게 생성된 내용에 대한 비판적이고 윤리적인 자세를 갖추도록 안내해야 할 것이다. 또한 쉽고 빠르게 정보를 얻을 수 있으므로 간호대학생들이 과제를 수행할 때 많은 도움을 받을 수 있으나, 현재 ChatGPT가 학습한 내용은 2021년까지의 자료이므로, 최신 정보를 제공, 요약하는 기능이 제한되며, 과거에 수집하여 학습한 자료를 기반으로 답변한다는 것을 인식시켜줄 필요가 있다. 따라서 ChatGPT를 통해 즉각적인 정보는 획득할 수 있으나, 간호 및 의료분야의 지식은 빠른 속도로 변화하고 있으므로, 환자의 건강결과를 향상시키기 위해서는 가능한 최신 지견이 반영된 간호 서비스를 제공해야 할 필요가 있다. 간호대학생들이 학습을 수행함에 있어 실시간으로 업데이트되는 최신의 정보를 반영한 학습이 이루어질 수 있도록 교수자는 학습에 대한 가이드를 제공할 필요가 있으며, 간호대학생 또한 인공지능 챗봇 또는 검색엔진에만 의존하지 않고 스스로 탐구하는 자세를 가질 수 있도록 격려해야 할 것이다. ChatGPT는 복잡한 임상환경과 환자에 대한 사례 연구와 같은 상황과 의학용어나 전문용어를 완전히 이해하는데 한계가 있다. 따라서 ChatGPT의 잘못된 맥락의 이해와 의학용어의 잘못된 해석 등의 제한점을 간호대학생, 교수자는 인식하여야 할 것이다[
29].
최근 의학분야에서 출판된 GhatGPT 사용에 대한 리뷰연구[
32]에 의하면 ChatGPT는 정확한 데이터 분석을 통해 약물개발을 비롯한 의료 보고의 개선, 치료 및 의료 정보의 제공, 건강 관련 주제에 대한 문헌 검토 작성, 연구수행, 개인 맞춤의료에 적용가능한 것으로 제시되고 있다. 따라서 추후 임상간호에도 활용해볼 수 있을 것으로 생각된다. 그리고 의학교육에서 ChatGPT의 장단점을 제시한 scoping review에 의하면[
33], ChatGPT는 일관된 문법으로 올바른 문장을 생성할 수 있기 때문에 과제 및 연구논문 작성에 도움이 되며, 정보에 대한 빠른 액세스 제공과 개인화된 학습을 개선할 수 있고, 정보처리 및 데이터 분석 속도가 향상되기에 학습촉진을 위한 새로운 콘텐츠 생성, 언어번역, 자동채점에 적용할 수 있는 반면, 부정확한 정보를 제공할 위험이 있으며, 윤리 및 투명성 문제, 조작된 참고문헌 제시 등의 단점이 제시되었다. 또한 최근 간호학 분야에서 발표된 논문 중 ChatGPT를 공동저자로 기재하였다가[
34], ChatGPT는 저자자격이 없다는 출판사의 판단에 따라 공동저자에서 제외되었다[
35]. 즉, Elsevier 출판사는 Guide for Author의 Declaration of generative AI in scientific writing을 통해 연구에 있어 AI를 이용하는 것이 부정확하거나 불완전하거나 치우친 결과를 가져올 수 있으므로 AI는 저자로 기재할 수 없다는 것을 명시하였다[
21]. 이는 연구 및 학술논문 출판과 관련하여 인공지능의 역할을 엄중하게 바라보고 있다는 것을 의미하며, 이에 논문의 저자들은 논문을 작성하면서 인공지능의 도움을 받았을 경우 이에 대한 투명한 보고가 필요하다[
28]. 따라서 간호대학생 때부터 인공지능이 생성한 내용의 윤리적인 사용에 대한 교육 방안이 마련되어야 할 필요가 있다. 현재까지 많은 대학에서 ChatGPT 사용을 최소화하기 위해서 다양한 전략들을 마련하고 있는데 예를 들어 연세대학교는 교양과목 작문 수업에서 ChatGPT 표절과제를 0점 처리하기도 하고[
36], 에세이 과제를 다른 형태의 과제로 변경하기도 하였다[
37]. 중앙대학교 사회과학대도 표절교육 후 ‘ChatGPT 표절 않겠다’는 서약서 제출을 의무화하였으나[
36], 서울대학교 인문대 일부 학과에서는 ChatGPT 질문법을 강의에 포함하기도 하였다[
36]. 또한 국내 많은 대학에서는 ChatGPT 활용 가이드라인을 배포하고 있다[
38]. 이처럼 많은 대학들은 ChatGPT의 사용 허용 또는 불가 사이에서 고민하기도 하면서 학생들에게 서약서를 받거나 관련 가이드라인을 작성하기도 하며 많은 혼란을 겪고 있으나, 간호교육 차원에서는 무조건적인 금지보다는 학생들의 간호역량 향상이나 4차 산업혁명 시기에 ChatGPT를 좋은 도구로서 활용할 수 있도록 하는 전략을 마련할 필요가 있다. 특히 주의해야 할 사항은, 간호대학생이 간호과정 등 실습과정에서 이루어지는 환자케이스 작성을 위해 환자의 개인정보를 포함한 사항을 ChatGPT에 입력하는 경우, 해당 정보가 타인에게 유출될 가능성이 있으므로[
22,
39], 민감한 개인정보가 포함된 자료는 절대 입력하지 않도록 하는 내용을 포함하여 이전보다 더욱 강화된 학습윤리 교육이 필요할 것으로 여겨진다.
한편 간호대학생이 ChatGPT 등 인공지능 챗봇을 통해 과제를 작성하는 경우, 스스로 과제를 해결해나가는 경험이 부족하며 이에 간호학과에서 목표로 하는 학습성과 달성이 부족할 수 있으므로, 교수자는 인공지능으로 쉽게 해결할 수 없는 과제를 제출하도록 노력하는 등[
27], 자신이 이해한 바를 직접 입증할 수 있는 과제가 무엇인지 고민해야 할 필요가 있다. 간호교육자들은 ChatGPT 활용에 대한 대안으로 제시되고 있는 방법들[
38]을 참고하여 간호대학생들이 ChatGPT에만 의존하지 않고 인터뷰나 설문조사 등 경험적인 자료를 수집하고 이를 바탕으로 한 과제를 제출하도록 할 수 있겠다. 그러나 기초간호학 분야에서 인터뷰나 설문조사와 같은 인문학적 접근이 요구되는 과제를 수행하기에는 다른 간호학 전공 교과목보다는 제한이 있을 수 있으므로, 기초간호학을 교육하는 간호교육자들은 좀 더 다양한 방식의 평가를 모색해야 하겠다.
본 연구는 GPT-3.5와 GPT-4가 제공한 답변을 사용자가 아닌 간호교육자의 입장에서 평가하였다는 제한이 있다. 본 연구는 GPT-3.5와 GPT-4가 제공한 답변을 문장의 정확도로만 평가하였는데, 향후에는 ChatGPT를 사용할 간호대학생들이 이를 평가해 볼 필요가 있다. 이를 위해서는 신뢰도와 타당도가 높은 관련 도구가 개발될 필요가 있으며, 적합한 도구가 개발되기 전까지는 인터넷 건강 질병정보 질 평가 도구[
40] 등을 활용해보는 것도 고려할 수 있겠다. 또한 기초간호학을 교육하는 교수자들은 ChatGPT를 활용한 새로운 교수법을 고안하여 전통적인 방식과는 달리 ChatGPT가 풀지 못하는 수학 연산이 필요한 문제나 그림을 포함한 과제를 내는 방식을 고려하고, ChatGPT로 퀴즈나 형성평가를 구성하는 등 ChatGPT의 잠재력과 가능성을 교수자들이 학습하고 교육에 적절히 활용해 개별 학생에 대한 맞춤형 지도를 제공하고 학생들의 학습 성과를 향상시킬 수 있도록 노력할 필요가 있다. ChatGPT는 지속적으로 업데이트되고 있으며 이에 따라 본 연구에서 사용한 질문을 추후 GPT-3.5나 GPT-4에 동일하게 입력하여도 본 연구와는 다른 다양한 답변이 생성될 가능성[
29]이 있다는 것을 염두해 둘 필요가 있다.