본문 바로가기

프로젝트/(NLP)GPT2의료기사생성

(1) GTP2를 이용한 의료기사생성 AI - 프로젝트 시작

3-2학기 공개 SW 프로젝트 수업 "크롤링과 NLP를 이용한 의료 기사 생성 AI" 를 주제로 프로젝트를 진행하게 되었다.

 

오픈 소스를 이용해 작업하는 수업 취지에 맞게 OSS를 활용해야 하며, 그 대상으로는 최근 핫 이슈인 GPT3를 선정하였다.

 

GPT3란?

Generative Pre-trained Transformer 3 ( GPT-3 )는 딥러닝을 사용하여 인간과 유사한 텍스트를 생성 하는 자동 회귀 언어모델 입니다 . 이 모델은 샌프란시스코에 기반을 둔 인공지능 연구소의 영리 기관인 OpenAI 에서 만든 GPT-n 시리즈의 3세대 언어 예측 모델입니다. GPT-3의 정식 버전은 1,750 억 개의 기계학습 매개변수를 가지고 있습니다. 2020년 5월에 도입되어 2020 년 7 월 현재 베타 테스트중인 GPT-3은 사전훈련 된 언어표현의 자연어처리(NLP) 시스템입니다. GPT-3 출시 이전에 가장 큰 언어 모델은 2020년 2월에 도입된 MS의 Turing NLG로, GPT-3에 비해 170억 개의 매개 변수 또는 10 % 미만의 용량을 제공했습니다.

 

GPT-3에 의해 생성 된 텍스트의 품질이 너무 높아서 인간이 작성한 텍스트와 구별하기 어렵고 이점과 위험이 모두 있습니다. 31 명의 OpenAI 연구원 및 엔지니어가 GPT-3을 소개하는 2020년 5월 28일 원본 논문을 발표했습니다. 논문에서 그들은 GPT-3의 잠재적 인 위험에 대해 경고하고 위험을 완화하기위한 연구를 촉구했습니다. 호주 철학자 인 David Chalmers 는 GPT-3를 "지금까지 생산 된 가장 흥미롭고 중요한 AI 시스템 중 하나"라고 설명했습니다.

Microsoft는 2020 년 9 월 22 일 GPT-3의 "독점"사용을 허가했다고 발표했습니다. 다른 사람들은 여전히 ​​공개 API를 사용하여 출력을받을 수 있지만 Microsoft만이 소스 코드를 제어 할 수 있습니다.

 

...! MS가 라이센스를 독점하겠다고 발표하면서 GPT3의 소스코드를 사용할 수 없게 되었다 :_(

 

꿩 대신 닭이라고 GPT2를 사용하면 코드가 오픈된 소스도 많고, 한글데이터를 학습시킨 KoGPT2도 사용할 수 있다는 장점이 있다. 하지만 학습 용량이 수십배에 달하고 더 정교한 트레이닝을 거친 GPT3를 써보지 못한다면 무슨 의미가 있나 싶기도 하다. 허무하지만 주어진 상황에 최선을 다할 뿐이다!

 

우선 팀 내 미팅 결과 KoGPT2를 이용해 기사를 자동 생성하는 것을 목표로 정하였고, 그 안에서 내가 해야 할 일은 전처리된 의료 데이터를 KoGPT2에 학습시켜 기사로 생성하는 모델을 만드는 것이다! 앞으로 갈 길이 멀다...!

 

KoGPT2 (github.com/SKT-AI/KoGPT2)