그동안 게을러서 진행 사항을 정리 안했더니 포스팅할 내용이 쌓였다.
(11.09)
오늘 진행할 내용은 다음과 같다.
- 사전 fine_tuning 해놓은 모델 불러오기 연습
- 팀원이 전처리한 데이터로 다시학습하기
- 팀원이 정리한 문단출력방식 활용해보기
fine tuning한 모델 불러오기
불러오기 과정에서 알아야 할 요소는 다음과 같다.
- GPT_finetuning.ipynb 파일: 데이터를 로드하고, 모델을 생성, 저장하는 코드
- Dataset폴더: 전처리된 csv 데이터가 저장되어있음
- data_out폴더: fit된 모델을 h5파일로 저장
팀원이 전처리한 데이터로 다시학습하기
- dataloader에서 불러오는 데이터 변수명을 수정해주었다.
팀원이 정리한 문단출력방식 활용해보기
팀원이 제시한 방법은, input array에 들어오는 토큰의 길이를 count 해서, 총 300개 넘게 쌓일 때까지 generate하는 방법이었다.
해당 방법을 이용하면 토큰이 </s>가 나오건 말건 무조건 300개의 토큰을 출력하므로 얼핏보기엔 괜찮아 보였다.
하지만 의료기사를 학습시킨 이후, 몇 가지 문제점이 관측되었다.
첫 번째, 출력 길이를 길게 하더라도 finetuning한 데이터가 뉴스 양식이기 때문에 결국 ~~~<OO뉴스> 처럼 마무리되는 문장으로 끝맺음 되는 경우가 허다하였다. 이 경우에는 <OO뉴스, 저작권~~><OO뉴스, 저작권~~><OO뉴스, 저작권~~> 처럼 기사의 끝 부분이 반복적으로 등장했다. 이 문제에 대해서는 데이터 전처리가 필요해 보인다.
두 번째, 모델이 멍청했다. 학습한 데이터가 의료백과뿐만 아니라 의료'기사'가 포함되어 있기 때문에, 모델이 어떤 양식에 맞추어 결과물을 제출할지 혼동하는 모습이었다. 이 문제를 해결하기 위해 의료기사생성모델을 의료정보 출력모델과 기사 생성 모델로 나누어 각 모듈에 대해 입력 데이터를 나누는 방법을 도입할 계획이다.
'프로젝트 > (NLP)GPT2의료기사생성' 카테고리의 다른 글
(3) GTP2를 이용한 의료기사생성 AI - 무작성 기사쓰기! (1) | 2020.11.11 |
---|---|
(1) GTP2를 이용한 의료기사생성 AI - 프로젝트 시작 (0) | 2020.10.07 |