본문 바로가기

Study/NLP

(1)

텍스트 유사도 (자카드 유사도, 코사인 유사도, 맨하탄 유사도, 유클리드 유사도)와 tf-idf NLP에서 텍스트 유사도란 두 문서가 텍스트 적으로 얼마나 유사한 내용을 담고 있는지를 나타내는 지표이다. 우선 유사도로 나타내기 전, 문서를 벡터화하는 작업이 필요하다. TfidfVectorizer 문서를 tf-idf의 feature matrix로 변환하는 클래스이다. 문서에 CountVectorizer를 사용하고 tfidf Transformer를 사용한 것과 똑같은 결과를 가진다. tf-idf(Term Frequency - Inverse Document Frequency)란? TF(단어빈도)는 특정한 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 값. 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 하나의 문서에서 많이 나오지 않고 다른 문서에서 자주 등장하면 단어의 중요도는 낮..

이전 1 다음

티스토리툴바