본문 바로가기

전체 글

(20)
[python] 람다(lambda) lambda는 런타임에 생성해 사용할 수 있는 익명함수 입니다. 함수형 프로그래밍 언어에서의 lambda와 정확히 똑같은 것은 아니지만, 파이썬에 잘 통합되어 있으며 filter(), map(), reduce()와 같은 전형적 기능 개념과 함께 사용되는 매우 강력한 개념입니다. lambda는 쓰고 버리는 일시적인 함수입니다. 함수가 생성된 곳에서만 필요합니다. 즉, 간단한 기능을 일반적인 함수와 같이 정의해두고 쓰는 것이 아니고 필요한 곳에서 즉기 사용하고 버릴 수 있습니다.
EDA(Exploratory Data Analysis) 탐색적 데이터 분석 - (1) 출처: eda-ai-lab.tistory.com/13 EDA란? 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정이다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정이다. EDA가 필요한 이유 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다. 이를 통해, 본격적인 분석에 들어가기에 앞서 데이터의 수집을 결정할 수 있다. 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다. EDA의 과정 기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과..
텍스트 유사도 (자카드 유사도, 코사인 유사도, 맨하탄 유사도, 유클리드 유사도)와 tf-idf NLP에서 텍스트 유사도란 두 문서가 텍스트 적으로 얼마나 유사한 내용을 담고 있는지를 나타내는 지표이다. 우선 유사도로 나타내기 전, 문서를 벡터화하는 작업이 필요하다. TfidfVectorizer 문서를 tf-idf의 feature matrix로 변환하는 클래스이다. 문서에 CountVectorizer를 사용하고 tfidf Transformer를 사용한 것과 똑같은 결과를 가진다. tf-idf(Term Frequency - Inverse Document Frequency)란? TF(단어빈도)는 특정한 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 값. 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 하나의 문서에서 많이 나오지 않고 다른 문서에서 자주 등장하면 단어의 중요도는 낮..