TF-IDF란 ? TF-IDF ( Term Frequency-Inverse Document Frequency )LLM의 등장으로 텍스트 관련 클래시컬한 알고리즘은 많이 쓰이지 않는 추세이지만 여전히 Data Science 나 대용량의 text 데이터를 처리 할 때, 혹은 검색 엔진과 추천시스템 등에도 해당 TF-IDF는 여전aiden0729.tistory.com 위의 글에서 TF-IDF에 대해서 언급한 적이 있는데, 이번에 말해볼 bm25는 TF-IDF의 진화 형태정도 되는 격이라고 할 수 있겠다. 재밌는건 bm25는 Best Matching 25 의 줄임말인데, 25는 해당 알고리즘을 개발하던 Okapi 그룹에서 25번 째 테스트에서 가장 좋은 결과가 나와서 이름이 붙었다고 한다. IT랑 다소 거리가..