목록랩/Information Retrieval (5)
시드니랩

Similarity Measure 앞서 Vector Space Model에서 Query 와 Document를 Vector로 나타낼수 있었다. 그렇다면 Document retrieval vector space model에서, 각 Vector들의 Similarity 를 어떻게 측정할 수 있을까? 아쉽게도, BEST similarity measurement는 존재하지 않는다. 비교 대상의 성격에 따라서, 두 벡터를 비교하는 방법이 다를수 밖에 없다. 예를 들어, Euclidean distance로 Similarity를 측정한다고 하면, 비교 벡터가 '학교에서부터 집까지의 거리' 이면, Euclidean distance가 충분히 Similarity measure가 될 수 있다. 하지만, 비교 벡터가 사람의 성격..

IR은 Searcher 가 원하는 정보를 가져다 주는 것이 목적이다. 즉, 특정 대상을 위해 동작하는 목적이 있는 Application 이다. 반면, NLP는 인간과 인간이 의사소통 하는 문맥을 컴퓨터가 이해할 수 있도록 하는 기술이다. 인간이 작성한 텍스트와, 말하는 문장 등을 컴퓨터가 이해하기 쉬운 구조로 바꾸는것에 목적이 있다. 따라서, IR의 기능을 수행하는데에 있어서 중요한 Role을 차지하고 있는것이 NLP라고 할 수 있겠다. IR은 텍스트에만 국한되어있지 않고, 이미지와 같은 멀티미디어 Retrieval 또한 포함하고 있어서 NLP가 다루는 분야보다 훨씬 범주가 넓다. IR은 또한 Application 이기 때문에, 정보 검색시 속도를 비롯한 Efficiency에 큰 비중을 둔다. 따라서 S..

Statistical model에서는 Boolean model 과 다르게, Keyword의 중요도를 통계적으로 따진다. 물론, Document 는 마찬가지로 순서를 고려하지 않는 Bag of words라고 가정한다. User 은 Query 시에, 검색 단어들에 weight 를 부과할 수 있다. 예시 : Q = Boolean model 에서는 query와 ocument내 word의 일대일 매칭으로 Retrieval 이 이루어 졌다면, Statistical model 에서는 query와 document의 Similarity 를 기준으로 Retrieval 이 이루어 진다는 것이 핵심이다. ◉Statistical model에서는 Document의 수많은 단어들 중, User Query에 적합한 Important..

우리 세대 Search Engine의 대표주자인 Google은, 간단한 UI와 대조되게, 새삼스럽지만 만들기가 굉장히 어렵다. 심지어 Microsoft도 Google만한 검색엔진을 만들수가 없다. 그렇다면 다시, 우리가 Search Engine을 공부해서 어디다 써먹을 것인가? 또 다시 언급하지만, Google 말고도 Domain specific search engines라고 해서, 회사내의 비즈니스 니즈를 위한 Search Engine은 굉장히 인력 공급이 부족한 분야임을 잊지말자. ◉ Retrieval Model 우리는 어떻게 검색을 할것인가, 검색엔진을 이루고있는 큰 축을 보자면 아래 3가지로 구분할 수 있다. 1. Documents : 실제 문서 2. User query : 논리적인 요구사항 3...

1. IR 의 간략한 역사 일반인에게는 Search Engine, 학계에서는 Information Retrieval 이라는 용어로 불리는 이 IR은 사실 컴퓨터가 등장하기 훨~씬 이전부터 존재했었다. 그리고 익숙한 Search Engine 이라는 용어는 Information Retrieval이 Web에 구현되고 나서부터 등장했다. 1950년대 이전에는 이 분야는 Computer Scientist 나 Mathematicians 보다 Librarian 에 의해서 더 잘 연구되기도 했던 분야이다. 도서관이야 말로 전통적으로 정보검색이 이루어지는 공간이기 때문이다. 1960년대에는 특정 Search Field에 의존해서 검색을 했었음 예를들어 IBM Stairs 은 title="computer" AND body..