2007년 7월 31일 화요일

IR Chapter2 Modeling - 1

전형적인 정보 검색 시스템은 문헌을 색인하고 검색하기 위해 색인어를 사용한다.
색인어는 명사들로 이루어진 키워드(연관 용어들의 집합)라고 할 수 있지만, 일반적으로 텍스트 내에 나오는 어떠한 단어들도 색인어라고 불리울 수 있다. 색인어를 사용한 검색은 문헌의 의미와 사용자 정보 요구가 색인어 집합을 통하여 자연스럽게 표현될 수 있다는 생각에 근거하고 있다. 이 색인어를 이용한 검색은 간단하지만, 크게 2가지 문제를 야기한다.
1) 문헌 또는 사용자 요구의 많은 의미가 단어 집합으로 바뀌면서 그 의미의 상당 부분을 소실하기 때문에 문제의 과도한 단순화라는 문제를 일으킨다. 실제로 웹 검색의 결과들이 적절한 질의 형성을 하지 못하는 사용자의 경우에 상당히 불만족스러워하게 되는 예들은 자주 보는 현상이다.
2)또 다른 문제는 어떤 문헌이 연관된 것이고 어떤 문헌이 비연관된 것인가를 예측하는 문제로서 소위 랭킹 알고리즘(검색된 문헌을 순서화하는 순위 작업)과 관계된 것이다.

정보 검색은 크게 축적(ad hoc)과 여과(filtering)로 분류할 수 있다.
전형적인 정보 검색 시스템에서는 새로운 질의가 들어와도 시스템 내부에 축적된 문헌들은 상대적으로 변함이 없는데 문헌을 축적하고 이에 대해 검색 결과를 보여주는 시스템을 ad hoc이라고 부른다.
여과 작업은 사용자의 질의가 상대적으로 정적이고 새로운 문헌이 시스템에 들어왔다 분배되는 동작 모드를 말한다. 이 여과 작업을 위해서는 사용자의 기호도를 기술한 사용자 프로파일(user profile)이 만들어지고, 새로 입력된 문헌을 이 profile과 비교하여 특정 사용자의 관심 사항과 연관된 문헌을 제공한다. 이 선택된 문헌들의 순위까지고 제공하는 filtering의 변형을 routing이라고 부른다. 일단 여과 작업에서 가장 중요한 부분은 순위화가 아니라 사용자 기호에 근거한 프로파일 작성 부분이다. 이 프로파일을 효과적으로 작성하기 위한 방법으로 사용자로 하여금 직접 키워드 집합을 쓰게 하기도 한다. 그러나 새로운 관심 영역에서 적절한 키워드를 알기는 어렵기 때문에 좀더 정교한 방법으로 제시되는 방법은 먼저 사용자가 관심 키워드 집합을 작성하고 이에 연관된 문헌들이 제공됬을때 실제로 관련이 있는지에 대한 정보를 피드백해 주는 것이다.

정보 검색 모델은 순위 결정 알고리즘에 따라 분류된다. 정보 검색 모들은 다음과 같은 특성으로 정의된다.
정의
정보 검색 모델은 다음과 같은 /D, Q, F, R(qi, di)/ 4개의 구성 요소로 정의된다.
(1)D : 소장된 문헌에 대한 논리 표현의 집합
(2)Q : 사용자 정보 요구에 대한 논리 표현의 집합인 질의. 즉, Query.
(3)F : 문헌 표현, 질의와 이들의 관계를 모델링한 틀
(4)R(qi, di) : D와 Q의 원소인 질의 qi, 문헌 dj를 연관시켜 주는 순위 결정 알고리즘.
모델을 정의하기 위해서 우선, 문헌과 사용자 요구의 표현을 고려해야 하며, 이 표현이 결정되면 이들을 모델링할 틀을 구상한다. 이틀에서는 순위화 함수가 포함되는데, 예를 들면 전통적인 불리안 모델에서는 문헌집합과 표준적인 집합 연산자로 구성되며, 전형적인 벡터 모델에서 이 틀은 t 차원의 벡터 공간과 벡터 계산을 위한 표준 선형 대수 연산자로 구성되고, 확률 모델은 집합, 표준 확률 연산과 베이즈 정리로 구성된다.

댓글 없음: