2007년 8월 7일 화요일

IR Chapter2 Modeling - 3 전형적 모델 외 다른 집합 모델

1. 퍼지 집합 모델

"한 동안 내 마음은 멈춰 있을 것이다."
이 문장을 키워드로 나열한다면, 이 문장이 갖는 원래의 의미가 표현이 될 수 있을까?

문헌과 질의를 키워드 집합으로 표현하는 것은 해당 문헌과 질의가 실제 의미하는 내용의 부분적인 표현이 되며 결과적으로, 문헌과 질의 용어의 정합은 근접 또는 모호한 정합이 된다. 이는 질의 용어를 퍼지 집합으로 정의하고 각 문헌을 이 집합의 소속 정도(degree of membership)로 모델링할 수 있다.

퍼지 집합 이론은 경계가 불분명한 클래스 표현을 다루며, 주요 개념은 클래스 원소와 연관된 소속 함수가 된다. 이 함수는 [0, 1] 구간의 값을 가지는데, 0은 클래스에 소속되지 않은 것을 말하고 1은 완전 소속을 나타낸다. 따라서 퍼지 집합의 소속 함수는 전형적인 불 논리의 이진값이 아닌 점증적인 값을 가진다.

정의
전체 집합 U에서, A와 B를 두 개의 퍼지 부분 집합이라고 하고 A^를 전체 집합 U에서 A의 여집합이라고 하자. 또 u를 U의 원소라 하면
Standard complement
cA(x) = 1 − A(x) : 여집합.
Standard intersection
(A ∩ B)(x) = min [A(x), B(x)]
Standard union
(A ∪ B)(x) = max [A(x), B(x)] (wiki 참조)

퍼지 정보 검색은 시소러스를 이용하게 된다.
시소러스는 용어간 관계를 정의한 것으로 용어간 연관 행렬(C벡터 : 키워드 연결 행결, Keyword connection matrix)을 정의함으로써 구성할 수 있는데, 이의 행과 열은 문헌 컬렉션의 색인어로 구성된다. 퍼지 집합 모델의 기본 개념은 질의 안의 색인어 집합을 시소러스에서 얻은 연관 용어로 확장하는 것이며, 결과적으로 사용자 질의만 사용한 것보다 더 많은 연관 문헌을 검색하게 된다.

두 용어 Ki와 Kj간의 정규 연관 요소 Ci,j는 다음과 같이 정의 할 수 있다.
Ci,j = Ni,j / (Ni + Nj - Ni,j)

이 연관 행렬 식은 매우 일반적인 것으로 널리 사용된다.
위 식을 조금 살펴보면 Ni,j는 Ki와 Kj가 동시에 실린 문헌의 개수이다. Ni는 Ki가 실린 문헌의 개수이고 Nj역시 마찬가지다. 이것은 Ki 혹은 Kj가 실린 문헌에서 Ki 그리고 Kj가 동시에 실린 문헌의 비율을 연관 요소 값이라고 보는 것으로 항상 동시에 실리는 경우 1로서 최대 값을 갖는다.

이러한 fuzzy 집합을 이용하면, Ci,j 정규 연관 요소에 의해 질의가 확장이 될 수 있고, 이런 확장된 질의 집합에 의해서 더 좋은 검색결과를 가져올 수 있다.

fuzzy 집합 모델과 관련한 내부 수식은 조금 더 구체적인 부분이 있지만, 그 내용이 단순하고 개념적인 것은 이미 다 언급되어 있어서 생략한다. fuzzy 집합 모델은 대중적이지 못하고 퍼지 이론에 관련된 문헌에만 논의되고 있다.

2. 확장 불리안 모델
불리안 모델은 단순하고 강력하지만, 용어 가중치를 제공하지 않기 떄문에 결과 집합의 순위화가 불가능하고, 결과 집합이 너무 크거나 작다. 이런 특성은 불리안 모델에 기반한 검색 시스템의 성능에 악영향을 미치게 된다.
그래서 불리안 모델을 확장하여 부분 정합이나 용어 가중치를 줄 수 있는 방법이 새로 모색되었고, 불리안 질의에 벡터 모델의 특성을 가미한 확장 불리안 모델이 개발되었다.

확장 불리안 모델은 기존 불리안 모델에 if-idf요소로써 용어 문헌쌍에 연관된 가중치를 적용하였다. 예를 들어 2개의 term(용어)만 적용한 좌표를 생각해보자.

댓글 없음: