2007년 8월 10일 금요일

Determining term subjectivity and Term orientation for opinion mining

Opinion mining관련한 굵직한 논문들을 서베이하는 것은 이걸로 대충 마무리 지어질 것 같다.
물론, 그 동안 읽었던 논문들을 아직 블로그에는 다 기록하지 못했지만...

이 논문은, Andrea esuli와 Fabrizio sebastiani의 작품이다.

이 논문은 자동적으로 sentiment orientation을 확장하고 재생산 하는 알고리즘에 대한 힌트나 영감 혹은 subjectivity를 판단하는 데 있어서 어떤 감을 얻을 수 있을까 해서 읽었는데 소기의 목적을 달성하지는 못한 듯 싶다.

논문에서는 기존 연구들(opinion mining관련한)이 sentiment orientation을 찾고 그걸 이용해 positive, negative한 글들로 분류하는 것에 대해 문제를 제기하고 있다.
글이나 단어들은 opinion이나 emotion이 확연하게 드러나는 것들도 있지만, 그렇지 않은 것들도 많다. 따라서 먼저 주관적인 글과 객관적인 글 혹은 단어로의 구분을 한 뒤 positive, negative로의 구분이 순서에 맞다고 주장한다.
따라서 opinion mining과 관련한 연구나 작업은 크게 3부류로 나눌 수 있다.
먼저, 주관성 객관성을 파악하는 일 하나.
그리고, positive 혹은 negative한 걸로 분류하는 것 둘.
마지막으로, mild한 positive인지 strong한 negative인지 강도를 파악하는 것 셋.

andrea와 fabrizio 두 사람의 방법은 다음과 같다.
positive한 것과 negative한 것을 semi-supervised learning algorithm을 이용해 trainng한다.
semi-supervised라고 한 이유는 training의 일부 셋은 맨 처음 labeling이 되어 있기 때문이다.
즉, seed set이라고 할 수 있는 positive, negative한 집합을 맨 처음 만든다. 그리고 이 집합을 이용해 순차적으로 training의 셋을 넓혀간다.

처음 :
positive = positive seed set
negative = negative seed set
두번째:
positive = 기존positive seed set+기존positive set의 유의어 set+기존negative seed set의 반의어 set
negative = 기존negative seed set+기존negative set의 유의어 set+기존positive seed set의 반의어 set
...
K번째:
positive = (K-1)positive seed set+(K-1)positive set의 유의어 set+(K-1)negative seed set의 반의어 set
negative = (K-1)negative seed set+(K-1)negative set의 유의어 set+(K-1)positive seed set의 반의어 set
이런 방법으로 sentiment orientation data set을 확장해 나간다.

다음 방법은 한 단어에 대해서 word net gloss(즉, 단어 정의 혹은 뜻풀이)들을 합쳐서 textual representation을 만든다. 그리고 이 textual representation을 text indexing 기법인 vetorial form으로 변형한다. 그 후 stop words(이 의미를 잘 모르겠다.)를 지우고 남은 단어들은 consine-normalized tfidf로 weight를 설정한다.(아마도 turney논문에서 살펴본 기본이 되는 nice, good같은 단어들만을 남긴다는 의미 같은 데 확실히 모르겠다.) 이것은 비슷한 orientation을 갖는 단어들은 비슷한 gloss를 가질 것이라는 가정에 따른 것이다. 예를 들면, 정직과 진취는 가치를 높이는 단어들이 공통적으로 들어가겠지만 불신과 방해는 가치를 손상시키는 단어들이 뜻풀이에 공통적으로 들어갈 것이다.

이 논문은 evaluation이나 result분석에 큰 의의를 둘 수 있는 논문이지만...

지금은 필요하지 않은 관계로 조금 후에 시간이 되면 하도록............ 헉헉

댓글 없음: