레겐스부르크 대학의 태깅 연구

토요일, 10월 27th, 2007

연구자들의 질문은 다음과 같다. 태그 사용에 일정한 패턴을 발견해서 안정적인 카테고리 모델을 만들 수 있는가? 태깅한 자료의 풀텍스트에서 어느 정도까지 태그를 추출할 수 있는가? 논문에 저자가 단 키워드와 태그는 어느 정도로 차이가 나는가? 태깅은 컨텐츠에 대한 설명을 넘어설 수 있는가?

조심할 점은 코노테아를 대상으로 했기 때문에 딜리셔스나 플리커에 비해 훨씬 더 아카데믹한 사용자들의 태깅 활동에 한정될 수 밖에 없다는 것이다. 따라서 더 정제된 태그가 추출되었을 가능성이 아주 크다.

카테고리 모델을 살펴보자면, 언어학적인 태그 카테고리 모델과 기능적인 태그 카테고리 모델, 태그에서 텍스트로 전환될 수 있는 카테고리 모델이 있다.

앞의 두 개에 관심이 쏠리는데, 먼저 언어학적 모델은 다음 구성 요소가 있다.

1) 단어 (형용사, 명사, 기능어, 축약어, 숫자 등 한 단어/복합어, 어구 등 두 단어 이상): 부사나 동사가 드물다는데 주목. 형용사만은 때로 태그의 장점이 되는 것 같다. 감정적이거나 추상적인 속성을 알려줄 때 유용하다. 명사가 역시 압도적으로 많다. 축약어는 잘 모르겠다. 애크로님 사전에 쓸 수도 있고 온갖 혼란의 원인이 될 수도 있을테고.

2) 철자법 (오류나 여러 이형들): 내 생각엔 항상 태그에서 문제의 출발점이 되는 것 같다.

3) 신조어: 역시 내 생각엔 이게 태그의 강점.

4) 문장 등 완결된 언어 표현: 에… language라고 되어 있는데 혹시 langue와 대립해서 쓴 것인지 정확히 모르겠다.

기능적 모델 혹은 시맨틱 모델(여기서는 그냥 화용론을 가리키는 것 같음)에 관해서는 다음과 같이 분류한다.

1) 주제 관련(저자, 날짜, 출처 등의 자료 관련/설명문, 연구 영역, 카테고리, 코드 등 내용 관련): 주제 관련이 압도적이다. 그 중에서 일반적인 내용 설명이 많다고 한다. 딜리셔스처럼 사용자 수가 늘어나면 노멀라이제이션 때문에 “우매한 군중” 효과가 날 것이지만 코노테아의 경우 견조한 것 같다.

2) 주제와 무관한 개인적인 것(긍정적이라거나 부정적, 시간, 태스크, 태그를 안 단 것 등): 뭐 거의 기타 등등에 가까운 분류인데, 코노테아처럼 사용자 수가 적을 때, 혹은 플리커처럼 사진과 같이 텍스트가 아닌 걸 대상으로 삼을 땐 이런게 매력을 발산하는게 아닐까 싶다.

태그에서 텍스트로 전환하는 모델은 다음과 같다.

1) 태그와 풀텍스트가 일치(제목, 요약문, 풀텍스트, 키워드 등에서)

2) 풀텍스트와 다른 경우(철자법 오류, 파생어 등): 이거 정말 문제인 것 같다.

3) 풀텍스트에 없는 경우(유의어, 유개념, 종개념, 무관한 경우): 자꾸 이것땜에 다들 시맨틱 검색을 시도하고 실패하면 미련을 갖는게 아닐까 싶다.

마지막으로 태그와 저자 키워드의 관계인데, 태그에서 축약어의 비중이 더 높아진다. 이러니까 태그를 검색에서 쓰기 어려워지는거 같기도 하고. 저자 키워드에 비해 태그가 문서 당 단어 수가 많다. 역시 훈련받은 택소노미가 폭소노미에 비해 품질이 높은건 당연한거 같고. 그래도 한 가지 위안은 일반적인 사이트에서 태그를 입력하는 사람이나 검색어를 입력하는 사람이나 코노테아를 쓰는 사람들보다는 똑똑하지 못해서 앞의 두 부류의 활동은 패턴이 일치할 가능성이 크다는 것이다. 거꾸로 말하면 암시적으로 입력하는 검색어 외에 별도로 명시적으로 태그를 입력 받다 보면 똑같은 일을 두 번시키는 셈이라서 무의미할 수도 있다는… 특히 태그를 입력 받는 서비스 규모가 너무 커질 경우.

DLIST – Tagging tagging. Analysing user keywords in scientific bibliography management systems.
Recently, a growing amount of systems that allow content annotation by their users (= tagging) has been created. Simultaneously a debate on the pros and cons of allowing users to add personal keywords to digital content has arisen. A stable category model for social tags on a linguistic as well as functional level is presented, based on data gathered from the scientific bibliography management tool connotea. Also some initial findings of a comparative analysis of social tags and author keywords are reported.

레겐스부르크 대학의 태깅 연구”에 대한 2개의 댓글

  1. ophilia말하길

    내가 생각할 땐..태그가 가장 큰 문제점은..한번 사용했던 태그를 다음 번 글을 쓸 때, 기억하지 못한다는 점! 아닐까-
    구체적인 분류를 해보고 싶어서, 구체적인 태그를 썼다가 다음번 글을 쓸 때 생각이 나지 않아서, 오히려 너무 방대한 분류의 태그가 되어버리는 오류.
    자신이 썼던 태그의 추천만으로는 부족하고, 뭔가 다른 장치들이 필요한 듯..

  2. yoonsuk말하길

    흐하하. 건 니가 띨빵해서. 히히히. 흠… 그건 아마 정도 차이지 모두가 겪는 경험인거 같고, 태그 번들 정도로는 계층 구조 문제를 해결할 수도 없고, 자꾸 이전에 입력했던 거나 딴 사람들이 입력했던 거를 추천해대도 태그가 소수로 수렴되는 현상 때문에 결국은 normalization을 피할수 없는 거 같어. 몇 년전부터 그렇게 열광들 했던거였는데 결국 다 환상이었던가.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: