정보검색의 색인과 의의
본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

정보검색의 색인과 의의에 대한 보고서 자료입니다.

목차

I. 시작에 앞서서....

II. 색인(Index)
1. 색인의 의의
2. 색인의 기능
3. 색인의 종류
(1) 주제색인과 비주제색인
(2) 주제색인

III. 자연어 색인과 통제어 색인
1. 색인언어
(1) 자연언어(Natural language)
(2) 통제언어(Controlled vocabulary)
(3) 자연언어와 통제언어의 비교
2. 자연언어색인과 통제언어색인
3. 언어와 정보검색

Ⅳ. 이 글을 마치며....

본문내용

는 주제가 복합주제일 때 각 개념에 해당되는 여러 개의 단어를 결합하여 이 주제를 표현하는 경우에 발생한다. 예를 들어 '한국에서의 자동차 산업', '한국의 자동차 산업', '한국 자동차 산업' 등은 동일한 주제를 다르게 표현한 것으로, 이런 경우 표현 방법의 차이 때문에 관련문헌이 분산되는 결과를 가져온다. 이러한 문제는 다양하게 표현되는 자연언어의 구문을 통제하여 색인언어가 일정한 구문구조를 갖게 함으로써 해결된다. 즉, '한국 자동차 산업'을 색인표목으로 채택하고 다른 표현을 참조해 줌으로써 같은 개념의 복합주제는 언제나 일정한 구문구조를 사용하여 색인하도록 통제하는 것이다.
통제언어색인은 색인대상이 각 개념이므로 개념색인이라고도 하며, 자연언어색인은 색인대상이 개념이라기보다는 용어이므로 용어색인이라고도 한다. 색인자가 미리 선정된 색인어를 할당하는 전통적인 할당색인은 거의 대부분이 통제언어색인에 속하고, 컴퓨터의 신속한 처리능력에 힘입어 발전한 발췌색인은 색인어를 문헌의 표제나 초록 또는 본문으로부터 발췌하는 방법으로 자연언어색인에 속한다.
DIALOG, ORBIT, MEDLINE 등 데이터베이스를 이용하고 있는 대규모 컴퓨터 정보검색시스템은 대부분이 자연언어색인과 통제언어색인을 함께 사용함으로써 정보요구와 관련된 모든 문헌을 검색하도록 하고 있다.
3. 언어와 정보검색
서명이나 초록 혹은 본문 전체를 대상으로 그 문헌에 수록된 자연언어를 사용하는 온라인 정보시스템이 출현하고 있다. 그런데 자연언어는 통제언어에 비해 여러 가지 장점을 지니고 있으나 동시에 약점도 지니고 있다. 이런 이유로 후조합시스템에서도 자연언어와 통제언어를 병용하는 합성시스템이 출현하고 있는데 이 합성시스템에서는 자연언어와 통제언어가 상호보완 기능을 한다. 일반적으로 자연언어가 검색에서 지니는 강점은 다음과 같다.
(1) 최신성과 특정성을 지니고 있어 검색의 정확성을 개선할 수 있다.
(2) 인명이나 기관명과 같은 고유명의 검색에 효과적이다.
(3) 자연언어의 망라성으로 인해서 재현율이 높다.
(4) 저자가 사용한 용어를 사용하므로 색인에 오해의 여지가 없다.
(5) 입력비용이 절감되며 데이터베이스간의 자료교환에 효과적이다.
한편 다수의 동의어와 하위개념이 있을 때 탐색에 부담이 되고, 구문의 문제(용어간의 부정확한 관계)로 인해 부적합문헌의 검색 가능성이 높으며, 용어의 망라성으로 인해 검색의 정확도에 부정적 영향을 줄 수 있다.
그런데 특정 개념에 대해 가능한 모든 용어를 기억하기 어렵고 특히 주제와 친숙하지 않은 경우에는 통제언어를 사용할 필요가 있다. 통제언어의 사용이 검색에 주는 긍정적인 면은 다음과 같다.
(1) 시소러스의 의미구조를 통해 탐색전략을 조정할 수 있다.
(2) 동의어와 유사동의어에 대한 조기성으로 인해서 재현율에서 효과적이다.
(3) 특정 개념을 이와 유사한 용어로 연결하여 탐색의 부담이 적다.
(4) 복합어와 동형이의어의 제어를 통하여 검색의 정확성을 높일 수 있다.
한편 용어의 특정성이 낮고 망라성이 결여되어 있으며 입력 시 오류의 가능성이 있다. 아울러 용어를 수록하는데 많은 시간이 소요되고 저자가 의도한 용어를 잘못 사용하거나 인위적인 용어를 사용하므로 오해가 있을 수 있고, 자연언어와 비교하여 입력비용이 크고 호환성이 적어 데이터 교환에 장애가 될 수 있다.
시소러스를 구축할 때 고려해야 할 사항은 용어의 특정성을 높여서 검색의 정확률을 향상시키면 재현율의 저하를 가져온다는 점이다. 반대로 어휘의 특정성을 낮추면 재현율은 향상되나 정확률에 손상을 줄 수 있다. 아울러 통제언어나 자연언어 간의 상호보완적인 성격도 시소러스 구축 시 고려되어야 한다. 자연언어는 통제언어의 특정성을 개선하는데 기여할 수 있고 통제언어는 동의어의 통제나 관계구조를 통하여 재현율의 향상에 기여할 수 있다. 아울러 통제언어의 정확률을 개선하기 위해 복합어와 동형이의어를 한정함으로써 자연언어의 망라성으로 인한 정확성의 손실을 보완할 수 있다.
용어를 체계적으로 연결하고 특정성 있는 용어와 복합어를 사용하여 고도로 구조화된 시소러스를 구축하는 것은 입력과 관리에 많은 비용을 초래하게 되고 또 이러한 수준의 시소러스를 구축하기 위해서는 검색결과의 개선을 예상할 수 있어야 한다. 반대로 포괄적인 용어와 최소한의 구조로 구축된 시소러스는 검색결과가 불만족스럽고 이로 인해 오히려 더 많은 비용을 초래할 수 있다.
Ⅳ. 이 글을 마치며....
앞의 내용을 요약하면 수집된 기록 정보들은 이용되기 위해서 조직화되고, 축적되어져야 하며, 수집된 정보의 내용들은 분석되고, 그 결과들이 검색할 경우에 색인어가 될 수 있는 속성을 지니도록 선택되어져야 한다. 이러한 작업을 색인작업(Indexing)이라고 하며, 도서관에서 분류하고, 한편으로 정보는 색인되어 독자적으로 축적되어 진다. 또한 색인을 작성하는 목적은 검색작업의 효율성을 높이기 위한 것이다.
저자명 색인, 기관명 색인, 사실색인 등의 각종 색인 중 가장 대표적인 것은 주제색인이라고 할 수 있다. 주제색인에 있어서 정보의 주제를 적절히 표현하는 어구는 색인으로서 문헌 혹은 서지정보를 대상으로 작성된다. 작성된 색인의 종류와 특징은 축적정보에 따라 많은 차이가 나게 되는데, 검색질문 중에 사용된 속성에 따라 색인을 작성하는 것이 중요하다. 문헌에서 추출된 주제를 함축하는 개념들은 가장 적절한 색인어로 변환된다.
문헌이나 서지정보의 검색에 많이 사용되는 속성으로서는 저자명, 록은 주제내용을 표현하는 것, 분류기호 등이 있으며, 이러한 모든 색인어 혹은 검색어들이 검색에 사용되고 있다. 주제내용을 나타내는 색인어에는 범위 혹은 사용방법이 규정된 통제어와 어떠한 규제도 없는 자유키워드가 있다. 통제어를 사용하려면 동의어, 유의어, 동형이의어 혹은 자연어로서 의미가 애매한 검색도 있을 수 있고 잡음이 발생할 수도 있다. 통제어를 유지하고 관리하는 데에는 많은 노력이 필요하며 변화가 심한 분야에서는 새로이 생겨나는 전문용어를 신속하게 처리해야하며 자연언어 색인의 경우 정보요구를 정확하게 표현할 수 있는 것을 알 수 있다.

키워드

정보검색,   색인,   초록,   의의,   자연어,   통제어
  • 가격2,000
  • 페이지수12페이지
  • 등록일2003.12.22
  • 저작시기2003.12
  • 파일형식한글(hwp)
  • 자료번호#239917
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니