토픽모델링 논문 발제 (Topic based classification and pattern identification in patents)
본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

토픽모델링 논문 발제 (Topic based classification and pattern identification in patents)에 대한 보고서 자료입니다.

목차

1. 논문개요 2
2. 연구 방법 2
3. 데이터 수집 3
4. 연구 방법론 4
5. 토픽 모델링 4
6. 관련 특허 식별 5
7. 주제 분포 6
8. 분류자 학습 7
9. CPC 분류와 토픽모델링을 사용한 분류 7
10. 특허 분류에서 기술의 활용성 8
11. 기술의 활용 및 의미 8
12. 결론 10
13. 기술적 한계 및 향후 과제 10

본문내용

기준이 됨
CPC-MaxEnt, CPC-SVM 과 비교
LDA가 84.72%의 정확도로 분류
QDA가 83.33%으로 LDA보다 낮은 것은 데이터량이 작기 때문으로 판단, 대규모일 경우 성능이 향상될 것
하나의 히든 레이어와 4개의 출력을 갖는 피드-포워드 신경망 사용
-신경망은 over fitting 되는 경향이 있으며, 81.34%의 정확도로 수행되지만 더 단순한 모델의 정확도 보다 낮음
-자동 분류가 될 수 있다는 것을 보여주는 것이 목표이므로 매개변수 조정하지 않음 (개선될 가능성 있음)
SVM이 가장 좋은 성능을 보였으며 커널 서포트 벡터 머신 사용
특허 분류에서 기술의 활용성
본 연구에서는 전체 문서를 검토하여 관련 문서를 선정 후 식별 프로세스를 수행
따라서 관련있는 특허와 관련 없는 특허 모두 동일한 분포라는 가정은 잘못된 가정
또한 컬렉션(토픽 모델링된)에 관련 없는 특허는 주제를 구성하는 클러스터를 찾지 못할 수 있음
관련 특허와 무관한 특허 간의 차별을 목적으로는 사용이 어려움
관련 특허 식별을 위해 토픽 모델링 접근 방법을 수행해 보았으나 53.3%만 정확히 식별함
기술의 활용 및 의미
기술 융합
-기술 분류에서 알고리즘들은 특정 수준을 넘어 분류 정확도를 향상시키지 않음, 15%의 오분류 발생
-전문 주석자들 역시 약 10%의 관련성을 명확히 하기 어려움
-년도에 걸친 비교에서 시간이 흐를 때 마다 솔라 모니터링과 솔라 인버터 특허가 점점 더 잘못 이름 붙여짐
-기술이 발달하면서 기술이 점점 융합되고 있는 것을 확인 -따라서 시간이 지남에 따라 기술의 흐름을 수용할 수 있는 동적 토픽 모델을 구축하여 연구하는 것이 유용할 것
혁신 지도
-본 연구는 정책-혁신-위치의 연결 및 지식확산에 대한 연구를 함께 수행
-토픽 모델은 혁신과 지리적 측면의 연계성에 대한 연구를 가능케 함
※예를 들어 정책-산업간 연계성에 대한 연구가 가능
-각 미국 주는 캘리포니아 주의 PV BOS 특허 주제 분포의 유사성에 기초하여 색칠 됨
-코사인 유사성 측정은 캘리포니아에서 발명된 특허의 주제 분포와 관련하여 주의 주제 분포가 얼마나 유사한지를 측정
-이것은 특정 주에서 캘리포니아와 유사한 발명 활동을 측정하는 척도를 제공
-추가 단계를 수행하여 각각의 주 별로 혁신적인 활동의 요인을 알아낼 수 있음
-예를 들어, 정책이나 산업 변수들은 기존의 상호 보완적인 구조(등급)처럼 주 수준에서 개발 될 수 있으며, 조사된 주 단위의 점수로 표시되는 창의적 활동의 특성과 상관관계를 조사할 수 있음
-특허 및 과학 출판물을 포함한 다양한 문서의 내용이 인용, 위치, 공동 저자 및 기관 네트워크 등이 지식 흐름의 위치적 측면을 평가할 수 있음을 보여주고 있음
-즉, 주제 분포가 정책-혁신-지리적 연결을 분석할 수 있는 기능을 제공한다는 것임
지식확산에 인용분석의 영향
-특허는 지식 확산의 중요한 경제적 개념을 조작하는 편리한 방법을 제공?
-특허 인용을 사용한 지식 확산의 기존 연구는 특허가 지식의 양에 기여한다고 가정하나 대부분 사실이 아님
-각 특허에 의한 인용의 수가 시간이 지남에 따라 증가해 왔으며 이는 일종의 인용 인플레이션임
-즉 레퍼런스에서 발생한 지식 확산 사례를 정확히 분석하려면 기여도를 나타내는 가중치를 지정해야 함
-특허를 취득한 발명품이 다른 특허에 기초한 경우, 인용 특허와 인용된 특허 간의 어휘가 중복될 수 있음
-본 논문에서 제시된 방법론은 특허에 기여한 지식 확산의 정도에 따라 레퍼런스의 수위를 메기기 위한 수단으로 문서 간의 텍스트 유사성을 사용할 수 있게 함
-텍스트 유사성에 기반한 특허 간의 연계 지표를 개발하기 위한 NLP 기술의 적용은 특허 인용을 지식 유출의 척도로 사용하는 데 있어 주요 관심사를 해결하는데 도움이 되는 방법을 제공, 모든 레퍼런스가 동일하다는 가정
결론
수요 창출 정책의 지역적 영향은 무엇인가, 지식은 산업 내부와 산업 전반에 어떻게 흐르고, 그 흐름이 어떻게 혁신에 영향을 미치는가?
-일반적으로 사용되는 접근법은 특허 분류 시스템과 인용 네트워크 분석
-위 방법은 이점을 제공하는 반면, 특허 분류 시스템의 사용과 관련된 몇 가지 문제가 있음
-제품/시장 부문에 대해 고유하지 않은 매핑과 지식 컨텐츠의 대략적인 요약이 가장 심각한 단점
자연어 처리 기술은 문서의 본문을 활용함으로써 특허 분석 접근법의 한계를 극복
본 논문에서는 특정한 제품과 기술의 하위 클래스에 대한 특허를 자동으로 분류하는 계층적 기법을 제시
제안된 기술
-1단계: SVM 기반 이진 분류기를 사용하여 특정 제품 범주 또는 시장 범주에 해당하는 관련 특허와 무관하게 구분
-2단계: 토픽 모델링을 사용하여 관련 특허를 기술 하위 클래스로 분류, 대상 범주 내 더 세분화된 구성 요소
제안된 분류법의 새로운 점은 주제분포의 분류자를 학습시킨다는 것임
분석적인 방법론은 특허의 주제 분포를 나타냄
주제 분포는 특허의 지식 내용을 요약한 형태지만 특허의 내용을 대표할 수 있음
기술 융합과 지리적 위치에 따른 혁신의 정도를 나타낼 수 있는 응용법을 제시
특허의 주제 분포가 인용 링크만 사용하는 접근방식을 보완하는 방법으로 지식 확산에 대한 연구를 위해 사용될 수 있도록 어떤 기능을 제공하는지도 설명
기술적 한계 및 향후 과제
특허문서가 여전히 기술 지향적 언어를 가지고 있다는 점을 감안할 때, 토픽 모델링 기법이 특정 시장 또는 제품을 매핑하는 데 얼마나 성공적일 수 있는가
TM기반 접근법이 이 작업에서 효과적일 것으로 예상되는 이유는 데이터의 모든 문서 수집에서 발견되는 주제의 구조를 활용하기 때문
태양광 발전 시장과 기술만을 이용하여 방법론을 검증
동일 알고리즘을 새로운 데이터/시장/제품에 적용하면 일반적인 적용성을 추가로 평가하는 데 도움이 될 것임
또한 제시된 방법으로 분류의 정확성을 개선할 수 있는 추가적 방법이 있음
BOW기반 만의 단순한 토픽 모델로도 상대적으로 높은 정확도를 달성함을 보임
bigram 또는 n-gram 기반 토픽 모델링을 채택하면 정확도가 향상될 것임
동적 토픽 모델링 또한 기술 융합에서 패턴을 확인하는 정확성을 향상시킬 수 있을 것임
  • 가격1,000
  • 페이지수10페이지
  • 등록일2021.01.25
  • 저작시기2019.4
  • 파일형식한글(hwp)
  • 자료번호#1144090
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니