질의 응답 시스템 : 지혜
Natural Intelligence팀
김민정 신우석 성대경 김다영
2014년 2학기 종합 설계 프로젝트1
목차 Contents
01
프로젝트
소개
02
추진
배경
03
목표
04
시스템
디자인
05
시스템
구현
06
성능
평가
07
향후계획
01 지혜, Who is she?
“안녕하세요. 지혜입니다”
지혜이름
설명
주요분야
장학퀴즈서 우승하는
질의응답 시스템
인물 분야 퀴즈
02 지혜 탄생 배경
퀴즈쇼에서 사람을 이긴 컴퓨터
02 지혜 탄생 배경
입력
결과
정보 취득 방법
자연어 질의
명확한 답
결과를 읽음
키워드
전체 문서
문서 내에서 수동으로 검색
정보 검색 질의 응답▷
02 지혜 기대 효과
다양한 분야에 응용
빅데이터 분석
의사결정에 도움
전문인력을 대체
03 프로젝트 목표
• 장학퀴즈 객관식 형태의 퀴즈에 대한 질의응답 시스템 개발
• 정답률 70% 이상
04 지혜 시스템 디자인
지식 DB
질의어
질의어
분석
정답
정답 후보
지식 추출
후보 순위
결정
05 지혜 성장과정
Prototyping Model
- 개발 프로세스
Prototype System
Planning Analysis
Design
Implementation
Feedback
05 지혜 성장과정
탄생
어린이
청소년
(Prototype1)
(Prototype2)
(Final System)
05 지혜 성장 과정
탄생
키워드 추출 : 형태소 분석을 통한 중요 단어 추출
일치도 계산 : word overlap
지식 DB : 위키피디아 인물 문서 파일로 저장
탄생 ( prototype1 )
인물들의 공통되는 분류를 포함하는 문서를 파일로 저장
탄생 ( prototype1 )
-인물 분야 DB 구축
태어남 죽음 출신 군인 장군 지식 DB
탄생 ( prototype1 )
-키워드 추출
문서에서 중요한 정보를 담고 있는 단어를 추출
• 일치도 계산에는 Word Overlap 방식을 이용
Q = {질의어 키워드}
D = {보기 문서 키워드}
일치도
탄생 ( prototype1 )
-일치도 계산
Q D
탄생 ( prototype1 )
-스크린샷
탄생 ( prototype1 )
-스크린샷
전체 인물 문서를 가져오지 못함
문서의 제목과 보기가 정확히 일치 해야만 함
동명이인이 존재할 경우 구분이 되지 않음
탄생 ( prototype1 )
-한계
정답률이 낮음
05 지혜 성장 과정
어린이
어린이 ( prototype2 )
100% 인물 문서
문서 벡터화 및
벡터 일치도 검사
60% 인물 문서
Redirect 기능 추가
동명이인 문서 구별
• 지식DB
• 알고리즘 word overlap
• 추가사항
보기의...
탄생 ( prototype1 )
-인물분야 DB 구축
상위 분류를 통해 모든 인물 문서 수집
국적별
사람
직업별 가상인물
한국 영국 종교 과학 신화
〮〮〮〮〮
〮〮〮〮〮
처리와 공간 효율을 높일 수 있는 벡터화
K1 K2 K3 ….. Kn
1 1 0 …… 1
문서 벡터화추출된 키워드
K1, K2,
…, Kn
어린이 ( prototype2 )
-벡터화 과정
어린이 ( prototype2 )
-일치도 계산 : cosine similarity
벡터의 유사성으로 각 문서의 유사성을 판별하는 방법
어린이 ( prototype2 )
- Redirect 구현
REDIRECT
동명이인 문서들끼리 비교해 필요한 문서를 결정
김홍도
(화가)
김홍도
(목사)
김홍도
(법조인)
유진동
(문신)
유진동
(의사)
이윤영 박지원
김홍도
(화가)
유진동
(문신)
김홍도
(화가)
어린이 ( prototype...
어린이 ( prototype2 )
- 스크린샷
어린이 ( prototype2 )
- 스크린샷
어린이 ( prototype2 )
- 한계 : 오답의 예
무한 도전 MC이고 연예 대상을 받은
안경을 끼고, 메뚜기라고 불리는 사람은?
대상 도전
메뚜기
무한 연예
유재석
대상 도전
무한 연예
이경규
키워드수
일치율
문...
05 지혜 성장 과정
청소년
청소년 ( Final System)
100% 인물 문서
TTS기능 추가
키워드 가중치
고려하지 못함.
모든 위키피디아 문서
키워드 가중치 고려
• 지식DB
• 알고리즘
• 추가사항
지식 DB
모든 문서
청소년 ( Final System )
- 모든 문서 DB 구축
• TF(단어 빈도, Term Frequency)
• DF(문서 빈도, Document Frequency)
• TF-IDF(단어가 얼마나 중요한 것인지를 나타내는 수치)
-
t = term, d = document
D ...
정답은 3번 입니다
청소년 ( Final System )
- TTS 적용
Text To Speech를 이용하여 정답을 음성으로 들려줌
23.3%
63.3%
73.3%
0%
10%
20%
30%
40%
50%
60%
70%
80%
06 지혜 최종 평가
정답률
목표 (70%)
07 향후 계획
?
탄생 어린이 청소년 대학생
- 단답형
- 모든 분야
- 정답률 향상
- 사지선다형
- 인물분야
- 정답률 73.3%
Q&A
감사합니다 
of 37

Natural intelligence 최종발표ppt_ver13

다지선다 질의응답시스템에 대한 발표 자료
Published on: Mar 3, 2016
Published in: Software      
Source: www.slideshare.net


Transcripts - Natural intelligence 최종발표ppt_ver13

  • 1. 질의 응답 시스템 : 지혜 Natural Intelligence팀 김민정 신우석 성대경 김다영 2014년 2학기 종합 설계 프로젝트1
  • 2. 목차 Contents 01 프로젝트 소개 02 추진 배경 03 목표 04 시스템 디자인 05 시스템 구현 06 성능 평가 07 향후계획
  • 3. 01 지혜, Who is she? “안녕하세요. 지혜입니다” 지혜이름 설명 주요분야 장학퀴즈서 우승하는 질의응답 시스템 인물 분야 퀴즈
  • 4. 02 지혜 탄생 배경 퀴즈쇼에서 사람을 이긴 컴퓨터
  • 5. 02 지혜 탄생 배경 입력 결과 정보 취득 방법 자연어 질의 명확한 답 결과를 읽음 키워드 전체 문서 문서 내에서 수동으로 검색 정보 검색 질의 응답▷
  • 6. 02 지혜 기대 효과 다양한 분야에 응용 빅데이터 분석 의사결정에 도움 전문인력을 대체
  • 7. 03 프로젝트 목표 • 장학퀴즈 객관식 형태의 퀴즈에 대한 질의응답 시스템 개발 • 정답률 70% 이상
  • 8. 04 지혜 시스템 디자인 지식 DB 질의어 질의어 분석 정답 정답 후보 지식 추출 후보 순위 결정
  • 9. 05 지혜 성장과정 Prototyping Model - 개발 프로세스 Prototype System Planning Analysis Design Implementation Feedback
  • 10. 05 지혜 성장과정 탄생 어린이 청소년 (Prototype1) (Prototype2) (Final System)
  • 11. 05 지혜 성장 과정 탄생
  • 12. 키워드 추출 : 형태소 분석을 통한 중요 단어 추출 일치도 계산 : word overlap 지식 DB : 위키피디아 인물 문서 파일로 저장 탄생 ( prototype1 )
  • 13. 인물들의 공통되는 분류를 포함하는 문서를 파일로 저장 탄생 ( prototype1 ) -인물 분야 DB 구축 태어남 죽음 출신 군인 장군 지식 DB
  • 14. 탄생 ( prototype1 ) -키워드 추출 문서에서 중요한 정보를 담고 있는 단어를 추출
  • 15. • 일치도 계산에는 Word Overlap 방식을 이용 Q = {질의어 키워드} D = {보기 문서 키워드} 일치도 탄생 ( prototype1 ) -일치도 계산 Q D
  • 16. 탄생 ( prototype1 ) -스크린샷
  • 17. 탄생 ( prototype1 ) -스크린샷
  • 18. 전체 인물 문서를 가져오지 못함 문서의 제목과 보기가 정확히 일치 해야만 함 동명이인이 존재할 경우 구분이 되지 않음 탄생 ( prototype1 ) -한계 정답률이 낮음
  • 19. 05 지혜 성장 과정 어린이
  • 20. 어린이 ( prototype2 ) 100% 인물 문서 문서 벡터화 및 벡터 일치도 검사 60% 인물 문서 Redirect 기능 추가 동명이인 문서 구별 • 지식DB • 알고리즘 word overlap • 추가사항 보기의 정확한 문서를 가져오지 못 함
  • 21. 탄생 ( prototype1 ) -인물분야 DB 구축 상위 분류를 통해 모든 인물 문서 수집 국적별 사람 직업별 가상인물 한국 영국 종교 과학 신화 〮〮〮〮〮 〮〮〮〮〮
  • 22. 처리와 공간 효율을 높일 수 있는 벡터화 K1 K2 K3 ….. Kn 1 1 0 …… 1 문서 벡터화추출된 키워드 K1, K2, …, Kn 어린이 ( prototype2 ) -벡터화 과정
  • 23. 어린이 ( prototype2 ) -일치도 계산 : cosine similarity 벡터의 유사성으로 각 문서의 유사성을 판별하는 방법
  • 24. 어린이 ( prototype2 ) - Redirect 구현 REDIRECT
  • 25. 동명이인 문서들끼리 비교해 필요한 문서를 결정 김홍도 (화가) 김홍도 (목사) 김홍도 (법조인) 유진동 (문신) 유진동 (의사) 이윤영 박지원 김홍도 (화가) 유진동 (문신) 김홍도 (화가) 어린이 ( prototype2 ) - 동명이인 문제 해결
  • 26. 어린이 ( prototype2 ) - 스크린샷
  • 27. 어린이 ( prototype2 ) - 스크린샷
  • 28. 어린이 ( prototype2 ) - 한계 : 오답의 예 무한 도전 MC이고 연예 대상을 받은 안경을 끼고, 메뚜기라고 불리는 사람은? 대상 도전 메뚜기 무한 연예 유재석 대상 도전 무한 연예 이경규 키워드수 일치율 문제 : 5 4 0.14 0.17 일치 키워드
  • 29. 05 지혜 성장 과정 청소년
  • 30. 청소년 ( Final System) 100% 인물 문서 TTS기능 추가 키워드 가중치 고려하지 못함. 모든 위키피디아 문서 키워드 가중치 고려 • 지식DB • 알고리즘 • 추가사항
  • 31. 지식 DB 모든 문서 청소년 ( Final System ) - 모든 문서 DB 구축
  • 32. • TF(단어 빈도, Term Frequency) • DF(문서 빈도, Document Frequency) • TF-IDF(단어가 얼마나 중요한 것인지를 나타내는 수치) - t = term, d = document D : set of documents 청소년 ( Final System ) - 벡터화(TF-IDF)
  • 33. 정답은 3번 입니다 청소년 ( Final System ) - TTS 적용 Text To Speech를 이용하여 정답을 음성으로 들려줌
  • 34. 23.3% 63.3% 73.3% 0% 10% 20% 30% 40% 50% 60% 70% 80% 06 지혜 최종 평가 정답률 목표 (70%)
  • 35. 07 향후 계획 ? 탄생 어린이 청소년 대학생 - 단답형 - 모든 분야 - 정답률 향상 - 사지선다형 - 인물분야 - 정답률 73.3%
  • 36. Q&A
  • 37. 감사합니다 

Related Documents