위키백과 QA API 란?
자연어로 기술된 질문의 의미를 분석하여, 위키백과 문서에서 정답과 신뢰도 및 검색 단락을 추론하여 제공하는 API 입니다.
위키백과 QA는 질문에서 물어보고자 하는 대상의 정의와 속성에 대해 답을 제공할 수 있을 뿐만 아니라 인물, 장소, 작품 등 다양한 단답형 정답을 묻는 질문에도 답을 할 수 있습니다. 보다 정확한 답을 제공하기 위해 정보검색을 기반으로 언어분석된 결과로부터 정답후보를 찾는 NLP 기반 질의응답 시스템과 기계독해 기반의 딥러닝 기반 질의응답 시스템, 지식베이스 기반의 질의응답 시스템을 통합하여 위키백과 QA 시스템을 구성하였습니다. 정답을 찾는 데이터로는 한국어 위키피디아(2018년 10월 버전, 43만건 문서로 구성) 및 우리말샘 사전을 사용하였습니다.
위키백과QA API는HTTP 기반의 REST API 인터페이스로 JSON 포맷 기반의 입력 및 출력을 지원하며 ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API 입니다.
위키백과 QA는 질문에서 물어보고자 하는 대상의 정의와 속성에 대해 답을 제공할 수 있을 뿐만 아니라 인물, 장소, 작품 등 다양한 단답형 정답을 묻는 질문에도 답을 할 수 있습니다. 보다 정확한 답을 제공하기 위해 정보검색을 기반으로 언어분석된 결과로부터 정답후보를 찾는 NLP 기반 질의응답 시스템과 기계독해 기반의 딥러닝 기반 질의응답 시스템, 지식베이스 기반의 질의응답 시스템을 통합하여 위키백과 QA 시스템을 구성하였습니다. 정답을 찾는 데이터로는 한국어 위키피디아(2018년 10월 버전, 43만건 문서로 구성) 및 우리말샘 사전을 사용하였습니다.
위키백과QA API는HTTP 기반의 REST API 인터페이스로 JSON 포맷 기반의 입력 및 출력을 지원하며 ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API 입니다.
API 호출 1일 허용량
기술명 | API명 | 1일 허용량 |
---|---|---|
질의응답 기술 | 위키백과 QA API | 5,000건/일 |
위키백과 QA API 사용하기
위키백과 QA API는 REST API이며, 다의어 조회의 대상 어휘 데이터를 HTTP 통신으로 ETRI Open API 서버에 전달하면 됩니다. 서버가 제공하는 REST API의 URI는 다음과 같으며 POST 방식으로 호출해야 합니다.
http://epretx.etri.re.kr:8000/api/WikiQA
[HTTP Request Header]
"Authorization" : "YOUR_ACCESS_KEY"
[HTTP Request Body]
{
"request_id": "reserved field",
"argument": {
"passage": "YOUR_PASSAGE",
"question": "YOUR_QUESTION"
}
위와 같은 HTTP 요청을 e-PreTX 서버로 전달하면 서버는 JSON 형태의
Text 데이터를 HTTP 응답 메시지로 반환합니다. 다음은 HTTP 응답 예제 입니다.
[HTTP Response Header]
Access-Control-Allow-Origin:*
Connection:close
Content-Length:0
Content-Type:application/json; charset=UTF-8
[HTTP Response Body]
{
"request_id": "reserved field",
"result": 0,
"return_type": "com.google.gson.internal.LinkedTreeMap",
"return_object": {위키백과 QA 결과 JSON}
}
구현 예제(Python)
python 3.0을 기준으로 작성되었습니다.
HTTP 통신을 위해 urllib3 라이브러리를 사용하여 제공하고 있습니다. Python 3.0 이하의 버전에서
예제를 실행하기 위해서는 별도로 urllib3의 설치가 필요합니다.
설치에 대한 설명은 https://pypi.python.org/pypi/urllib3 를 참고하시기 바랍니다.
설치에 대한 설명은 https://pypi.python.org/pypi/urllib3 를 참고하시기 바랍니다.
urllib3 라이브러리에 대한 자세한 설명은 https://urllib3.readthedocs.io/en/latest/
에서 확인 하실 수 있습니다.
#-*- coding:utf-8 -*-
import urllib3
import json
openApiURL = "http://epretx.etri.re.kr:8000/api/WikiQA/"
accessKey = "YOUR_ACCESS_KEY"
question = "YOUR_QUESTION"
type = "ENGINE_TYPE"
requestJson = {
"argument": {
question": question,
"type": type
}
}
http = urllib3.PoolManager()
response = http.request(
"POST",
openApiURL,
headers={"Content-Type": "application/json; charset=UTF-8","Authorization" : accessKey},
body=json.dumps(requestJson)
)
print("[responseCode]" + str(response.status))
print("[responBody]")
print(str(response.data,"utf-8"))
위키백과 QA API 레퍼런스
다음은
파라미터에 대한 설명입니다.
Field 명 | 타입 | 필수여부 | 설명 |
---|---|---|---|
access_key | String | ○ | API 사용을 위해 ETRI에서 발급한 사용자 API Key |
argument | Object | ○ | API사용 요청 시 분석을 위해 전달할 내용 |
text | String | ○ | 질문하고자 하는 Text 로서 UTF-8 인코딩된 텍스트만 지원 |
type | String | ○ | 질문 응답 엔진의 종류 로서 UTF-8 인코딩된 텍스트만 지원 irqa: 언어분석 기반과 기계독해 기반의 질의응답을 통합한 질의응답 방식 kbqa: 지식베이스 기반의 질의응답 방식 hybridqa: irqa와 kbqa를 통합한 질의응답 방식 |
분석된 결과는 다음과 같은 내용이 포함되어 있습니다.
구분 | JSON Key 이름 | 설명 |
---|---|---|
위키백과
QA 기본정보 (WikiInfo) |
IRInfo | 검색 정보 Json Object Array |
wiki_title | 검색 결과의 위키백과 타이틀 | |
sent | 검색 단락 | |
AnswerInfo | 정답 정보 Json Object Array | |
rank | 정답 순위 | |
answer | 정답 | |
confidence | 정답의 신뢰도 |
위키백과 QA API의 오류 코드 목록은 다음과 같습니다.
http status code | result | reason | 설명 |
---|---|---|---|
403 | -1 | Empty Auth Header | Authorization 헤더가 없는 경우 |
403 | -1 | Invalid Key | KEY
API 키가 없는 경우 |
403 |
-1 | Blocked KEY | API
키가 관리자에 의해서 차단된 경우 |
403 |
-1 | Daily Limit Exceeded | 일간 호출 제한에 걸린 경우 |
403 |
-1 | Monthly
Limit Exceeded |
월간 호출 제한에 걸린 경우 |
403 |
-1 | Yearly
Limit Exceeded |
연간 호출 제한에 걸린 경우 |
403 |
-1 | Too Many Keys | 같은 IP에서 여러 API 키가 사용된 경우 |
403 |
-1 | Too Many IPs | 하나의 API 키를 여러 IP 에서 사용한 경우 |
403 |
-1 | Not Allowed IP | API
호출 가능한 IP 가 아닌경우 (API 설정에서 허용된 IP가 아닌경우) |
403 |
-1 | Not Allowed Subpath | 하위경로 접근 제한이 되어 있는 경우 |
403 | -1 | Invalid
API |
등록되지
않은 API를 요청한 경우 |
408 | -1 |
Request
Timeout |
서버의
요청 대기가 시간을 초과한 경우 |
413 |
-1 | Body
Size Limit Exceeded |
요청
바디가 설정된 값보다 큰 경우 |
429 |
-1 | Concurrent
Limit Exceeded |
연속호출
허용 범위를 넘어서 호출한 경우 |
500 | -1 | Internal Server Error | 내부 오류 발생한 경우 |