Ocr v2 버전에 관련하여 질문드립니다

기존 V1 버전에서는 특정 이미지의 boxes 값을 전달하여 텍스트 인식률을 더 높일수 있었습니다.
V2 버전에서는 boxes 값을 별도로 전달할수 있는게 아니라 자동으로 인식되어 인식률이 너무 낮아지는데 V1 처럼 boxes 값을 보내서 텍스트 값만 받아올수는 없는건가요?

ex.
----------------------------------- V1 -----------------------------------
boxes = [[[5, 5], [350, 5], [350, 50], [5, 50]]]
API_URL = ‘https://kapi.kakao.com/v1/vision/text/recognize?boxes={}’.format(boxes)
headers = {‘Authorization’: ‘KakaoAK {}’.format(appkey)}

files = {‘file’: open(filename, ‘rb’)}
resp = requests.post(url=API_URL, headers=headers, files=files)
resp.raise_for_status()
result = resp.json()[‘result’][‘recognition_words’]

----------------------------------- V2 -----------------------------------
API_URL = 'https://dapi.kakao.com/v2/vision/text/ocr
headers = {‘Authorization’: ‘KakaoAK {}’.format(appkey)}
image = cv2.imread(image_path)
jpeg_image = cv2.imencode(".jpg", image)[1]
data = jpeg_image.tobytes()

resp = requests.post(url=API_URL, headers=headers, files={“image”: data})
resp.raise_for_status()
result = resp.json()[‘result’]

v1 보다 v2 API의 문자영역 인식률이 떨어지나요? 인식률 관련해선 변경된 부분이 없어요.

v1 버전은 이미지를 업로드 하여, 문자영역의 box를 먼저 추출한 뒤, 그 좌표를 입력하여 다시 요청을 했어야 했던 불편함이 있었습니다.
그래서 v2 API에선 box 영역 추출, 문자영역의 글자 추출 두가지를 하나의 API로 제공하도록 변경된 것입니다.

혹시 기존 v1 API를 사용하실 때 /v1/vision/text/detect API를 통해 boxes 를 추출한 것이 아니라, 별도의 방법으로 직접 추출하신 좌표를 입력하여 recognize API 를 호출하셨던 것일까요?

안녕하세요. lily님

v1 API의 https://kapi.kakao.com/v1/vision/text/detect API를 호출하여 box 영역을 추출합니다.
box 값이 올바르지 못할경우 해당 값을 조정하여
https://kapi.kakao.com/v1/vision/text/recognize?boxes={} API를 호출합니다.
위와 같이 했을때 문자영역 인식률이 대부분 정확하게 인식되어 집니다.

V2 API의 경우 한번의 호출로 box 영역과 문자를 한번에 제공됨이 편리하긴 하오나
인식이 안될경우 위 V1 API와 같이 box 영역을 조정해줄 필요가 있는데 V2 API의 경우 조정 자체가 불가하여 문자영역을 불러올수가 없는 점이 있습니다.

V2 API가 기존보다 한번에 호출이 가능한점도 굉장히 편리하긴 한데
기존 V1 API 처럼 detect API 또는 recognize API를 호출하여 불러올수 있는 호출도 유지되었으면 좋겠습니다.
V2 API의 새로운 기능도 좋지만 V1 API의 호출 방법도 유지되면서 사용자들이 선택을 할 수 있었음 좋겠습니다.

오픈소스가 너무 편리한데 V2 API 같이 하나의 방법만 제공된다면 기존보다 편리하긴 하오나, 인식률을 더 높일수 있는 방법이 막힌듯 하여 안타까운 마음이 듭니다.

감사합니다.

네. 어떤 의견이신지 이해했습니다.
피드백 감사드려요. 담당부서에도 전달드렸습니다.
논의 후에 답변 주실거에요.

네 친절한 답변 감사합니다.
즐거운 하루 되시길 바라며, 건강 유의하세요~

안녕하세요.
내부 논의 결과 OCR은 아래와 같은 이유로 V2(통합 API)만 제공하기로 결정 되었습니다.

  • 일반 사용자의 편의성/타 플랫폼의 API 제공 현황을 고려 해봤을 때 통합 API 형태로 제공하는 것이 맞다고 판단했습니다.
  • 내부 시스템 구성 상 여러 버전의 API를 동시 제공하기 어려운 부분이 있습니다.

문의 주신 통합 API 사용 시, (문자 영역 값을 조절할 수 없어) 인식률이 낮아지는 문제는 지속적인 품질 개선을 통해 해결 해나가도록 하겠습니다.

감사합니다.