AI NEWS

Mistral의 새로운 OCR API, 글로벌 성능 1위의 혁신적 솔루션 등장!

파리 기반 AI 회사인 Mistral이 새로운 광학 문자 인식(OCR) API를 출시했습니다. 이 API는 Google, Microsoft, OpenAI의 기존 솔루션보다 더 뛰어나다고 주장합니다.

주요 특징

- 다중 모드 기능 : Mistral OCR API는 텍스트뿐만 아니라 문서 내의 일러스트, 사진 및 기타 그래픽 요소도 감지하고 처리할 수 있습니다. 이 요소들 주위에 경계 상자를 생성하고 출력에 포함시킵니다.

- 출력 형식 : 이 API는 추출된 데이터를 Markdown 형식으로 출력합니다. 이는 대형 언어 모델이 훈련 데이터 및 출력 생성에 주로 사용하는 형식입니다.

- 성능 : 벤치마크 테스트에 따르면 Mistral OCR은 99.02%의 높은 정확도로 여러 언어를 처리합니다. 이는 Google Document AI(95.88%)와 Azure OCR(97.31%)을 초월한 수치입니다. 이 API는 단일 컴퓨팅 노드에서 분당 최대 2000페이지를 처리할 수 있습니다.

- 복잡한 문서 처리 : 이 API는 LaTeX 형식의 수학 표현식, 고급 레이아웃 및 표를 포함한 복잡한 문서를 처리할 수 있습니다. 비영어 문서에서도 성능이 우수합니다.

- 응용 분야 : 사용 사례로는 과학 논문의 디지털화, 역사적 문서 보존, 고객 서비스 지식 기반 개선, 법률 회사가 방대한 문서를 처리하는 데 도움이 되는 경우가 포함됩니다. 이 API는 계약서와 같은 문서에서 특정 세부 정보를 정리된 형식으로 추출하는 데에도 사용할 수 있습니다.

배포

Mistral OCR API는 Mistral의 자체 API 플랫폼과 AWS, Azure, Google Cloud Vertex와 같은 클라우드 파트너를 통해 제공됩니다. 기밀 또는 민감한 데이터를 다루는 조직은 온프레미스 배포를 선택할 수도 있습니다.

통합

이 API는 Retrieval-Augmented Generation(RAG) 시스템과 같은 다른 AI 시스템과 통합될 수 있어 다중 모드 문서를 대형 언어 모델의 입력으로 사용할 수 있습니다. 또한, 추출된 정보를 다른 AI 시스템에서 쉽게 사용할 수 있도록 JSON 형식으로 구조화하는 것을 지원합니다.

종합적으로, Mistral의 새로운 OCR API는 AI 처리를 위한 복잡한 문서의 접근성과 사용성을 향상시키기 위해 설계되었으며, 다양한 산업 및 응용 분야에서 중요한 도구가 될 것입니다.