법무팀 여러분, 스캔한 계약서를 검색 가능하게 만드세요!
체결된 계약서, 증서, 법원 서류는 종종 스캔하여 이미지 PDF 파일로 저장됩니다. 기밀 법률 문서를 클라우드 서비스에 업로드하지 않고도 문서 관리 시스템에서 모든 조항을 검색할 수 있도록 로컬에서 OCR 처리를 하세요.
스캔한 PDF는 문서의 사진입니다. 텍스트처럼 보이지만 실제 텍스트 데이터는 없고 픽셀 매트릭스만 있습니다. 검색이 작동하지 않고, 복사 붙여넣기도 안 되며, PDF 리더는 색인을 만들 수 없고, 텍스트 추출 도구는 빈 결과만 반환합니다. 이러한 문제를 해결하는 방법은 광학 문자 인식(OCR)입니다. OCR은 각 페이지의 픽셀 패턴을 읽고 문자를 식별하여 텍스트를 복원하는 과정입니다. LuraPDF는 세계에서 가장 널리 사용되는 오픈 소스 OCR 엔진인 Tesseract(Google에서 유지 관리)를 웹어셈블리 바이너리로 내장하여 브라우저 탭에서 직접 실행합니다. 엔진은 한 번만 다운로드되면 문서 처리의 모든 과정을 기기에서 처리합니다. 파일 업로드, 서버 API 호출, 원격 처리가 필요 없습니다. 스캔한 세금 신고서, 서명된 계약서, 환자 기록 또는 과거 문서 등 어떤 문서든 기기를 벗어나지 않습니다.
개인 정보 보호는 서버 기반 OCR 방식보다 브라우저 기반 OCR을 선택해야 하는 가장 중요한 이유입니다. 스캔한 문서는 매우 민감한 정보를 담고 있습니다. 사람들은 세금 신고서, 의료 기록, 법률 서류, 은행 명세서, 신분증 등을 스캔합니다. 이러한 문서를 클라우드 OCR API에 업로드하면(개인 정보 보호 정책이 있더라도) 파일이 인터넷을 통해 전송되고, 서버에 저장되고, 처리 파이프라인을 거치고, 사용자가 제어할 수 없는 방식으로 임시 저장될 수 있습니다. LuraPDF의 아키텍처는 이러한 위험을 구조적으로 제거합니다. Tesseract WASM 바이너리는 브라우저 내의 샌드박스 웹 워커에서 실행됩니다. 이동하는 데이터는 OCR로 인식된 텍스트 레이어뿐이며, 이 레이어는 메모리에 저장된 PDF 파일에 다시 기록됩니다. 모든 처리는 로컬에서 이루어집니다. 출력물은 검색 가능한 PDF 파일로, 원본 페이지 이미지는 그대로 유지되고 Tesseract가 식별한 문자 위치에 완벽하게 정렬된 보이지 않는 텍스트 레이어가 아래에 추가됩니다.
스캔한 PDF 파일은 모든 산업 분야에서 쌓입니다. OCR은 이러한 파일을 해독합니다. 로컬에서 자체적으로 처리하는 OCR 방식이 유일하게 허용되는 워크플로는 다음과 같습니다.
체결된 계약서, 증서, 법원 서류는 종종 스캔하여 이미지 PDF 파일로 저장됩니다. 기밀 법률 문서를 클라우드 서비스에 업로드하지 않고도 문서 관리 시스템에서 모든 조항을 검색할 수 있도록 로컬에서 OCR 처리를 하세요.
도서관, 기록 보관소, 그리고 계보 연구자들은 역사적인 신문, 편지, 장부, 원고 등을 스캔합니다. Tesseract는 역사적인 라틴어 글꼴과 비표준 문자 세트를 지원합니다. OCR을 실행하여 손상되기 쉬운 역사적 자료를 제3자 서버로 전송하지 않고도 수백 년 된 문서를 검색 가능하게 만들 수 있습니다.
디지털화 이전의 학술 논문, 학회 발표 자료 및 저널 스캔본은 기본적으로 검색이 불가능합니다. OCR을 사용하여 Ctrl+F 검색, 주석 달기, 인용 추출 및 참고 문헌 관리 도구에 입력하는 기능을 활성화하십시오.
스캔한 영수증과 청구서에는 금액, 날짜, 공급업체 이름이 이미지 픽셀에 담겨 있습니다. OCR(광학 문자 인식)을 통해 이러한 정보는 검색 및 선택 가능한 텍스트로 변환되어 회계 소프트웨어에 복사하여 붙여넣거나 후속 데이터 추출 작업을 수행할 수 있습니다.
기존 환자 기록, 진료 의뢰서, 진료 양식 등이 스캔 파일 형태로 제공됩니다. 민감한 개인 의료 정보(PHI)는 클라우드 기반 OCR API에 업로드하기에는 너무 위험합니다. 따라서 로컬에서 OCR을 실행하여 PHI를 의료 기기에 안전하게 보관하면서 기록을 검색할 수 있도록 해야 합니다.
PDF 문서에서 개체를 추출하고, 콘텐츠를 분류하거나, 요약하는 문서 인텔리전스 파이프라인은 텍스트 레이어가 필요합니다. Tesseract WASM을 사용하여 스캔한 PDF를 로컬에서 OCR 처리하면 검색 가능한 PDF 또는 원시 텍스트 파일을 생성하여 외부 API에 문서 데이터를 노출하지 않고도 NLP 모델에 제공할 수 있습니다.
브라우저에서 실행되는 Tesseract WASM은 연구 수준의 OCR 정확도와 로컬 처리를 통한 개인정보 보호를 결합합니다. 이러한 조합이 제공하는 이점은 다음과 같습니다.
스캔한 PDF 파일을 업로드하면 pdf.js가 각 페이지를 200 DPI(정확도 모드에서는 300 DPI로 설정 가능)의 목표 해상도로 HTML 캔버스에 렌더링합니다. 캔버스 이미지 데이터는 SharedArrayBuffer를 통해 선택한 LSTM 언어 모델이 실행되는 Tesseract.js 웹 워커로 전송됩니다. Tesseract는 레이아웃 분석을 통해 페이지를 텍스트 영역으로 분할한 다음, 각 영역에 LSTM 신경망을 적용하여 문자 시퀀스를 인식합니다. 출력은 인식된 유니코드 문자 시퀀스와 바운딩 박스 좌표(페이지에서 각 단어가 나타나는 픽셀 위치)가 포함된 단어 목록입니다.
Tesseract가 페이지 처리를 완료하면 pdf-lib는 인식된 텍스트와 경계 상자를 사용하여 해당 PDF 페이지에 보이지 않는 텍스트 레이어를 그립니다. 각 단어는 경계 상자 높이에서 계산된 글꼴 크기와 불투명도 0의 `rgb(0, 0, 0)` 텍스트 색상을 사용하여 감지된 좌표에 배치됩니다. 따라서 시각적으로는 보이지 않지만 PDF의 텍스트 콘텐츠 스트림에는 존재합니다. 최신 PDF 뷰어는 이 텍스트 스트림을 검색, 선택 및 사본을 작업에 사용합니다. 결과적으로 원본 스캔과 똑같이 보이는 PDF가 생성되지만 Ctrl+F에 응답하고 텍스트 선택을 지원하며 문서 관리 시스템 및 검색 엔진에서 색인화할 수 있습니다.
| 특징 | 루라PDF | 서버 기반 OCR(ilovepdf, Smallpdf) | 어도비 아크로뱃 |
|---|---|---|---|
| 은둔 | 브라우저 전용 — 파일이 업로드되지 않음 | 스캔한 문서가 원격 서버에 업로드되었습니다. | 현지 서비스이지만 유료 구독이 필요합니다. |
| 언어 지원 | Tesseract WASM을 통해 100개 이상의 언어 지원 | 다양함 - 일반적으로 지원하는 언어 수가 더 적음 | Acrobat: 많지만 다국어 지원 기능은 제한적입니다. |
| 비용 | 평생 무료, 페이지 할당량 없음 | 프리미엄 - 페이지 제한 또는 유료 구독 | 아크로뱃 구독료 $$$ |
| 회원가입 필요 | 없음 — 페이지를 열고 OCR을 실행합니다. | 여러 페이지로 구성된 문서를 보려면 계정이 필요합니다. | Adobe ID와 구독이 필요합니다. |
스캔 품질은 OCR 정확도에 가장 큰 영향을 미치는 요소입니다. 다음 팁을 활용하면 Tesseract WASM에서 최상의 결과를 얻을 수 있습니다.
올바른 언어를 선택하세요. 잘못된 언어 모델을 적용하면 Tesseract의 정확도가 크게 떨어집니다. 확실하지 않은 경우, 가능성이 높은 여러 언어를 선택하면 Tesseract가 그중에서 최적의 언어를 선택합니다.
스캔 해상도가 높을수록 OCR 성능이 향상됩니다. 특히 작은 글꼴이나 라틴어가 아닌 문자의 경우, 300 DPI 스캔은 150 DPI 이하 스캔보다 훨씬 높은 정확도를 제공합니다.
OCR을 실행하기 전에 자르고 회전하세요. LuraPDF의 PDF 자르기 및 PDF 회전 도구를 사용하여 페이지를 똑바로 정렬하고 여백을 제거한 후 OCR을 실행하십시오. 페이지가 기울어지거나 거꾸로 되어 있으면 인식 품질이 저하됩니다.
모바일 기기에서 여러 페이지로 구성된 대용량 문서를 열 때는 데스크톱 브라우저를 사용하는 것이 좋습니다. Tesseract WASM은 프로세서 부하가 높기 때문에 모바일 기기에서는 속도가 느립니다. 태블릿이나 데스크톱용 Chrome 또는 Firefox를 사용하면 최상의 처리 속도를 경험할 수 있습니다.
OCR 처리 후, PDF to Text 기능을 사용하여 인식된 전체 텍스트를 일반 파일로 추출하여 워드 프로세서, 번역 도구 또는 데이터 파이프라인에 붙여넣으세요.
영어와 아랍어 부분이 혼합된 법률 계약서나 영어 텍스트와 중국어 숫자가 포함된 문서와 같이 여러 언어가 혼합된 문서의 경우, 각 부분을 개별적으로 처리하는 대신 OCR을 실행하기 전에 관련 언어를 모두 선택하십시오.
스캔한 PDF 파일을 위의 업로드 영역에 드래그 앤 드롭하고 문서 언어를 선택하면 Tesseract WASM이 모든 페이지를 검색 가능하게 만들어 줍니다. 이 모든 과정은 브라우저에서 바로 완료됩니다. 업로드, 서버, 계정, 워터마크, 페이지 할당량 제한이 없습니다. 스캔한 세금 서류, 법률 문서, 의료 기록, 보관 자료는 선택하는 순간부터 검색 가능한 PDF 파일이 다운로드 폴더에 저장될 때까지 기기에 그대로 보관됩니다. OCR 처리 후, PDF to Text 도구를 사용하여 전체 텍스트를 추출하고, Crop PDF 및 Rotate PDF 도구를 사용하여 스캔 파일을 자르고 거나 회전하거나, Annotate PDF 도구를 사용하여 새로 검색 가능한 페이지에 주석을 달 수 있습니다.