Tutorial

스캔한 PDF 파일을 OCR 처리하여 검색 가능한 파일로 만드는 방법

OCR(광학 문자 인식)의 작동 원리, 정확도에 영향을 미치는 요소, 그리고 LuraPDF의 브라우저 기반 OCR 도구를 사용하여 스캔한 PDF 파일을 검색 및 복사/붙여넣기 가능한 문서로 변환하는 방법을 알아보세요.

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 14 min read

스캔한 PDF는 문서의 디지털 사진입니다. 페이지는 이미지 형태로 되어 있어 텍스트를 선택하거나 단어를 검색하거나 문장을 복사하거나 텍스트 편집 도구에 입력할 수 없습니다. 정보 검색 측면에서 스캔한 PDF는 사실상 불투명한 자료입니다.

OCR(광학 문자 인식)은 이미지를 분석하여 시각적 콘텐츠 위에 텍스트 레이어를 생성함으로써 이 문제를 해결합니다. 결과적으로 원본 스캔 이미지와 외관은 동일하지만, 선택, 검색 및 복사가 가능한 보이지 않는 텍스트 레이어가 포함된 PDF 파일이 생성됩니다.

OCR 작동 방식

LuraPDF는 Google에서 유지 관리하고 HP Labs에서 개발한 가장 정확한 오픈 소스 OCR 엔진 중 하나인 Tesseract의 브라우저 컴파일 버전인 Tesseract.js를 사용합니다. Tesseract는 수십 개 언어로 된 수백만 페이지의 문서를 기반으로 학습된 신경망 모델(LSTM 기반)을 사용합니다.

OCR 파이프라인:

페이지 렌더링: 각 PDF 페이지는 고해상도(최상의 정확도를 위해 300DPI 이상) 캔버스 이미지로 렌더링됩니다.
전처리: 이미지 개선 — 이진화, 노이즈 감소, 기울기 보정(회전된 스캔 이미지 바로잡기)
레이아웃 분석: 텍스트 영역, 열, 표 및 비텍스트 요소 감지
문자 인식: 신경망은 분할된 텍스트 영역에서 각 문자를 분류합니다.
후처리: 유사한 문자를 구분하기 위한 언어 모델 점수화 (예: "l"과 "1", "O"와 "0")
PDF 작성: 인식된 텍스트는 해당 시각적 문자 위에 정확히 위치한 보이지 않는 텍스트 레이어로 삽입됩니다.

보이지 않는 텍스트 레이어 덕분에 결과물을 검색할 수 있습니다. 페이지의 시각적 모양은 원래 스캔 이미지 그대로 유지됩니다. 즉, 스캔한 내용을 정확히 볼 수 있지만, 그 아래에 있는 텍스트는 이제 기계가 읽을 수 있는 형태로 변환됩니다.

OCR 정확도에 영향을 미치는 요인

정확도는 입력 품질에 따라 크게 달라집니다.

스캔 해상도

300 DPI는 정확한 인식을 위한 최소 해상도입니다. 200 DPI 미만에서는 문자 인식 품질이 크게 저하됩니다. OCR 작업을 위해 문서를 스캔할 때는 항상 300 DPI 이상으로 스캔하십시오.

150 DPI 이하로 스캔한 문서는 OCR을 실행하기 전에 더 높은 해상도로 다시 스캔해야 합니다. 아무리 성능이 좋은 OCR 엔진이라도 저해상도 스캔 파일에 OCR을 실행하면 결과가 좋지 않습니다.

글꼴 및 인쇄 품질

인쇄된 텍스트(레이저 프린터 출력물, 활자 조판 서적): 원본이 깨끗한 경우 98~99%의 정확도
선명한 필체: 85~95%
흐릿하거나 희미한 텍스트: 명암 대비에 따라 80~95%
카본 복사 용지: 60~85%
옛 신문/타자기: 스캔 상태 양호 (90~95%)
필기체: 40~70% — 신경망 OCR은 필기체 인식에 어려움을 겪습니다.

페이지 방향

페이지가 심하게 기울어지거나 회전된 경우 정확도가 떨어집니다. Tesseract를 포함한 대부분의 OCR 엔진은 경미한 회전(최대 약 10도)을 자동으로 감지하고 보정합니다. 심하게 회전된 페이지는 PDF 회전 기능을 사용하여 먼저 수동으로 보정해야 합니다.

언어

Tesseract는 100개 이상의 언어를 지원합니다. LuraPDF의 OCR 도구는 영어를 자동으로 감지합니다. 라틴어 이외의 문자 체계나 영어 이외의 문서의 경우, 언어 선택 기능을 통해 정확도를 크게 향상시킬 수 있습니다.

LuraPDF를 사용하여 PDF를 OCR 처리하는 방법

OCR 도구 열기: LuraPDF OCR PDF로 이동합니다.
스캔한 PDF 파일 업로드: 파일을 드래그 앤 드롭하세요
언어 선택(영어가 아닌 경우): 문서의 기본 언어를 선택하십시오.
"OCR 실행"을 클릭하세요. 처리는 브라우저에서 페이지별로 진행됩니다. 소요 시간은 문서 길이에 따라 다르며, 최신 컴퓨터에서 20페이지를 스캔하는 데는 일반적으로 30~90초가 걸립니다.
검색 가능한 PDF 다운로드: 결과물은 원본 스캔 이미지와 텍스트 레이어가 포함된 PDF 파일입니다.

결과 테스트

OCR 처리 후 정확도를 검증합니다.

페이지에서 텍스트를 선택하세요. 텍스트는 인쇄된 문자 바로 위에서 선택할 수 있어야 합니다.
자주 사용하는 단어를 검색(Ctrl+F 또는 Cmd+F)해 보세요. 찾을 수 있을 겁니다. 단락을 복사하여 텍스트 편집기에 붙여넣으세요. 결과는 읽을 수 있어야 합니다.

정확도가 떨어지는 경우, 다른 도구를 사용하기 전에 먼저 입력 스캔 품질을 확인하십시오.

다른 작업보다 OCR을 먼저 실행해야 하는 시점

OCR 기능을 사용하면 순수 이미지 PDF에서는 작동하지 않는 추가적인 LuraPDF 작업을 수행할 수 있습니다.

OCR 후 PDF 압축: 텍스트 추출 후 이미지 영역을 더 적극적으로 압축할 수 있습니다.
OCR 처리 후 PDF를 Word로 변환: OCR 처리된 PDF를 Word로 변환하면 편집 가능한 텍스트가 생성됩니다. 원본 스캔 파일을 변환하면 이미지가 포함된 Word 파일이 생성됩니다.
OCR 처리 후 PDF 수정: 텍스트 기반 수정 기능이 OCR 처리된 문서에서 정상적으로 작동합니다.
검색 및 추출: 다시 입력할 필요 없이 특정 정보를 찾아 복사합니다.

개인정보 보호: OCR은 브라우저에서 실행됩니다

Tesseract.js는 WebAssembly를 사용하여 전체 OCR 프로세스를 로컬에서 실행합니다. 의료 기록, 재무제표, 법률 문서 또는 개인 식별 정보가 포함된 스캔 문서는 사용자의 기기를 벗어나지 않습니다. 원격 서버에서 파일을 처리하지 않습니다.

이는 처리하는 모든 데이터의 사본을 반드시 받아야 하는 클라우드 OCR 서비스에 비해 상당한 이점입니다.

브라우저 기반 OCR의 한계점

처리 시간

Tesseract.js는 네이티브 데스크톱 Tesseract 또는 클라우드 OCR API보다 속도가 느립니다. 하드웨어 사양에 따라 페이지당 약 3~8초가 소요될 것으로 예상됩니다. 50페이지 분량의 문서를 처리하는 데는 몇 분이 걸릴 수 있습니다.

표

Tesseract는 표 내용을 인식하지만 PDF의 텍스트 레이어에서 표 구조를 재구성하지는 않습니다. 텍스트는 읽기 순서대로 유지되지만 셀 구조는 보존되지 않습니다. 구조화된 표를 추출하려면 OCR로 변환한 PDF 파일을 Word 파일로 변환한 후 수동으로 표 형식을 다시 지정해야 합니다.

수학적 표기법

LaTeX 스타일 방정식과 수학 기호는 정확도가 낮습니다. Tesseract 모델은 자연어 텍스트에 최적화되어 있습니다.

필기

앞서 언급했듯이 필기체의 정확도는 제한적입니다. 인쇄체는 정확도가 더 높습니다. 중요한 필기 문서의 경우, 각 페이지를 수동으로 검토해야 합니다.

자주 묻는 질문

OCR로 인식된 텍스트가 문자와 일치하지 않습니다. 버그인가요? 스캔 파일이 심하게 기울어진 경우 이러한 문제가 발생할 수 있습니다. 텍스트 위치는 감지된 문자 위치를 기반으로 계산되지만, 페이지 모양이 표준이 아니면 정렬이 어긋날 수 있습니다. OCR을 실행하기 전에 PDF를 회전하여 기울기를 바로잡아 보세요.

특정 페이지만 OCR로 인식할 수 있나요? LuraPDF는 모든 페이지를 처리합니다. 특정 페이지에만 OCR이 필요한 경우, 먼저 PDF 페이지 추출 기능을 사용하여 해당 페이지를 추출한 후 OCR을 실행하고, 필요에 따라 결과를 병합하십시오.

OCR 기능이 스캔한 문서의 시각적 모양을 바꾸나요? 아니요. 원본 스캔 이미지는 그대로 보존됩니다. 보이지 않는 텍스트 레이어만 추가될 뿐입니다.

텍스트 페이지와 스캔 페이지가 혼합된 PDF 파일에 OCR 기능을 실행할 수 있나요? 예, Tesseract는 이미지 기반 페이지를 처리하고 텍스트 레이어를 추가합니다. 이미 텍스트 레이어가 있는 페이지는 영향을 받지 않습니다.

제 문서는 아랍어/중국어/일본어로 되어 있는데, OCR 기능이 작동할까요? 네, 하지만 실행하기 전에 도구에서 올바른 언어를 선택하세요. 테서랙트는 CJK 및 오른쪽에서 왼쪽으로 쓰는 언어에 대한 정확도가 좋지만, 라틴 문자 문서보다 스캔 품질에 따라 정확도 변동이 더 큽니다.

OCR(광학 문자 인식) 기술은 스캔한 문서가 보관된 잠긴 아카이브를 접근 가능하고 검색 가능하며 처리 가능한 정보로 변환합니다. 스캔한 계약서로 가득 찬 캐비닛은 검색 가능한 데이터베이스가 되고, 의료 기록 더미는 실제로 탐색할 수 있는 문서로 바뀝니다. 이 과정은 몇 초에서 몇 분 정도 소요되며 모든 작업이 사용자의 기기에서 이루어집니다.