100% 비공개즉시 처리영원히 무료

온라인 OCR PDF — 무료, 브라우저 전용, 100개 이상의 언어 지원

스캔한 PDF 파일을 업로드 없이 검색 가능한 텍스트 PDF로 변환하세요. Tesseract WASM은 브라우저에서 직접 OCR을 실행합니다. 100개 이상의 언어 지원, 서버 불필요, 회원가입 필요 없음.

스캔한 PDF 파일을 업로드하지 않고도 검색 가능하게 만드세요

스캔한 PDF는 문서의 사진입니다. 텍스트처럼 보이지만 실제 텍스트 데이터는 없고 픽셀 매트릭스만 있습니다. 검색이 작동하지 않고, 복사 붙여넣기도 안 되며, PDF 리더는 색인을 만들 수 없고, 텍스트 추출 도구는 빈 결과만 반환합니다. 이러한 문제를 해결하는 방법은 광학 문자 인식(OCR)입니다. OCR은 각 페이지의 픽셀 패턴을 읽고 문자를 식별하여 텍스트를 복원하는 과정입니다. LuraPDF는 세계에서 가장 널리 사용되는 오픈 소스 OCR 엔진인 Tesseract(Google에서 유지 관리)를 웹어셈블리 바이너리로 내장하여 브라우저 탭에서 직접 실행합니다. 엔진은 한 번만 다운로드되면 문서 처리의 모든 과정을 기기에서 처리합니다. 파일 업로드, 서버 API 호출, 원격 처리가 필요 없습니다. 스캔한 세금 신고서, 서명된 계약서, 환자 기록 또는 과거 문서 등 어떤 문서든 기기를 벗어나지 않습니다.

개인 정보 보호는 서버 기반 OCR 방식보다 브라우저 기반 OCR을 선택해야 하는 가장 중요한 이유입니다. 스캔한 문서는 매우 민감한 정보를 담고 있습니다. 사람들은 세금 신고서, 의료 기록, 법률 서류, 은행 명세서, 신분증 등을 스캔합니다. 이러한 문서를 클라우드 OCR API에 업로드하면(개인 정보 보호 정책이 있더라도) 파일이 인터넷을 통해 전송되고, 서버에 저장되고, 처리 파이프라인을 거치고, 사용자가 제어할 수 없는 방식으로 임시 저장될 수 있습니다. LuraPDF의 아키텍처는 이러한 위험을 구조적으로 제거합니다. Tesseract WASM 바이너리는 브라우저 내의 샌드박스 웹 워커에서 실행됩니다. 이동하는 데이터는 OCR로 인식된 텍스트 레이어뿐이며, 이 레이어는 메모리에 저장된 PDF 파일에 다시 기록됩니다. 모든 처리는 로컬에서 이루어집니다. 출력물은 검색 가능한 PDF 파일로, 원본 페이지 이미지는 그대로 유지되고 Tesseract가 식별한 문자 위치에 완벽하게 정렬된 보이지 않는 텍스트 레이어가 아래에 추가됩니다.

온라인에서 PDF 파일에 OCR을 실행하는 방법

1

스캔한 PDF 파일을 업로드하세요.

스캔한 파일이나 이미지 기반 PDF 파일을 업로드 영역에 드롭하세요. 파일은 브라우저 메모리에 로드되며 서버로 전송되는 것은 없습니다. LuraPDF는 여러 페이지로 구성된 스캔 문서, 책, 기록 보관 자료 등을 페이지 수 제한 없이 업로드할 수 있습니다.

2

언어를 선택하세요

언어 선택기에서 문서의 기본 언어를 선택하십시오. 영어와 프랑스어 부분이 모두 포함된 계약서나 독일어 인용문이 있는 학술 논문과 같은 다국어 문서의 경우, 관련된 모든 언어를 선택하십시오. Tesseract는 선택된 모든 문자 체계의 문자를 인식하기 위해 통합 언어 모델을 사용합니다.

3

품질 기본 설정을 지정합니다.

속도 모드(더 빠르지만 정확도는 약간 떨어지며, 최신 글꼴이 사용된 깨끗한 스캔에 적합)와 정확도 모드(더 느리지만 Tesseract LSTM 엔진을 완벽하게 사용하며, 저품질 스캔, 과거 글꼴 및 라틴어 이외의 문자 체계에 권장) 중에서 선택하십시오. 정확도 모드에서는 각 페이지에 대해 전체 신경망 모델을 실행합니다.

4

텍스트 레이어 미리보기

OCR이 완료되면 인식된 텍스트를 원본 페이지와 함께 미리 보기하여 정확성을 확인하세요. Tesseract는 인식된 각 단어의 경계 상자를 강조 표시하므로 다운로드하기 전에 스캔 품질이 낮은 영역의 오류를 발견할 수 있습니다.

5

검색 가능한 PDF 다운로드

다운로드를 클릭하세요. pdf-lib는 Tesseract가 식별한 정확한 문자 위치에 각 페이지 위에 보이지 않는 텍스트 레이어를 추가합니다. 출력물은 표준 검색 가능 PDF 파일입니다. 이미지는 그대로 유지되며 Ctrl+F, 사본을, 선택 및 전체 텍스트 색인 기능이 모두 작동합니다.

100% 민간 — 현지 OCR

Tesseract WASM은 샌드박스 처리된 웹 워커 환경에서 브라우저 탭 내에서 실행됩니다. 스캔한 문서는 기기 외부로 유출되지 않으며, 업로드, 서버 API 사용, 임시 클라우드 저장소도 거치지 않습니다. 이는 스캔한 금융, 법률, 의료 문서의 개인정보 보호를 위한 필수적인 요소입니다.

Tesseract WASM — 100개 이상의 언어 지원

LuraPDF는 Google의 Tesseract OCR 엔진을 WebAssembly로 포팅한 Tesseract.js를 사용합니다. 라틴어, 키릴 문자, 아랍어, 중국어(간체 및 번체), 일본어, 한국어, 히브리어, 힌디어 등 100개 이상의 언어 모델을 지원합니다. 여러 문자가 혼합된 문서의 경우 여러 언어를 선택할 수 있습니다.

검색 가능한 PDF 출력

이 과정은 원본 스캔 페이지 이미지를 그대로 유지하고, 정확한 문자 위치에 보이지 않는 텍스트 레이어를 추가합니다. 결과적으로 검색 가능한 PDF 파일이 생성됩니다. Ctrl+F 키를 눌러 단어를 찾을 수 있고, 텍스트를 선택 및 복사할 수 있으며, 문서 관리 시스템에서 색인을 생성할 수 있습니다.

텍스트 전용 내보내기 옵션

LuraPDF는 검색 가능한 PDF 출력 외에도 OCR 처리된 원본 텍스트를 일반 .txt 파일로 내보낼 수 있습니다. 이는 인식된 텍스트를 워드 프로세서, 자연어 처리 파이프라인, 번역 도구 또는 스프레드시트 가져오기와 같은 후속 도구에 입력하는 데 유용합니다.

원래 레이아웃을 유지합니다

원본 페이지 이미지는 변경되지 않습니다. 테서랙트의 경계 상자 데이터는 인식된 각 문자를 페이지 상의 픽셀 위치에 매핑하며, 보이지 않는 텍스트 레이어는 바로 그 좌표에 배치됩니다. 따라서 모든 페이지의 시각적 모양은 원본 스캔 이미지와 동일합니다.

무료, 회원가입 없음, 워터마크 없음

계정 등록이나 일일 페이지 제한이 없으며, 검색 가능한 PDF 출력물에 워터마크도 없습니다. 스캔한 문서에 OCR 기능을 필요한 만큼 자주 실행하고 모든 최신 브라우저에서 사용할 수 있습니다. 대용량 문서는 속도가 느리지만 횟수 제한은 없습니다.

LuraPDF OCR PDF를 사용하는 사람은 누구인가요?

스캔한 PDF 파일은 모든 산업 분야에서 쌓입니다. OCR은 이러한 파일을 해독합니다. 로컬에서 자체적으로 처리하는 OCR 방식이 유일하게 허용되는 워크플로는 다음과 같습니다.

법무팀 여러분, 스캔한 계약서를 검색 가능하게 만드세요!

체결된 계약서, 증서, 법원 서류는 종종 스캔하여 이미지 PDF 파일로 저장됩니다. 기밀 법률 문서를 클라우드 서비스에 업로드하지 않고도 문서 관리 시스템에서 모든 조항을 검색할 수 있도록 로컬에서 OCR 처리를 하세요.

기록 보관 담당자 - 역사 문서를 디지털화합니다

도서관, 기록 보관소, 그리고 계보 연구자들은 역사적인 신문, 편지, 장부, 원고 등을 스캔합니다. Tesseract는 역사적인 라틴어 글꼴과 비표준 문자 세트를 지원합니다. OCR을 실행하여 손상되기 쉬운 역사적 자료를 제3자 서버로 전송하지 않고도 수백 년 된 문서를 검색 가능하게 만들 수 있습니다.

연구자 - 스캔된 학술 논문 검색

디지털화 이전의 학술 논문, 학회 발표 자료 및 저널 스캔본은 기본적으로 검색이 불가능합니다. OCR을 사용하여 Ctrl+F 검색, 주석 달기, 인용 추출 및 참고 문헌 관리 도구에 입력하는 기능을 활성화하십시오.

회계 담당자 - 스캔한 영수증에서 수치 추출

스캔한 영수증과 청구서에는 금액, 날짜, 공급업체 이름이 이미지 픽셀에 담겨 있습니다. OCR(광학 문자 인식)을 통해 이러한 정보는 검색 및 선택 가능한 텍스트로 변환되어 회계 소프트웨어에 복사하여 붙여넣거나 후속 데이터 추출 작업을 수행할 수 있습니다.

의료진 — 스캔한 환자 기록을 디지털화하세요

기존 환자 기록, 진료 의뢰서, 진료 양식 등이 스캔 파일 형태로 제공됩니다. 민감한 개인 의료 정보(PHI)는 클라우드 기반 OCR API에 업로드하기에는 너무 위험합니다. 따라서 로컬에서 OCR을 실행하여 PHI를 의료 기기에 안전하게 보관하면서 기록을 검색할 수 있도록 해야 합니다.

개발자 여러분, 자연어 처리 파이프라인에 텍스트 레이어를 추가하세요.

PDF 문서에서 개체를 추출하고, 콘텐츠를 분류하거나, 요약하는 문서 인텔리전스 파이프라인은 텍스트 레이어가 필요합니다. Tesseract WASM을 사용하여 스캔한 PDF를 로컬에서 OCR 처리하면 검색 가능한 PDF 또는 원시 텍스트 파일을 생성하여 외부 API에 문서 데이터를 노출하지 않고도 NLP 모델에 제공할 수 있습니다.

브라우저 기반 OCR을 사용하는 이유는 무엇일까요?

브라우저에서 실행되는 Tesseract WASM은 연구 수준의 OCR 정확도와 로컬 처리를 통한 개인정보 보호를 결합합니다. 이러한 조합이 제공하는 이점은 다음과 같습니다.

  • 사회보장번호, 계좌번호, 의료 진단서 등 개인 정보가 포함된 스캔 문서는 절대 업로드되지 않으며, 가로채기나 서버 측 데이터 유출 위험이 전혀 없습니다.
  • 100개 이상의 언어 모델이 라틴어, 키릴어, 아랍어, CJK, 데바나가리, 히브리어 등 세계 주요 문자 체계를 하나의 도구에서 지원하며, 추가 언어 구매 비용이 없습니다.
  • 검색 가능한 출력이란 OCR 처리 직후 Ctrl+F, 텍스트 선택, 복사 붙여넣기, 전체 텍스트 색인 생성 등의 기능이 모두 작동함을 의미하며, 스캔한 문서는 마치 디지털 PDF 파일처럼 동작합니다.
  • 원본 페이지 이미지는 그대로 보존됩니다. OCR은 텍스트 레이어를 추가할 뿐, 시각적 콘텐츠를 변경하거나 다시 렌더링하지 않습니다. 스캔한 페이지는 처리 전후에 동일하게 보입니다.
  • WebAssembly의 성능 덕분에 최신 데스크톱 브라우저는 Tesseract를 거의 네이티브 수준으로 실행할 수 있습니다. 일반적인 처리 속도는 최고 정확도 모드에서 페이지당 5~15초입니다.
  • 일일 사용량이나 페이지 수 제한 없이 무료입니다. 500페이지 분량의 스캔 도서나 영수증 한 장을 OCR 처리해도 비용 차이가 없습니다.

LuraPDF는 PDF 파일에서 OCR을 어떻게 실행할까요?

스캔한 PDF 파일을 업로드하면 pdf.js가 각 페이지를 200 DPI(정확도 모드에서는 300 DPI로 설정 가능)의 목표 해상도로 HTML 캔버스에 렌더링합니다. 캔버스 이미지 데이터는 SharedArrayBuffer를 통해 선택한 LSTM 언어 모델이 실행되는 Tesseract.js 웹 워커로 전송됩니다. Tesseract는 레이아웃 분석을 통해 페이지를 텍스트 영역으로 분할한 다음, 각 영역에 LSTM 신경망을 적용하여 문자 시퀀스를 인식합니다. 출력은 인식된 유니코드 문자 시퀀스와 바운딩 박스 좌표(페이지에서 각 단어가 나타나는 픽셀 위치)가 포함된 단어 목록입니다.

Tesseract가 페이지 처리를 완료하면 pdf-lib는 인식된 텍스트와 경계 상자를 사용하여 해당 PDF 페이지에 보이지 않는 텍스트 레이어를 그립니다. 각 단어는 경계 상자 높이에서 계산된 글꼴 크기와 불투명도 0의 `rgb(0, 0, 0)` 텍스트 색상을 사용하여 감지된 좌표에 배치됩니다. 따라서 시각적으로는 보이지 않지만 PDF의 텍스트 콘텐츠 스트림에는 존재합니다. 최신 PDF 뷰어는 이 텍스트 스트림을 검색, 선택 및 사본을 작업에 사용합니다. 결과적으로 원본 스캔과 똑같이 보이는 PDF가 생성되지만 Ctrl+F에 응답하고 텍스트 선택을 지원하며 문서 관리 시스템 및 검색 엔진에서 색인화할 수 있습니다.

OCR PDF: LuraPDF와 다른 대안 프로그램 비교

특징루라PDF서버 기반 OCR(ilovepdf, Smallpdf)어도비 아크로뱃
은둔브라우저 전용 — 파일이 업로드되지 않음스캔한 문서가 원격 서버에 업로드되었습니다.현지 서비스이지만 유료 구독이 필요합니다.
언어 지원Tesseract WASM을 통해 100개 이상의 언어 지원다양함 - 일반적으로 지원하는 언어 수가 더 적음Acrobat: 많지만 다국어 지원 기능은 제한적입니다.
비용평생 무료, 페이지 할당량 없음프리미엄 - 페이지 제한 또는 유료 구독아크로뱃 구독료 $$$
회원가입 필요없음 — 페이지를 열고 OCR을 실행합니다.여러 페이지로 구성된 문서를 보려면 계정이 필요합니다.Adobe ID와 구독이 필요합니다.

OCR 정확도를 극대화하기 위한 팁

스캔 품질은 OCR 정확도에 가장 큰 영향을 미치는 요소입니다. 다음 팁을 활용하면 Tesseract WASM에서 최상의 결과를 얻을 수 있습니다.

  1. Tip 1:

    올바른 언어를 선택하세요. 잘못된 언어 모델을 적용하면 Tesseract의 정확도가 크게 떨어집니다. 확실하지 않은 경우, 가능성이 높은 여러 언어를 선택하면 Tesseract가 그중에서 최적의 언어를 선택합니다.

  2. Tip 2:

    스캔 해상도가 높을수록 OCR 성능이 향상됩니다. 특히 작은 글꼴이나 라틴어가 아닌 문자의 경우, 300 DPI 스캔은 150 DPI 이하 스캔보다 훨씬 높은 정확도를 제공합니다.

  3. Tip 3:

    OCR을 실행하기 전에 자르고 회전하세요. LuraPDF의 PDF 자르기 및 PDF 회전 도구를 사용하여 페이지를 똑바로 정렬하고 여백을 제거한 후 OCR을 실행하십시오. 페이지가 기울어지거나 거꾸로 되어 있으면 인식 품질이 저하됩니다.

  4. Tip 4:

    모바일 기기에서 여러 페이지로 구성된 대용량 문서를 열 때는 데스크톱 브라우저를 사용하는 것이 좋습니다. Tesseract WASM은 프로세서 부하가 높기 때문에 모바일 기기에서는 속도가 느립니다. 태블릿이나 데스크톱용 Chrome 또는 Firefox를 사용하면 최상의 처리 속도를 경험할 수 있습니다.

  5. Tip 5:

    OCR 처리 후, PDF to Text 기능을 사용하여 인식된 전체 텍스트를 일반 파일로 추출하여 워드 프로세서, 번역 도구 또는 데이터 파이프라인에 붙여넣으세요.

  6. Tip 6:

    영어와 아랍어 부분이 혼합된 법률 계약서나 영어 텍스트와 중국어 숫자가 포함된 문서와 같이 여러 언어가 혼합된 문서의 경우, 각 부분을 개별적으로 처리하는 대신 OCR을 실행하기 전에 관련 언어를 모두 선택하십시오.

자주 묻는 질문

PDF 파일을 업로드하지 않고도 무료로 OCR을 실행할 수 있나요?
네. LuraPDF는 Google의 Tesseract OCR 엔진을 웹어셈블리로 포팅한 Tesseract WASM을 사용하며, 이는 브라우저 내에서 완전히 실행됩니다. 파일 업로드, 서버, 계정이 필요하지 않습니다. 스캔한 PDF 파일을 불러오고 언어를 선택한 후 검색 가능한 PDF 파일을 무료로 다운로드하세요.
Tesseract WASM OCR의 정확도는 어느 정도입니까?
Tesseract의 LSTM 엔진은 연구용 수준으로, 깨끗하고 고해상도(300 DPI)의 최신 글꼴 스캔 이미지에서 95~99%의 문자 정확도를 달성합니다. 저해상도 스캔 이미지, 필기체, 특이한 글꼴, 그리고 압축률이 높은 이미지의 경우 정확도가 떨어집니다. 따라서 올바른 언어 모델을 선택하는 것이 정확도에 가장 큰 영향을 미칩니다.
OCR은 어떤 언어를 지원하나요?
영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 아랍어, 중국어 간체, 중국어 번체, 일본어, 한국어, 러시아어, 힌디어, 히브리어, 태국어 등 100개 이상의 언어를 지원합니다. 여러 언어를 선택하여 혼합 언어 문서를 작성할 수 있으며, Tesseract는 선택한 모든 언어를 동시에 사용합니다.
기밀 스캔 문서를 온라인에서 OCR로 인식하는 것이 안전한가요?
네, LuraPDF를 사용하면 파일이 기기를 벗어나지 않기 때문입니다. Tesseract WASM은 브라우저의 샌드박스 웹 워커에서 실행되므로 서버로 데이터가 전송되지 않습니다. 따라서 LuraPDF는 스캔한 세금 신고서, 의료 기록, 법률 서류 및 외부 서비스에 업로드할 수 없는 금융 문서의 OCR에 적합한 선택입니다.
브라우저 기반 OCR이 서버 기반 OCR보다 속도가 느린가요?
네, 브라우저 기반 WASM OCR은 서버 측 OCR보다 속도가 느립니다. 최신 클라우드 OCR API가 멀티 GPU 하드웨어에서 실행되기 때문입니다. LuraPDF의 Tesseract WASM은 최신 데스크톱 CPU에서 정확도 모드로 페이지당 처리 시간이 일반적으로 5~15초 정도 소요됩니다. 이는 개인정보 보호를 보장하는 데 있어 감수할 만한 수준입니다. 메모리가 부족한 기기에서 매우 큰 문서를 처리할 경우에는 모바일보다는 데스크톱 브라우저를 사용하는 것이 좋습니다.
OCR 기능이 스캔한 PDF 파일의 모양을 변경하나요?
아니요. 원본 페이지 이미지는 그대로 보존됩니다. OCR은 인식된 문자 위치에 보이지 않는 텍스트 레이어를 추가합니다. 따라서 모든 페이지의 시각적 콘텐츠는 입력 스캔 이미지와 바이트 단위로 완전히 동일합니다. 달라지는 점은 텍스트를 검색, 선택 및 복사할 수 있게 된다는 것입니다.
OCR로 생성된 PDF 파일에 워터마크가 표시되나요?
아니요. LuraPDF는 어떤 출력 파일에도 워터마크, 스탬프 또는 홍보용 오버레이를 추가하지 않습니다. 다운로드하는 검색 가능한 PDF 파일은 보이지 않는 텍스트 레이어만 추가된 깔끔한 문서입니다.
휴대폰으로 PDF 파일을 OCR 처리할 수 있나요?
네, 짧은 문서라면 가능합니다. Tesseract WASM은 연산량이 많습니다. 최신 스마트폰에서 정확도 모드로 10페이지를 스캔하는 데는 보통 1~3분 정도 소요됩니다. 50페이지가 넘는 긴 문서의 경우, 적절한 처리 시간을 위해서는 데스크톱 브라우저 사용을 강력히 권장합니다.
OCR은 원본 페이지 레이아웃을 유지합니까?
예. 페이지 이미지는 다시 렌더링되거나 크기가 조정되지 않습니다. Tesseract의 경계 상자 출력값을 사용하여 원본 이미지 위에 문자 단위로 정확한 좌표에 텍스트 레이어를 배치합니다. 열, 표, 머리글, 각주 및 다단 레이아웃이 인식되어 텍스트 레이어는 원래의 시각적 구조를 따릅니다.
여러 언어로 된 텍스트가 포함된 다국어 PDF 파일을 OCR로 인식할 수 있나요?
네. OCR을 실행하기 전에 문서에 포함된 모든 언어를 선택하세요. 예를 들어 영어와 아랍어 부분이 있는 계약서의 경우 영어와 아랍어를 모두 선택해야 합니다. Tesseract는 선택된 모든 언어 모델을 동시에 적용하고 투표 방식을 사용하여 각 영역에 가장 적합한 문자 일치 항목을 결정합니다. 이는 각 부분을 개별적으로 처리하는 것보다 더 정확합니다.

PDF 파일을 로컬에서 OCR로 변환 - 100개 이상의 언어 지원, 검색 가능한 출력, 무료

스캔한 PDF 파일을 위의 업로드 영역에 드래그 앤 드롭하고 문서 언어를 선택하면 Tesseract WASM이 모든 페이지를 검색 가능하게 만들어 줍니다. 이 모든 과정은 브라우저에서 바로 완료됩니다. 업로드, 서버, 계정, 워터마크, 페이지 할당량 제한이 없습니다. 스캔한 세금 서류, 법률 문서, 의료 기록, 보관 자료는 선택하는 순간부터 검색 가능한 PDF 파일이 다운로드 폴더에 저장될 때까지 기기에 그대로 보관됩니다. OCR 처리 후, PDF to Text 도구를 사용하여 전체 텍스트를 추출하고, Crop PDF 및 Rotate PDF 도구를 사용하여 스캔 파일을 자르고 거나 회전하거나, Annotate PDF 도구를 사용하여 새로 검색 가능한 페이지에 주석을 달 수 있습니다.