logo

Extrageți text din fișierul PDF folosind Python

Cu toții trebuie să fiți familiarizați cu ce sunt PDF-urile. De fapt, ele sunt una dintre cele mai importante și mai utilizate medii digitale. PDF înseamnă Format de document portabil . Folosește .pdf extensie. Este folosit pentru a prezenta și a schimba documente în mod fiabil, independent de software, hardware sau sistemul de operare.

Vom extrage text din fișiere pdf folosind două biblioteci Python, pypdf și PyMuPDF , în acest articol.



Extragerea textului dintr-un fișier PDF folosind biblioteca pypdf.

Pachetul Python pypdf poate fi folosit pentru a realiza ceea ce ne dorim (extragerea textului), deși poate face mai mult decât ne trebuie. Acest pachet poate fi folosit și pentru a genera, decripta și îmbina fișiere PDF. Notă: Pentru mai multe informații, consultați Lucrul cu fișiere PDF în Python

Instalare

Pentru a instala acest pachet, tastați comanda de mai jos în terminal.

pip install pypdf>

Exemplu: Introducere PDF: extract-pdf-text-python



Python3






limbajul mașinii

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Ieșire:

extract-pdf-python

Să încercăm să înțelegem codul de mai sus în bucăți:

reader = PdfReader('example.pdf')>
  • Am creat un obiect de PdfReader clasa de la pypdf modul.
  • The PdfReader clasa preia un argument pozițional necesar al căii către fișierul pdf.
print(len(reader.pages))>
  • pagini proprietatea oferă o listă de PageObjects . Deci, aici putem folosi cel încorporat numai() funcția python pentru a obține numărul de pagini din fișierul pdf.
page = reader.pages[0]>
  • Acum, ca cititor.pagini este o listă a PageObjects , putem obține un specific Pagină a pdf-ului atingând indexul paginii. În lista Python, indexarea începe de la 0, deci reader.pages[0] ne oferă prima pagină a fișierului pdf.
text = page.extract_text() print(text)>
  • Obiectul pagină are funcție extract_text() pentru a extrage text din pagina pdf.

Extragerea textului dintr-un fișier PDF utilizând biblioteca PyMuPDF.

PyMuPDF este o bibliotecă Python care acceptă formate de fișiere precum XPS, PDF, CBR și CBZ. Dar pentru moment, în acest articol, ne vom concentra pe fișierele PDF (Portable Document Format).

Instalare

pip install pymupdf pip install fitz>

Pentru a extrage textul din pdf, trebuie să parcurgem următorii pași:

  1. Importul bibliotecii
  2. Document de deschidere
  3. Extragerea textului

Notă: Folosim sample.pdf aici; pentru a obține pdf-ul, folosiți linkul de mai jos.

sample.pdf – Legătură

șir în format java

1. Importul bibliotecii

Python3




import> fitz>

>

>

2. Document de deschidere

Python3


Linux schimba numele directorului



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Aici am creat un obiect numit doc , iar numele fișierului ar trebui să fie un șir Python.

3. Extragerea textului

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

ouă de Paște în Android

>

Aici, am repetat pagini în pdf și am folosit get_text() metoda de a extrage fiecare pagină din fișier.

Tot Codul pentru a extrage textul

Python3




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

șterge ultimul comit git

>

>

Ieșire:

Concluzie

Am văzut două biblioteci Python, pypdf și PyMuPDF , care poate extrage text dintr-un fișier PDF. Comentați biblioteca dvs. preferată din cele două biblioteci de mai sus.