Cu toții trebuie să fiți familiarizați cu ce sunt PDF-urile. De fapt, ele sunt una dintre cele mai importante și mai utilizate medii digitale. PDF înseamnă Format de document portabil . Folosește .pdf extensie. Este folosit pentru a prezenta și a schimba documente în mod fiabil, independent de software, hardware sau sistemul de operare.
Vom extrage text din fișiere pdf folosind două biblioteci Python, pypdf și PyMuPDF , în acest articol.
Extragerea textului dintr-un fișier PDF folosind biblioteca pypdf.
Pachetul Python pypdf poate fi folosit pentru a realiza ceea ce ne dorim (extragerea textului), deși poate face mai mult decât ne trebuie. Acest pachet poate fi folosit și pentru a genera, decripta și îmbina fișiere PDF. Notă: Pentru mai multe informații, consultați Lucrul cu fișiere PDF în Python
Instalare
Pentru a instala acest pachet, tastați comanda de mai jos în terminal.
pip install pypdf>
Exemplu: Introducere PDF: 
Python3
limbajul mașinii
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Ieșire:
Să încercăm să înțelegem codul de mai sus în bucăți:
reader = PdfReader('example.pdf')> - Am creat un obiect de PdfReader clasa de la pypdf modul.
- The PdfReader clasa preia un argument pozițional necesar al căii către fișierul pdf.
print(len(reader.pages))>
- pagini proprietatea oferă o listă de PageObjects . Deci, aici putem folosi cel încorporat numai() funcția python pentru a obține numărul de pagini din fișierul pdf.
page = reader.pages[0]>
- Acum, ca cititor.pagini este o listă a PageObjects , putem obține un specific Pagină a pdf-ului atingând indexul paginii. În lista Python, indexarea începe de la 0, deci reader.pages[0] ne oferă prima pagină a fișierului pdf.
text = page.extract_text() print(text)>
- Obiectul pagină are funcție extract_text() pentru a extrage text din pagina pdf.
Extragerea textului dintr-un fișier PDF utilizând biblioteca PyMuPDF.
PyMuPDF este o bibliotecă Python care acceptă formate de fișiere precum XPS, PDF, CBR și CBZ. Dar pentru moment, în acest articol, ne vom concentra pe fișierele PDF (Portable Document Format).
Instalare
pip install pymupdf pip install fitz>
Pentru a extrage textul din pdf, trebuie să parcurgem următorii pași:
- Importul bibliotecii
- Document de deschidere
- Extragerea textului
Notă: Folosim sample.pdf aici; pentru a obține pdf-ul, folosiți linkul de mai jos.
sample.pdf – Legătură
șir în format java
1. Importul bibliotecii
Python3
import> fitz> |
>
>
2. Document de deschidere
Python3
Linux schimba numele directorului
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Aici am creat un obiect numit doc , iar numele fișierului ar trebui să fie un șir Python.
3. Extragerea textului
Python3
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
ouă de Paște în Android
>
Aici, am repetat pagini în pdf și am folosit get_text() metoda de a extrage fiecare pagină din fișier.
Tot Codul pentru a extrage textul
Python3
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
șterge ultimul comit git
>
>
Ieșire:

Concluzie
Am văzut două biblioteci Python, pypdf și PyMuPDF , care poate extrage text dintr-un fișier PDF. Comentați biblioteca dvs. preferată din cele două biblioteci de mai sus.