OCR per rinominare file PDF in base al contenuto [DOWNLOAD]

Qualche settimana fa un mio amico mi ha chiesto se fosse possibile creare un software che gli permettesse a lavoro di rinominare automaticamente un file pdf prendendo il contenuto dal file stesso.

Ci ho pensato un po’ su e gli ho detto: “Certamente, ci lavoro su!”; ho pensato subito di usare Python perché è super facile e pieno di utili librerie.

Quindi sono passato a capire bene come leggere il file, grazie al sistema OCR, e per Python esistono diverse librerie atte a fare ciò, alla fine ho usato EasyOCR, una libreria molto facile (gioco di parole) da usare ma assolutamente ottima per l’uso che dovevo farci.

Esempio di OCR - Wikipedia
Esempio di OCR – Fonte: Wikipedia

L’unico “problema” di questa libreria e di altre viste è che l’OCR lo fanno esclusivamente su file immagini (jpg, png, ecc), ma a me serviva sul file PDF.

Quindi ho pensato di convertire la pagina da scansionare in jpg, e ho scelto di usare la libreria PyMuPDF, in pratica prende la pagina che poi andrà scansionata, e la converte in jpg, il file è un file temporaneo in una cartella temporanea.

Poi, per ottimizzare al meglio la lettura OCR, ho pensato di implementare il ritaglio delle foto, così da tagliare i vari pezzetti della foto con i testi da scansionare (così da non fargli leggere tutta la pagina, magari anche inutilmente, ma far leggere solo le parti interessate). Quindi ho usato la libreria Pillow (PIL).

Infine, fa la scansione e rinomina il file e nel caso lo sposta.

Ok tutto bello, ma come gli faccio a dire cosa tagliare, dove prendere i PDF ecc?

Ho deciso di implementare il tutto con un file .json, chiamato (con molta fantasia) config.json. Modificando questo file, è possibile dare istruzione al software su come lavorare. Un esempio di un file di configurazione è possibile trovarlo qui: https://github.com/Kekko01/OCR-to-rename-file/blob/main/config-EDITME.json

Come posso scaricare questo software?

È molto semplice, perché l’ho reso open source e gratuito, puoi scaricarlo tranquillamente da Github, cliccando sul pulsante qui in basso. Inoltre, come richiesto dal mio amico, ho creato anche una versione per Windows .exe che comprende tutto il programma e le librerie, quindi non dovrete per forza avere Python e le librerie se scaricate la versione .exe.

Logo GitHub

Per tutte le altre informazioni, potete tranquillamente leggere il file README all’interno del repository.

Vi sembra utile questo software, lo userete? Fatemelo sapere con un commento qui sotto!

Se volete continuare a seguirmi potete iscrivervi al mio canale YouTube: http://bit.ly/SubKekko01YT , se invece volete iscrivervi al canale Telegram: https://t.me/Kekko01Channel e per Facebook: https://www.facebook.com/kekko001 e GitHub: http://bit.ly/Kekko01-Github e visualizza gli articoli in cui parlo dei miei progetti.

5,0 / 5
Grazie per aver votato!
Verificato da MonsterInsights