Estrarre testo da immagini o da PDF scannerizzato

Commenti: 4

Le immagini (in formato jpeg, jpg, bmp, gif, png, ecc…) e i PDF scannerizzati hanno una cosa in comune: non consentono di selezionare, copiare ed estrarre testo presente in essi. Se hai quindi un documento scannerizzato o un’immagine contenente del testo molto importante che devi modificare o copiare, l’unica soluzione possibile è quella di far uso di un programma OCR.

Un programma OCR è uno strumento che possiede al suo interno la tecnologia di riconscimento ottico dei caratteri, tecnologia molto utile per riconoscere ed estrarre testo da immagini o PDF scannerizzato. Uno dei migliori programmi in tale ambito è sicuramente PDFelement, che abbiamo già visto all’opera nella guida su come estrarre testo da documento PDF.

PDFelement è compatibile sia con computer Windows che Mac ed è disponibile in una versione “professional” che include la tecnologia OCR utile proprio a estrarre testo da immagini o documenti scansionati. Vediamo qui di seguito come funziona e come è semplice estrapolare testo da immagini.

Come Estrarre Testo da Immagini o PDF Scannerizzato

Passo 1. Scarica e installa PDFelement sul tuo computer

Ecco i link da cui potrai scaricare la versione demo completamente gratuita:

download download_button_mac

Dopo l’installazione e l’avvio del programma vedrai la seguente schermata iniziale:

pdfelement

Passo 2. Importa l’immagine o il PDF scannerizzato

Clicca in basso a sinistra su APRI FILE… e seleziona il file immagine o il pdf scannerizzato. Per i nostri test e per questo articolo abbiamo appositamente creato un immagine JPEG (tramite “Paint”) e messo un po’ di testo al suo interno. Una volta caricata tale immagine nel programma, ecco cosa è apparso:

Passo 3. Esegui funzione OCR

Come si nota dalla figura sopra, il programma in automatico rileva che si tratta di un immagine e ti chiede se vuoi eseguire l’OCR per poter riconoscere il testo presente nell’immagine. Cliccando su ESEGUI OCR dovrai prima selezionare la lingua del testo (es. Italiano) e poi avviare la scansione. Durante la scansione apparirà tale pop-up che ti avvisa di attendere fino al termine della procedura:

Passo 4. Estrazione del testo

Dopo l’OCR magicamente tutto il testo contenuto nell’immagine (o nel PDF scannerizzato) risulterà “editabile“. Cioè potrai copiarlo, modificarlo, cancellarlo, evidenziarlo, ecc…

A questo punto potrai salvare il tutto o in formato PDF oppure in formato Word, Excel, PowerPoint (dalla sezione HOME ti basterà cliccare sull’icona del formato di uscita desiderato).

Soluzione online: ImageToText Converter

Se non vuoi scaricare alcun software sul tuo PC per estrarre testo da immagini, o estrarre testo da PDF scansionato, allora potresti provare il servizio (gratuito) offerto da ImageToText. Per iniziare occorre aprire il tuo browser e accedere al sito ufficiale di ImageToText.

Da notare che questo servizio funziona solo con le immagini e non con i documenti PDF scannerizzati. Comunque una volta aperta la pagina principale del servizio dovrai premere sul pulsante Browse e poi scegliere l’immagine (o le immagini) dal tuo computer.

Una volta che l’immagine viene caricata, il sistema automaticamente utilizzerà la tecnologia OCR per convertire quella immagine in testo. Il risultato finale sarà una finestra con il testo estrapolato dall’immagine, come puoi vedere dalla figura sottostante.

Clicca su Copy to Clipboard per copiare il testo oppure premi su Save as Document per salvare il tutto in un file Word (.doc)