PDA

Visualizza versione completa : OCR, Libre office e trattini di accapo



iaia
09-11-13, 16: 46
Acquisendo un testo con scanner e OCR ci sono delle parole che in originale sono suddivise ma nel testo acquisito non necessitano di esserlo perché l'impaginazione è diversa.
In Libre office i trattini di a capo restano evidenziati in grigio.
So che esiste un modo per eliminarli in automatico ma non lo ricordo. Non posso fare il trova e sostituisci perché non vengono riconosciuti.
Mi ricordate come si fa?
Grazie.
Allego esempio.
2687

Andy86
09-11-13, 17: 08
:bai

Quei trattini probabilmente non sono trattini normali, per cui per il trova/sostituisci non corrispondono al trattino normale.

In questi casi la prima cosa a cui penso è copia/incollare il carattere misterioso nel trova/sostituisci, così lo riconosce di sicuro.

Siccome è evidenziato in grigio potrebbe essere il trattino di unione, che vedo sotto il menù inserisci, ma non ho mai cercato cosa vuol dire, mi devo aggiornare. :ehmm

iaia
09-11-13, 18: 09
Certo Andy, ho copiato e incollato il trattino che nel testo vedi evidenziato in grigio ma ugualmente dice che nella pagina non c'è.
Corrisponde al trattino di a capo nel testo stampato originale.

Andy86
09-11-13, 20: 30
:m:

Potresti incollarmi un pezzettino di testo, oppure allegarlo, anziché mettere lo screen?
Così mi è più facile capirci qualcosa.

:thx

LadyHawke
09-11-13, 21: 19
Iaia, sarebbe semplicissimo se tu usassi OpenOffice, c'è un vecchio plugin che fra le altre cose toglie tutti quei trattini in un click, si chiama MyBookCleaner (http://lukesblog.it/wp-content/plugins/cimy-counter/cc_redirect.php?cc=MyBookCleaner&fn=http://dl.dropbox.com/u/14712909/macro/MyBookCleaner/MyBookCleaner.oxt) e anch'io lo uso sempre quando mi faccio gli ebook.

:bai

iaia
09-11-13, 21: 21
Certo! Però se lo apri con Word i trattini non si vedono, per quello ho messo l'immagine.

LE BUGEY. — Mais pour lire et écrire ?
Mme V.-T. — Moi, j'aimais beaucoup lire, j'allais à l'épi*cerie de Saint-Germain où je trouvais des prospectus... il y avait toujours un journal quelque part... je lisais toutes les publicités écrites sur des cartons... plus tard, quand j'allais à la messe, je prenais un livre de chant. Je me suis aussi fait prêter par une petite copine ses livres de classe... parce que, en classe, je n'ai jamais pu y aller en France... que c'est mon grand regret de toute ma vie.
Puis, oui, pour écrire... pour écrire ça a été plus diffi*cile... Hou, là là ! tous les « h » qu'il faut rajouter ! et les « x »... et comme, pour écrire « pharmacie », qu'il faut un « ph » que j'y ai jamais rien compris (Silence... Rire). Il y a un mot que j'ai mis très longtemps à m'en débarrasser, c'est le mot italien « perché » qui veut dire « pourquoi » ou « parce que ». Je l'écrivais toujours à la place de « pour*quoi » et les gens me demandaient ce que venait faire, là au milieu, ce « perché » (Rire)... que, eux, disaient en français.


Mon frère faisait comme moi pour apprendre, et encore mieux.


Prova a vedere se incollandolo in un editor (io uso libre office) compaiono i trattini evidenziati dal grigio. Altrimenti dimmi come ti allego il file .odt
In Word NON lo fa.
Grazie

---------- Post Unito alle 21: 25 ----------


Iaia, sarebbe semplicissimo se tu usassi OpenOffice, c'è un vecchio plugin che fra le altre cose toglie tutti quei trattini in un click, si chiama MyBookCleaner (http://lukesblog.it/wp-content/plugins/cimy-counter/cc_redirect.php?cc=MyBookCleaner&fn=http://dl.dropbox.com/u/14712909/macro/MyBookCleaner/MyBookCleaner.oxt) e anch'io lo uso sempre quando mi faccio gli ebook.

:bai

Scusa, stavo scrivendo l'altra risposta.
Proverò con Open office. Ai tempi mi avevano detto che Libre office era meglio così ho usato sempre quello.

Con il mio scanner precedente si potevano scegliere diverse opzioni e c'era anche il modo per evitare che acquisisse i numeri di pagina, le intestazioni e i trattini. Questo non ha opzioni.

Ero sicura che ci fosse un modo, un comando, un'opzione... senza usare plugin

LadyHawke
09-11-13, 21: 29
Il plugin va bene anche LibreOffice, è lo stesso.
Una volta scaricato basta che fai doppio click e si installa da solo mettendo un'icona nella barra di LibreOffice

:bai

EDIT

http://images.collectiontricks.it/images/42589420509077159221.png (http://images.collectiontricks.it/)

Andy86
09-11-13, 21: 40
:bai

Anch'io uso libreoffice che trovo molto più curato e veloce di openoffice liscio. Una versione migliorata.

Iaia fammi sapere se va bene il plug-in.

I trattini non te li sei portati dietro copiando il testo sul forum, quindi anche quella può essere una possibile soluzione, un po' come quando si pulisce il testo web incollandolo in un editor liscio, tipo notepad, e poi lo risposta sull'elaboratore di testi.

iaia
09-11-13, 21: 42
Grazie, adesso lo provo.
Ora non uso spesso queste funzioni, solo adesso perché devo fare questa traduzione, ma è cosa occasionale.
Tempo fa correggevo i libri in formato testo per i ciechi e mi ero fatta una macro eccezionale (in word) per correggere tutte queste cose.
Purtroppo non sono mai riuscita ad ottenere gli stessi risultati con libre office. Poi ho smesso di correggere i libri per i ciechi e pace.

---------- Post Unito alle 21: 50 ----------


:bai

Anch'io uso libreoffice che trovo molto più curato e veloce di openoffice liscio. Una versione migliorata.

Iaia fammi sapere se va bene il plug-in.

I trattini non te li sei portati dietro copiando il testo sul forum, quindi anche quella può essere una possibile soluzione, un po' come quando si pulisce il testo web incollandolo in un editor liscio, tipo notepad, e poi lo risposta sull'elaboratore di testi.

Andy, tu hai copiato e incollato il testo in libre office? E i trattini sono scomparsi?
Perché se lo faccio io i trattini si trasformano in asterischi. :ghgh

Il plugin non lo so usare, quanto sono ignorante.

Andy86
09-11-13, 22: 01
Esatto. Ho copiato il tuo testo e non mi sono accorto che sono apparsi gli asterischi, talmente pochi ce n'erano...

Però sei a cavallo lo stesso, perché gli asterischi vengono riconosciuti dal cerca/sostituisci, quindi abbiamo trovato un workaround. :ghgh

iaia
09-11-13, 22: 02
Fatto.
Con un po' di confusione, perché è saltato fuori l'editor, che non si voleva chiudere.
Poi un po' rischioso sostituire i trattini con un 7 prima di eliminarli, non è che poi elimina anche eventuali 7 presenti? non so, ho fatto solo una prova.
Poi...cambia la formattazione delle frasi dove sostituisce il trattino.

Diciamo che per un testo che non necessita di formattazione, tipo i famosi libri per i ciechi si può usare, per il resto ci dovrò studiare un po' prima di affidargli un documento importante.

Grazie, è molto simile alla mia vecchia macro. :hap

---------- Post Unito alle 22: 03 ----------


Esatto. Ho copiato il tuo testo e non mi sono accorto che sono apparsi gli asterischi, talmente pochi ce n'erano...

Però sei a cavallo lo stesso, perché gli asterischi vengono riconosciuti dal cerca/sostituisci, quindi abbiamo trovato un workaround. :ghgh

Sì!!! Abbiamo annientato i trattini malefici!
Tu hai provato il plugin?

Andy86
09-11-13, 22: 17
Volevo provare, ma già s'incanta in fase d'installazione. :boh

iaia
09-11-13, 22: 19
Allora mi consolo! A me si è installato bene ma poi ho dovuto provare diverse volte prima che si avviasse.

LadyHawke
09-11-13, 22: 29
Vi da problemi? :ohoh
Io lo uso regolarmente su LibreOffice 4.1.3.2, OpenOffice 3.4 e anche 4.0...

:wall

Andy86
09-11-13, 22: 39
Casomai la 4.1.2.3... devo avere qualche problema io, perché ho provato anche perfectepub (http://lukesblog.it/ebooks/ebook-tools/perfectepub/) e fa uguale, quindi mi sa che lo fa con tutte, prossimamente indagherò più a fondo... magari mi manca qualche dipendenza.

iaia
09-11-13, 23: 02
Io libre 3.4.4
Molto grave?

LadyHawke
10-11-13, 00: 58
Casomai la 4.1.2.3...

Sono su Mac, probabilmente le versioni non sono esattamente allineate, io ho proprio la 4.1.3.2. :sisi


@ iaia
Direi di no, perchè come dicevo il plugin è obsoleto ed è stato inglobato dal perfectepub citato da Andy, più performante (ma per i trattini mi trovo meglio con questo), e quindi al contrario avrebbe dovuto essere più compatibile con una versione di LO più datata.
Comunque prova ad aggiornare la tua versione di LibrOffice: a livello generale, male non fa.


:bai

iaia
10-11-13, 02: 48
Niente, impossibile installare lo farò alla prossima versione.
Grazie e buonanotte!

Kirk78
17-11-13, 18: 05
Interessantissima discussione! Grazie delle dritte sui plugin. Io utilizzo OpenOffice 4 e mi ci trovo bene mentre libre mi ha dato sempre qualche problema :boh ma tu iaia che OCR utilizzi? Perché il mio che era antidiluviano (che devo dire non uso da anni) ma mi sbagliava tante di quelle parole che ho desisitito dall'uso. E poi erano testi in inglese mica cinese!

:bai

Andy86
17-11-13, 18: 34
:bai

Io uso tesseract, ma è per terminale. Mi pare che la versione per windows, dotata di gui, si chiami freeocr.

iaia
17-11-13, 18: 53
Ho scoperto in quell'occasione di avere abbyy fine reader sprint 9 già installato sul pc, non so se di fabbrica o se arrivato magari con la stampante, il fatto è che non lo sapevo o non me ne ricordavo.
Non usavo un ocr da un'infinità di tempo. Non sapendo di averlo avevo cercato in rete un programma.
Adesso non ricordo quale, ma non funzionava.
Trovato questo l'ho usato in francese e mi pare che non abbia fatto nemmeno un errore.
Ha funzionato benissimo nonostante la formattazione.
Con la versione precedente di fine reader, sul portatile vecchio (forse la 6) facevo in contemporanea scansione e conversione e per avere pochi errori dovevo usare delle impostazioni particolari durante la scansione.
Gli errori non erano tanti ma c'erano, qui quelli che ho trovato c'erano anche nel testo. :sisi

iaia
22-11-13, 16: 26
Se vi interessa oggi su Giveaway of the Day in Italiano. Today: PDF OCR 4.3.1 - PDF OCR è basato sulla tecnologia OCR per convertire i documenti scansionati e i libri in PDF in testi elettronici ... (http://it.giveawayoftheday.com/)
propongono
PDF OCR 4.3.1

Non chiedetemi se funziona perchè non l'ho provato.

Kirk78
22-11-13, 16: 42
:bai

Io uso tesseract, ma è per terminale. Mi pare che la versione per windows, dotata di gui, si chiami freeocr.

Grazie dell'informazione! Ma questo
http://a.fsdn.com/con/app/proj/gimagereader/screenshots/256348.jpg
non è una GUI per tesseract?

@iaia Abbyy se non erro è un prodotto commerciale. Per quanto riguarda i giveaway, grazie :fleurs, non ho capito se lo devo per forza installare oggi (come era prima) oppure no :boh
Se si, non voglio incasinare il registro per provare un prodotto.

:bai


Termini e condizioni

Attenzione il software che hai scaricato e installato durante il periodo di Giveaway ha le seguenti importanti limitazioni:
supporto tecnico non compreso
aggiornamenti non compresi
Utilizzo privato

Andy86
22-11-13, 17: 16
non è una GUI per tesseract?

Può essere. Guarda in help - about/informazioni, c'è sicuramente scritto. :sisi

Kirk78
22-11-13, 17: 23
Può essere. Guarda in help - about/informazioni, c'è sicuramente scritto. :sisi
Lo dicevo sopratutto per te, comunque non l'ho installato (perché non ho installato tesseract :ghgh) ma facendo proprietà c'è scritto

A tesseract OCR front-end

:bai

iaia
22-11-13, 17: 46
@iaia Abbyy se non erro è un prodotto commerciale. Per quanto riguarda i giveaway, grazie :fleurs, non ho capito se lo devo per forza installare oggi (come era prima) oppure no :boh
Se si, non voglio incasinare il registro per provare un prodotto.

:bai

Sì, Abbyy è commerciale. Era abbinato al pc o allo scanner, non ricordo!
Ma visto che c'è e funziona non ho motivo di mettere dell'altro.

Sì, il giveaway è da installare entro le 8 di domani mattina...

Andy86
22-11-13, 17: 51
Lo dicevo sopratutto per te

Grazie. Magari lo proverò, sicuramente non l'avevo visto perché è gtk. Comunque con il terminale mi ci trovo bene. :bgg2

Kirk78
22-11-13, 18: 23
Potresti provare YAGF
http://symmetrica.net/cuneiform-linux/orcettings.png
ma se sei abituato con il terminale meglio così. E' anche per condividere le info che ho trovato. Pare ce ne siano anche altre come OCRFeeder... mi state tentando a "installare" un OCR, portable si intende, come tesseract :sisi

:bai

Andy86
27-11-13, 21: 32
:bai


Sono su Mac, probabilmente le versioni non sono esattamente allineate, io ho proprio la 4.1.3.2. :sisi

Mi ero dimenticato di dire che dopo l'arrivo della 4.1.3.2 anche nei repo di chackra il problema del plugin si è risolto.
Ora s'installa tutto perfettamente.