Pagina 2 di 3 PrimoPrimo 123 UltimoUltimo
Mostra risultati da 11 a 20 di 21

Discussione: Estrarre automaticamente testo da pi files HTML

  1. #11
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    E se gli creassimo un .command riuscirebbe a dargli in parametro file e cartelle in modo semplice senza usare il terminale?
    In questo caso s pu fare anche in bash basandosi su /System/Library/Printers/Libraries/convert. In altri casi spesso pi veloce affidarsi ad Automator/Apple Script. Tipo quando si devono "comandare" le applicazioni.

    @lady
    Non sono esperto in Apple Script, prova con questo per: crea pdf da praticamente ogni file di testo. Non accetta la cartella, ma puoi trascinarci sopra tutti i file direttamente. Verranno creati dei file pdf corrispettivi. Ad esempio: il file testo1.txt diventer un pdf di nome testo1.pdf.

    https://www.dropbox.com/sh/p0duwwz7ytufq7a/NhrwVzcuwO

    Purtroppo non mi funziona: trascino la cartella e non succede nulla.
    Perch non erano appunto pagine web .

    Rispondi citando Rispondi citando

  2. # ADS
    Google Adsense Circuito Adsense
    Data registrazione
    da sempre
    Località
    mondo google
    Messaggi
    molti
     
  3. #12
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,798
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Citazione Originariamente scritto da K.a.o.s. Vedi messaggio
    Ovviamente per quello che chiedi non proprio facilissimo
    E che gusto c' a chiedere cose facili? Io vi voglio attenti
    Comunque, o il mio Lion stregato o qualcosa non va, perch pure questa app non produce niente, n dalle pagine HTML n da un semplice RTF: st li a saltellare sulla dock e basta

    Comunque voglio avere il controllo del PDF che produco (il testo passer da OpenOffice per modifiche e aggiustamenti), quindi non st cercando un convertitore diretto ed importante che di XX files ne venga prodotto automaticamente solo uno, altrimenti mi diventa un lavoro bestiale
    Prover a cercare anche qualcosa per windows anche se avrei preferito lavorare tutto su mac

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  4. #13
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,016
    Grazie dati 
    4,803
    Grazie ricevuti 
    2,589
    Ringraziato in
    2,188 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Io vi voglio attenti
    Se conoscessi l'applescript, tempo permettendo, te lo avrei scritto io, bello che personalizzato.
    Purtroppo mi posso offrire solo per il bash o per il java (con il quale, per, non ci fai uno script, ma proprio un'apps in .jar, che comunque portabile.).
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  5. #14
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Comunque, o il mio Lion stregato o qualcosa non va, perch pure questa app non produce niente, n dalle pagine HTML n da un semplice RTF: st li a saltellare sulla dock e basta
    Ti posso assicurare che l'ho testata e la cosa strana.
    importante che di XX files ne venga prodotto automaticamente solo uno, altrimenti mi diventa un lavoro bestiale
    Li puoi unire dopo tranquillamente con varie cose.

    Comunque io precisamente non ho ancora capito. Hai degli html che devono diventare un unico ma devono prima essere modificati .
    Purtroppo mi posso offrire solo per il bash o per il java (con il quale, per, non ci fai uno script, ma proprio un'apps in .jar, che comunque portabile.).

    Vai pure se hai voglia , ma secondo me non un lavoro tanto veloce. Il problema sarebbe poi magari farlo andare anche su Mac Os X, ma al massimo si installa il necessario.

    PS: Io calibre quando l'ho usato per convertire da mobi a epub ha funzionato bene :)

    Rispondi citando Rispondi citando

  6. #15
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,798
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Ok riepilogo : ho una serie di HTML e XHTML (epub spacchettizzati) dei quali voglio unificare il testo in un solo file da aprire con Openoffice, dividere in capitoli, aggiustare di formattazione se occorre, aggiungere eventuali copertine e trame (sono pignola quando mi intesto di fare le cose per benino) e convertire sempre con OO in PDF

    Le conversioni con Calibre non vengono sempre bene e l'epub quello pi difficoltoso da convertire: usavo uno script di Automator per convertire in RTF i brutti PDF creati dagli epub ma mi sono accorta che lascia degli "a capo" selvaggi e il testo dovrebbe comunque essere riaggiustato a mano, per cui ho pensato che la cosa migliore sarebbe stata poter prendere il testo ottimizzato dell'epub e, se l'estrazione fosse stata semplice, avrei avuto un file gi praticamente perfetto sul quale fare solo poche modifiche.

    Fra l'altro vorrei anche "riaggiustare" i primi epub che mi ero fatta (qualche decina) perch non essendo pratica non avevo considerato alcune cose, e alla fine, sempre se avessi trovato un modo veloce per estrarre il testo, avrei fatto prima a rifarli completamente che modificarli con Sigil

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  7. #16
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Prova a vedere se basta qualcosa tipo questo da terminale:

    Codice:
    Only registered members can view code.
    Crea un file di nome libro.txt che puoi aprire tranquillamente dopo.
    Ultima modifica di K.a.o.s.; 11-07-12 alle 19: 40.

    Rispondi citando Rispondi citando

  8. #17
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,798
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Questo sembrerebbe funzionare : per una conferma definitiva dovr fare una conversione e leggere un libro per verificare che non tralasci qualcosa come lo script di cui parlavo prima.
    Inserisce diverse righe vuote non rilevate dalle impostazioni del paragrafo ma con un plugin per OO le posso sistemare in un attimo (con le espressioni regolari non so ancora lavorare granch ma dovr cercarmi una guida )

    Non chiedo spiegazioni sul contenuto : il mio feeling con il codice inizi inserendo paginate di DOS sul C64 per far saltare una pallina e fin cercando nel listato quella virgola e/o spazio omessi che me la tenevano l incollata come la Linea Lagostina

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  9. #18
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Non chiedo spiegazioni sul contenuto
    In pratica semplicemente entra nella cartella, legge tutti i file *.*html, poi passa il contenuto a sed che elimina i tag html. Poi passo il tutto a grep -v che elimina le righe inserite, in particolare per evitare che textedit faccia casino aprendolo pensando che siano pagine web .

    Il tutto aggiunto al file libro.txt .
    Inserisce diverse righe vuote non rilevate dalle impostazioni del paragrafo ma con un plugin per OO le posso sistemare in un attimo
    Al massimo si pu cercare di sistemare un po' il comando in modo che le elimini .

    Rispondi citando Rispondi citando

  10. #19
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,016
    Grazie dati 
    4,803
    Grazie ricevuti 
    2,589
    Ringraziato in
    2,188 post

    Riferimento: Estrarre automaticamente testo da pi files HTML



    (con le espressioni regolari non so ancora lavorare granch ma dovr cercarmi una guida )
    L'espressione regolare per individuare le righe vuote con openoffice ^$, per riconosce solo i cf+cr (stile windows), quindi se per caso sono solo cf o solo cr dovrai prima convertirle con qualcosa d'altro.

    Oppure eventualmente proviamo a far fare il lavoro a sed...


    Codice:
    Only registered members can view code.
    Vedi se con questa piccola aggiunta ti va bene. Occhio che cos le righe vuote le rimuove tutte, ma proprio tutte.
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  11. #20
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,798
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    No, invece non le toglie proprio tutte, ne lascia una ad intervalli quasi regolari per cui mi fa pensare ad una originaria interruzione di pagina o numero di pagina che all'origine avevo tolto, probabilmente causando un doppio "a capo". Quindi se questo /^$/ indica l'operazione su un "a capo", dove ne trova due, uno probabilmente lo lascia ; comunque non preoccuparti perch come dicevo, ho un plugin che elimina le righe vuote.

    Vi ringrazio molto per la disponibilit e per la vostra competenza

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

Tags per questo thread

Segnalibri

Regole di scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
Cookies:direttiva 2009/136/CE (E-Privacy)

Il sito utilizza cookies propri e di terze parti per maggiori informazioni faq - Termini di servizio - Cookies
Il forum non puo' funzionare senza l'uso dei cookies pertanto l'uso della community vincolato dall'accettazione degli stessi, nel caso contrario siete pregati di lasciare la community, proseguendo la navigazione acconsenti alluso dei cookie