Pagina 2 di 3 PrimoPrimo 123 UltimoUltimo
Mostra risultati da 11 a 20 di 21

Discussione: Estrarre automaticamente testo da più files HTML

  1. #11
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    E se gli creassimo un .command riuscirebbe a dargli in parametro file e cartelle in modo semplice senza usare il terminale?
    In questo caso sì può fare anche in bash basandosi su /System/Library/Printers/Libraries/convert. In altri casi spesso è più veloce affidarsi ad Automator/Apple Script. Tipo quando si devono "comandare" le applicazioni.

    @lady
    Non sono esperto in Apple Script, prova con questo però: crea pdf da praticamente ogni file di testo. Non accetta la cartella, ma puoi trascinarci sopra tutti i file direttamente. Verranno creati dei file pdf corrispettivi. Ad esempio: il file testo1.txt diventerà un pdf di nome testo1.pdf.

    https://www.dropbox.com/sh/p0duwwz7ytufq7a/NhrwVzcuwO

    Purtroppo non mi funziona: trascino la cartella e non succede nulla.
    Perché non erano appunto pagine web .

    Rispondi citando Rispondi citando

  2. # ADS
    Google Adsense Circuito Adsense
    Data registrazione
    da sempre
    Località
    mondo google
    Messaggi
    molti
     
  3. #12
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,326
    Grazie dati 
    341
    Grazie ricevuti 
    1,809
    Ringraziato in
    722 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Citazione Originariamente scritto da K.a.o.s. Vedi messaggio
    Ovviamente però quello che chiedi non è proprio facilissimo
    E che gusto c'è a chiedere cose facili? Io vi voglio attenti
    Comunque, o il mio Lion è stregato o qualcosa non va, perché pure questa app non produce niente, né dalle pagine HTML né da un semplice RTF: stà li a saltellare sulla dock e basta

    Comunque voglio avere il controllo del PDF che produco (il testo passerà da OpenOffice per modifiche e aggiustamenti), quindi non stò cercando un convertitore diretto ed è importante che di XX files ne venga prodotto automaticamente solo uno, altrimenti mi diventa un lavoro bestiale
    Proverò a cercare anche qualcosa per windows anche se avrei preferito lavorare tutto su mac

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  4. #13
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,214
    Grazie dati 
    4,886
    Grazie ricevuti 
    2,675
    Ringraziato in
    2,255 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Io vi voglio attenti
    Se conoscessi l'applescript, tempo permettendo, te lo avrei scritto io, bello che personalizzato.
    Purtroppo mi posso offrire solo per il bash o per il java (con il quale, però, non ci fai uno script, ma proprio un'apps in .jar, che comunque è portabile.).
    «Nessuna quantità di esperimenti potrà dimostrare che ho ragione;
    un unico esperimento potrà dimostrare che ho sbagliato.
    » (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  5. #14
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Comunque, o il mio Lion è stregato o qualcosa non va, perché pure questa app non produce niente, né dalle pagine HTML né da un semplice RTF: stà li a saltellare sulla dock e basta
    Ti posso assicurare che l'ho testata e la cosa è strana.
    è importante che di XX files ne venga prodotto automaticamente solo uno, altrimenti mi diventa un lavoro bestiale
    Li puoi unire dopo tranquillamente con varie cose.

    Comunque io precisamente non ho ancora capito. Hai degli html che devono diventare un unico ma devono prima essere modificati .
    Purtroppo mi posso offrire solo per il bash o per il java (con il quale, però, non ci fai uno script, ma proprio un'apps in .jar, che comunque è portabile.).

    Vai pure se hai voglia , ma secondo me non è un lavoro tanto veloce. Il problema sarebbe poi magari farlo andare anche su Mac Os X, ma al massimo si installa il necessario.

    PS: Io calibre quando l'ho usato per convertire da mobi a epub ha funzionato bene :)

    Rispondi citando Rispondi citando

  6. #15
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,326
    Grazie dati 
    341
    Grazie ricevuti 
    1,809
    Ringraziato in
    722 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Ok riepilogo : ho una serie di HTML e XHTML (epub spacchettizzati) dei quali voglio unificare il testo in un solo file da aprire con Openoffice, dividere in capitoli, aggiustare di formattazione se occorre, aggiungere eventuali copertine e trame (sono pignola quando mi intesto di fare le cose per benino) e convertire sempre con OO in PDF

    Le conversioni con Calibre non vengono sempre bene e l'epub è quello più difficoltoso da convertire: usavo uno script di Automator per convertire in RTF i brutti PDF creati dagli epub ma mi sono accorta che lascia degli "a capo" selvaggi e il testo dovrebbe comunque essere riaggiustato a mano, per cui ho pensato che la cosa migliore sarebbe stata poter prendere il testo ottimizzato dell'epub e, se l'estrazione fosse stata semplice, avrei avuto un file già praticamente perfetto sul quale fare solo poche modifiche.

    Fra l'altro vorrei anche "riaggiustare" i primi epub che mi ero fatta (qualche decina) perchè non essendo pratica non avevo considerato alcune cose, e alla fine, sempre se avessi trovato un modo veloce per estrarre il testo, avrei fatto prima a rifarli completamente che modificarli con Sigil

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  7. #16
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Prova a vedere se basta qualcosa tipo questo da terminale:

    Codice:
    Only registered members can view code.
    Crea un file di nome libro.txt che puoi aprire tranquillamente dopo.
    Ultima modifica di K.a.o.s.; 11-07-12 alle 19: 40.

    Rispondi citando Rispondi citando

  8. #17
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,326
    Grazie dati 
    341
    Grazie ricevuti 
    1,809
    Ringraziato in
    722 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Questo sembrerebbe funzionare : per una conferma definitiva dovrò fare una conversione e leggere un libro per verificare che non tralasci qualcosa come lo script di cui parlavo prima.
    Inserisce diverse righe vuote non rilevate dalle impostazioni del paragrafo ma con un plugin per OO le posso sistemare in un attimo (con le espressioni regolari non so ancora lavorare granché ma dovrò cercarmi una guida )

    Non chiedo spiegazioni sul contenuto : il mio feeling con il codice iniziò inserendo paginate di DOS sul C64 per far saltare una pallina e finì cercando nel listato quella virgola e/o spazio omessi che me la tenevano lì incollata come la Linea Lagostina

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  9. #18
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    Non chiedo spiegazioni sul contenuto
    In pratica semplicemente entra nella cartella, legge tutti i file *.*html, poi passa il contenuto a sed che elimina i tag html. Poi passo il tutto a grep -v che elimina le righe inserite, in particolare per evitare che textedit faccia casino aprendolo pensando che siano pagine web .

    Il tutto aggiunto al file libro.txt .
    Inserisce diverse righe vuote non rilevate dalle impostazioni del paragrafo ma con un plugin per OO le posso sistemare in un attimo
    Al massimo si può cercare di sistemare un po' il comando in modo che le elimini .

    Rispondi citando Rispondi citando

  10. #19
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,214
    Grazie dati 
    4,886
    Grazie ricevuti 
    2,675
    Ringraziato in
    2,255 post

    Riferimento: Estrarre automaticamente testo da più files HTML



    (con le espressioni regolari non so ancora lavorare granché ma dovrò cercarmi una guida )
    L'espressione regolare per individuare le righe vuote con openoffice è ^$, però riconosce solo i cf+cr (stile windows), quindi se per caso sono solo cf o solo cr dovrai prima convertirle con qualcosa d'altro.

    Oppure eventualmente proviamo a far fare il lavoro a sed...


    Codice:
    Only registered members can view code.
    Vedi se con questa piccola aggiunta ti va bene. Occhio che così le righe vuote le rimuove tutte, ma proprio tutte.
    «Nessuna quantità di esperimenti potrà dimostrare che ho ragione;
    un unico esperimento potrà dimostrare che ho sbagliato.
    » (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  11. #20
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,326
    Grazie dati 
    341
    Grazie ricevuti 
    1,809
    Ringraziato in
    722 post

    Riferimento: Estrarre automaticamente testo da più files HTML

    No, invece non le toglie proprio tutte, ne lascia una ad intervalli quasi regolari per cui mi fa pensare ad una originaria interruzione di pagina o numero di pagina che all'origine avevo tolto, probabilmente causando un doppio "a capo". Quindi se questo /^$/ indica l'operazione su un "a capo", dove ne trova due, uno probabilmente lo lascia ; comunque non preoccuparti perché come dicevo, ho un plugin che elimina le righe vuote.

    Vi ringrazio molto per la disponibilità e per la vostra competenza

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

Tags per questo thread

Segnalibri

Regole di scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
Cookies:direttiva 2009/136/CE (E-Privacy)

Il sito utilizza cookies propri e di terze parti per maggiori informazioni faq - Termini di servizio - Cookies
Il forum non puo' funzionare senza l'uso dei cookies pertanto l'uso della community è vincolato dall'accettazione degli stessi, nel caso contrario siete pregati di lasciare la community, proseguendo la navigazione acconsenti all’uso dei cookie