Pagina 1 di 3 123 UltimoUltimo
Mostra risultati da 1 a 10 di 21

Discussione: Estrarre automaticamente testo da pi files HTML

  1. #1
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,797
    Ringraziato in
    719 post

    Estrarre automaticamente testo da pi files HTML

    Mi chiedevo se era possibile, magari con qualche script Automator, poter estrarre solo il testo da una serie di files HTML e salvarlo in un file unico (rtf, doc, odt) senza perdere la formattazione di base (a capo, paragrafi), oppure, in alternativa, fare almeno il "merge" automatico di una serie di files HTML per averne uno soltanto da ripulire poi a mano con un word processor

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  2. # ADS
    Google Adsense Circuito Adsense
    Data registrazione
    da sempre
    Messaggi
    molti
     
  3. #2
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,013
    Grazie dati 
    4,802
    Grazie ricevuti 
    2,588
    Ringraziato in
    2,187 post

    Riferimento: Estrarre automaticamente testo da pi files HTML



    In che linguaggio ti servirebbe lo script?

    In bash c' il sed che fa praticamente tutto da solo: Estrarre il testo da una pagina HTML - Raccolta di Script per la Shell - bash-script.b2com.org - Ubuntu - Debian - Bash Script

    Poi per estendere l'utilizzo a pi file ci sono i cicli for e while e si pu leggere l'output di CD per applicarlo su una cartella.
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  4. #3
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,797
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Per "script Automator" intendevo proprio Automator, che una applicazione presente sul Mac che permette di creare piccole applicazioni in Applescript: rozzamente detto, come fosse una sorta di aggregatore di macro VB da combinare per ottenere piccole applicazioni.

    Se non trovo altro modo, valuto ovviamente la possibilit della tua proposta decisamente interessante, tanto avevo gi in mente di virtualizzare anche un Linux sul Mac (l'utilizzo del terminale Linux potrebbe avere problemi con una versione virtualizzata?); in questo senso avrei potuto anche cercare qualcosa per windows (virtualizzata anche quella sul Mac), ma se possibile volevo evitare la leggera seccatura di lavorare con due S.O. contemporaneamente perch specialmente quando sono fuori casa il display 13,3" non il massimo



    [EDIT] avrei bisogno per di poter impostare pi pagine HTML tutte insieme per la conversione, in genere circa una quindicina
    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  5. #4
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,013
    Grazie dati 
    4,802
    Grazie ricevuti 
    2,588
    Ringraziato in
    2,187 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Capisco. Dalla home non si vedeva la Tag.

    Purtroppo quel linguaggio non lo conosco e non so che pacchetti ci sono su Mac, comunque i cicli for-while sono comuni a tutto, perci se non c' gi qualcosa di automatizzato ecco che per eseguire pi volte il comando su ogni file bisogna scrivere un ciclo.

    (l'utilizzo del terminale Linux potrebbe avere problemi con una versione virtualizzata?);
    Non credo, perch linux il terminale, poi l'interfaccia grafica viene dopo, come un insieme di applicazioni eseguite sul terminale, un po' come faceva windows ai tempi del dos.

    Comunque sentiamo Kaos.
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  6. #5
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,797
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Citazione Originariamente scritto da Andy86 Vedi messaggio
    comunque i cicli for-while sono comuni a tutto, perci se non c' gi qualcosa di automatizzato ecco che per eseguire pi volte il comando su ogni file bisogna scrivere un ciclo.
    Eh eh, eventualmente poi me lo spieghi in italiano

    credo, perch linux il terminale
    Ecco , ti ho fatto la classica domanda imperdonabile, pur sapendolo bene (ed la prima cosa che un linuxiano ti sbandiera orgogliosamente davanti), quindici anni di windows non riesco a buttarmeli alle spalle...

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  7. #6
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    Anch'io come Andy ho pensato subito a bash. Dopotutto il terminale di Linux uguale a quello di Mac OS X ( bash). Cambiano un po' di cose con certi programmi, ma gli strumenti base sono gli stessi (sed etc. sono standard e quindi sono alla base anche di Os X). Per o si trova qualcosa di gi fatto che funziona bene oppure tocca scriverselo da soli e la cosa al momento la trovo abbastanza noiosa .

    Inoltre se fatto da terminale, la cosa pu risultare scomoda se non sei pratica.
    Lo script linkato da andy ad esempio richiede che tu faccia un ls per passargli i file della cartella e bisogna sistemare il fatto che i nomi con spazi vengono interpretati male.

    In ogni caso ti ho combinato uno script di Automator che fa tutto al volo quello che chiedi. Basta che ci trascini sopra la cartella o i file html puri (salvati come sorgenti) che devono essere ripuliti. Il problema che ricarica le pagine, quindi richiede un po' di tempo in pi e una connessione ad internet.
    Lo trovi qui: https://www.dropbox.com/sh/pucxgspz5bhnbxe/Ciuz1L3Ohu

    Quando in esecuzione compare un ingranaggio rotante nella barra del sistema

    Non credo, perch linux il terminale, poi l'interfaccia grafica viene dopo, come un insieme di applicazioni eseguite sul terminale, un po' come faceva windows ai tempi del dos.
    In alcuni casi vero (applicazioni semplici in genere), in altri casi per non sono cose legate ai programmi per bash. Rallenterebbe troppo. Sono direttamente sfruttate le librerie di sistema o le syscall.

    Rispondi citando Rispondi citando

  8. #7
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,013
    Grazie dati 
    4,802
    Grazie ricevuti 
    2,588
    Ringraziato in
    2,187 post

    Riferimento: Estrarre automaticamente testo da pi files HTML



    i nomi con spazi vengono interpretati male.
    Di solito bastano un bel paio di virgolette.

    Comunque da quel poco che avevo visto su automator non mi pareva proprio la sintassi del bash...

    eventualmente poi me lo spieghi in italiano
    Qui ti avevo gi fatto un piccolo esempio partendo da un tuo codice:

    http://www.collectiontricks.it/forum...lla-excel.html

    Comunque un po' come la storia delle potenze.
    Invece di riscrivere all'infinito, semplicemene dici quante volte bisogna ripetere.
    Ultima modifica di Andy86; 10-07-12 alle 13: 18.
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

  9. #8
    Data registrazione
    Aug 2009
    Sesso
    Donna
    Messaggi
    1,323
    Grazie dati 
    341
    Grazie ricevuti 
    1,797
    Ringraziato in
    719 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    @ K.a.o.s.

    Purtroppo non mi funziona: trascino la cartella e non succede nulla.

    I files sono HTML, non hanno cartella immagini ma non provengono dal web, mi spiego: spesso acquisto degli ebooks in formato epub o kindle (dipende chi fa pi sconti ) ma voglio convertirli anche in PDF e vorrei evitare la conversione da Calibre che spesso da questi formati non decisamente perfetta, perci "spacchetto" l'epub (o il .azw convertito in epub) per ottenere gli html dai quali estrarre le immagini e il testo puro (te ne allego uno, https://dl.dropbox.com/u/5750857/part0004.html), e in genere un file per capitolo.
    Vorrei mettere anche le mani alle prime decine di epub che iniziai a fare convertendo la mia libreria cartacea (che feci solo in epub buttando i sorgenti), per riaggiustarli (all'epoca non ero abbastanza preparata ), ma quelli li feci con Sigil e sono .xhtml

    Dum differtur, vita transcurrit

    Rispondi citando Rispondi citando Il mio PC

  10. #9
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Località
    /dev/null
    Messaggi
    830
    Grazie dati 
    132
    Grazie ricevuti 
    426
    Ringraziato in
    341 post

    @andy

    Automator non bash
    Serve per creare facilmente script, ma anche un linguaggio completamente differente. Il terminale di Os X bash, come su Linux, quindi pu essere usato in maniera uguale

    E per gli spazi: lo so, era solo per dire che non funzionava out-of-the-box

    @lady
    Stasera se riesco magari provo, ora sono fuori da cellulare. Ovviamente per quello che chiedi non proprio facilissimo, ma vedo che si riesce a fare.

    Rispondi citando Rispondi citando

  11. #10
    Data registrazione
    Jan 2010
    Sesso
    Uomo
    Messaggi
    17,013
    Grazie dati 
    4,802
    Grazie ricevuti 
    2,588
    Ringraziato in
    2,187 post

    Riferimento: Estrarre automaticamente testo da pi files HTML

    quello che chiedi non proprio facilissimo
    E se gli creassimo un .command riuscirebbe a dargli in parametro file e cartelle in modo semplice senza usare il terminale?
    Bash script sulla scrivania del mac - Nerdsopolis
    Nessuna quantit di esperimenti potr dimostrare che ho ragione;
    un unico esperimento potr dimostrare che ho sbagliato.
    (A. Einstein)

    Rispondi citando Rispondi citando Il mio PC

Tags per questo thread

Segnalibri

Regole di scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
Cookies:direttiva 2009/136/CE (E-Privacy)

Il sito utilizza cookies propri e di terze parti per maggiori informazioni faq - Termini di servizio - Cookies
Il forum non puo' funzionare senza l'uso dei cookies pertanto l'uso della community vincolato dall'accettazione degli stessi, nel caso contrario siete pregati di lasciare la community, proseguendo la navigazione acconsenti alluso dei cookie