PDA

Visualizza versione completa : Windows XP Programma per salvare siti dalla cache di google



DeST
23-07-10, 20: 47
Come da titolo qualcuno conosce un programma che permetta di scaricare le pagine di un sito salvate nella webcache di google? (va bene anche un estensione per firefox)

vorrei poter accedere ai dati di un sito che è stato chiuso da poco e che è ancora presente nella suddetta cache

Andy86
24-07-10, 11: 56
Mi pare che i siti nella cache di google siano salvati come immagini, hai provato con il comando salva immagine? Se no le pagine html si saltano sempre allo stesso modo. Estensione c'è quella per gli mht'. Però non ricordo come si chiami. :bai

DeST
24-07-10, 16: 30
Le pagine sono salvate nello stesso formato della pagina originale (htm, html)
alla singola pagina è possibile accedere a questo indirizzo:

Only registered members can view code.

Conosco il metodo per poter salvare la singola pagina ma cercavo qualcosa che automaticamente mi potesse permettere di salvare TUTTE le pagine del sito presente nella web cache!

Kirk78
03-08-10, 16: 41
Non si può fare, perché i riferimenti delle pagine che trovi nella cache sono quelli originali e quindi non fanno riferimento alla cache di google.

Andy86
11-08-10, 19: 38
Bè, in teoria un software, se appositamente istruito dal programmatore, potrebbe sostituire, con quelli corretti, tutti i riferimenti che trova.


Only registered members can view code.

(Scusate, è tanto che non programmo, non ho restito a buttare giù un po' di codice... :ehmm)

Comunque non so se esita un programma del genere... :ohoh

:bai

Kirk78
11-08-10, 21: 33
:bai Andy86
Il problema è che lo vuole fare su tutte le pagine "cachate" da google (a quanto ho capito) cosa non possibile perchè la singola pagina in cache fa riferimento non alle pagine inserite nella cache di google ma direttamente al sito originale. :bai

è tanto che non programmo, non ho restito a buttare giù un po' di codice...
Come è vero! Un programmatore vuole sempre uscire con un codicillo anche per fare 2+2

DeST
12-08-10, 14: 05
bhè io intendevo tutte le pagine del sito presenti nella cache di google, quindi in teoria un programma che individui tutti i link originali presenti nel sito per poi sostituirli con quelli rispettivi alla cache di google

Kirk78
12-08-10, 14: 20
Avevo capito bene. Quindi per me è ...... :nono
:bai2

Andy86
12-08-10, 15: 01
Un programmatore

Sono lusingato, ma forse ancora non merito di essere definito così... :ohoh


per me è ...... :nono

Non è impossibile, se è questo che intendi.


sostituirli con quelli rispettivi alla cache di google

Questo è proprio ciò che fa il codice da me postato, sostiture un link con quello relativo alla cache, ammesso che il link postato da P sia sempre valido.

Però non se esista un programma simile e per il momento non credo di essere in grado di crearlo io. :ehmm

:bai

Kirk78
12-08-10, 15: 53
Caspiteronzola Andy86 è vero :ops:

E' che avevo visto che per ogni pagina cache c'era anche un "q=cache:xxxxxxxxxxxx" con cifre e numeri. Pensavo fosse un meccanismo per evitare quello che hai fatto.... BRAVO!!! :eye

Magari quando sto meglio cerco di buttare giù 2 righe di codice.
:bai:bai

Andy86
16-08-10, 19: 45
:bai

Ho provato a creare qualcosa (per quanto la mie capacità mi consentano... :ehmm), ma forse non è tutt'oro quello che luccica e qualche blocco c'è davvero: tutte le connessioni alla cache infatti danno errore 403...

chrix
16-08-10, 20: 14
prova con HTTrack, copia interi siti dandoli il link.

Andy86
16-08-10, 20: 34
chrax, rientra sempre il problema di prima:


lo vuole fare su tutte le pagine "cachate" da google (a quanto ho capito) cosa non possibile perchè la singola pagina in cache fa riferimento non alle pagine inserite nella cache di google ma direttamente al sito originale.

quindi:


un programma che individui tutti i link originali presenti nel sito per poi sostituirli con quelli rispettivi alla cache di google

e non credo che HTTrack lo sia... :nono

:bai

chrix
17-08-10, 21: 36
esatto, httrack collega ogni singolo link creando una copia offline perfettamente navigabile, io lo uso da anni per fare backup di vari siti che ho creato.

Kirk78
20-08-10, 10: 04
@chrix ma, come detto, non salva i dati della cache ma prende, e salva, direttamente quelli del sito originale.
@Andy86 forse quella serie di caratteri faceva qualche cosa ... Comunque "ogni tanto" quando ci sono caratteri particolari potrebbe esserci qualche conversione errata (trasformazione da caratteri particolari a codici ascii come spazio = %20). E provando una versione "pura" senza scelta se originale oppure no e solo completa, quindi eliminando "&hl=it&strip=....."?
:bai:bai

Edit: c'è anche un'altro URL più piccolo quindi potresti cambiare:

Only registered members can view code.

P.S. forse però httrack può creare una regola per modificare gli url

DeST
05-01-11, 12: 44
Ritorno su questro thread!!
Il sito che volevo salvare adesso è definitivamente offline :(
ora è presente solo nella cache di google!!!!! DEVO trovare un modo per salvare tutto!!!

Qualcuno ha risolto il problema oppure ha trovato un modo?? :wall

sul forum di hhtrack hanno fatto una domanda ma aimè non c'è una decente risposta
Spider Google Cache pages - HTTrack Website Copier Forum (http://forum.httrack.com/readmsg/19797/index.html)

Ho visto fare delle cose simili con gli script di iMacros e firefox? qualcuno li sa usare??

Kirk78
05-01-11, 20: 35
Pensa che l'ultimo post era il mio, quindi non ho ricercato ulteriormente. Comunque su Internet Archive non c'è? Quello che ho paura è che il database della cache di google sia proprietario e quindi non so neanche se sia poi così legittimo... comunque ha provato magari a chiedere a google? Magari ti fanno pagare qualcosa ma te lo possono dare loro? Magari ho detto una sciocchezza ma, senza dire quale sito, potresti chiederlo. Considera infine che se si fanno multiple ricerche su google in automatico, mi dicono che potresti rischiare di venire "temporarily banned". Questo mi ancora più pensare al fatto che il database della cache di google sia ... solo di google :oo2
:bai2

Edit: per quanto riguarda firefox, ho visto questo (https://addons.mozilla.org/en-US/firefox/addon/2323/) add-on, ma io non l'ho mai provato.

Andy86
05-01-11, 22: 32
:bai2

Ho dato un'occhiata a httrack, e sembra non riesca a fare quello che vuoi... :m: :triste

Comunque se fai esperimenti ricorda di rimuovere la parte tra parentesi dall'opzione identità browser, altrimenti google non riconosce lo user-content e ti butta fuori. :sisi

-----

A proposito di user-content, aggiorno che era proprio questo il problema del 403 ritornato dal mio programma sopra: passando uno user-content qualunque riesco a salvare correttamente la pagina della cache. Ho anche corretto un piccolo bug che ogni tanto generava un file vuoto. Ma comunque non saprei davvero come fare per scaricare più pagine dai collegamenti ed avere i collegamenti relativi nelle pagine create, in stile httrack. In ogni caso, in probabilità che sia vero ciò che dice kirk78, aspetto a postare la nuova versione. :sisi

----

Tornando al salvataggio del sito, ho idea che ti convenga cercare le parti più importanti e salvarle ad una ad una, perché se aspetti di trovare il programma giusto fai "la fine dell'avvoltoio" (rif. fiaba di esopo. morale: resti senza niente.).

:bai

DeST
06-01-11, 16: 17
ho contattato direttamente il proprietario del sito che mi ha assicurato che presto tornerà online... ed io aspetto con httrack pronto...
anche se ora che ho il dubbio vorrei trovare la soluzione!!

Kirk78
06-01-11, 17: 42
Buona Epifania a tutti!
DeST (il tuo ST mi piace sempre di più! :oo2) non mi hai detto se hai visto su Internet Archive, e se hai contattato google o provato l'add-on di Firefox (sperando che quello non crei il banned temporaneo). :bai2

DeST
06-01-11, 23: 33
bhè su internet archive non è presente il sito e comunque vedendone altri... non è molto aggiornato
google per adesso non l'ho contattata e... l'addon non l'ho installato anche perchè ho trovato uno script per greasemonkey che fa proprio quello che cercavo!! :) ora lo sto testando e mi sto trovando bene
ecco il link Google Cache Continue Redux for Greasemonkey (http://userscripts.org/scripts/show/30878)

Kirk78
06-01-11, 23: 37
Ok DeST, facci sapere come va, sperando che sia legittimo farlo. Facci sapere anche se è vero ciò che mi hanno detto su temporaneo banned di google. :bai2