Autor Thema: Geocities; was tun?! – aber schnell!  (Gelesen 42947 mal)

0 Mitglieder und 1 Gast betrachten dieses Thema.

Offline FrederickMeißner

  • Atari Fanboy
  • Benutzer
  • Beiträge: 2.105
  • N/|\2d
Re: Geocities; was tun?! – aber schnell!
« Antwort #20 am: Do 17.09.2009, 20:43:36 »


Das mit dem Post nicht sichtbar war IRONISCH gemeint!!

Hä?

Aber mal was anderes:

Archive.org saved die doch... wozu die Arbeit  ??? Ist nicht böse gemeint, aber mir erschließt sich das gerade nicht... Ist da was anders? Bitte um Aufklärung!

Offline UdoWoy

  • Benutzer
  • Beiträge: 237
Re: Geocities; was tun?! – aber schnell!
« Antwort #21 am: Do 17.09.2009, 20:53:11 »
Kann schon mal die ersten 300 URL´s als Liste fertig stellen, dann direkt an Tuxie - oder wie? ??? ??? ???
Grüße von Udo (aus Hannover)
MacBook pro & MacBook, iPad, Atari 800XL & 1040STE

Offline Mathias

  • Benutzer
  • Beiträge: 1.578
Re: Geocities; was tun?! – aber schnell!
« Antwort #22 am: Do 17.09.2009, 23:12:03 »
Zitat von: FrederickMeißner
Archive.org saved die doch... wozu die Arbeit  ??? Ist nicht böse gemeint, aber mir erschließt sich das gerade nicht... Ist da was anders? Bitte um Aufklärung!

Archive.org macht einiges, aber schafft sicher nicht alles. Du kannst dort URLS eintragen die sie sichern sollen, was zeigt, daß sie sicher nicht alles schaffen.

Und selbst bei den Seiten die dort eingetragen sind, ist nicht gesagt, daß Bilder oder gar Donloads verfügbar sind, was sogar meißtens nciht der Fall ist.
MegaST 4 mit Sounddesigner II MegaBus-Hardware und 56001, MegaSTE, Hades 040, MagiC Mac auf Mac OS 9 und eine FireBee.

Offline simonsunnyboy

  • Benutzer
  • Beiträge: 1.807
  • Rock'n'Roll is the thing - Jerry Lee is the king!
Re: Geocities; was tun?! – aber schnell!
« Antwort #23 am: Sa 19.09.2009, 11:38:52 »
K.A. wie ihr jetz tgenau vorgehen wollt, aber eine ausgesuchte Seite habe ich mal ganz fix in mein Blog übernommen, bevor Geocities dicht macht.

Unter http://www.final-memory.org/?page_id=848 findet ihr einen Mirror von http://www.geocities.com/yotisrx7/PowerPack.html, d.h. die Anleitungen zu den Spielen aus dem Atari Powerpack.
Paradize - ST Offline Tournament
Stay cool, stay Atari!
1x2600jr, 1x1040STFm, 1x1040STE 4MB+TOS2.06+SatanDisk, 1xF030 14MB+FPU+NetUS-Bee

Offline Johannes

  • Administrator
  • *****
  • Beiträge: 1.846
  • ATARI-HOME.DE - online for more than 20 years...
Re: Geocities; was tun?! – aber schnell!
« Antwort #24 am: Sa 19.09.2009, 19:42:24 »
Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes
Falcon060 /w SV - TT030 - Mega STE4 - Mega ST4 - 1040 ST(F/M) - Lynx II - Portfolio
non-Atari: DEC Vaxstation 4000 VLC, SGI Fuel, SGI Octane, SGI Indigo 2 R10K, SGI Indy, Casio PB-1000

Offline Johannes

  • Administrator
  • *****
  • Beiträge: 1.846
  • ATARI-HOME.DE - online for more than 20 years...
Re: Geocities; was tun?! – aber schnell!
« Antwort #25 am: So 20.09.2009, 13:42:15 »
Hallo zusammen,

der Parser ist fertig und arbeitet fleissig. Leider musste ich eine zufällig Pause von einigen Sekunden zwischen den Aufrufen einbauen, da Google zu schnelle Abfragen erkennt und blockiert  :o

Er ist jetzt bei 200 URLs und dürfte noch einige Zeit Laufen. Im Laufe des Tages stelle ich dann die Datei ein, mit der Tuxie den Download anstossen kann...

Wir müssen nur noch klären, ob wir dein Einzellinks bei google vertrauen oder ob wir WGET (das Downloadtool) den Links in einer Seite folgen lassen.

Grüße
Johannes
Falcon060 /w SV - TT030 - Mega STE4 - Mega ST4 - 1040 ST(F/M) - Lynx II - Portfolio
non-Atari: DEC Vaxstation 4000 VLC, SGI Fuel, SGI Octane, SGI Indigo 2 R10K, SGI Indy, Casio PB-1000

Offline Johannes

  • Administrator
  • *****
  • Beiträge: 1.846
  • ATARI-HOME.DE - online for more than 20 years...
Re: Geocities; was tun?! – aber schnell!
« Antwort #26 am: So 20.09.2009, 20:48:09 »
Kleiner Zwischenstand.

Google ist doof!  ;D

1. Google hat mich ein paar mal gesperrt, aber ne neue IP Adresse hat geholfen

2. Man kann immer nur die Suchergebnisse 1-1000 abrufen. D.h. Treffer 1001 bis 6430 sind für uns unerreichbar.

Ich habe jetzt ca. 40 verschiedene Suchanfragen auf google losgelassen, die alle mit leicht abgewandelten suchbegriffen Ergebnisse liefern. Dann prüfe ich auf Duplikate und baue eine Liste mit URLs auf.

Wir liegen so immerhin bei ca. 4400 URLs. Ich werde noch einige Suchvarianten ausprobieren und hoffe noch mehr der 6400 Treffer auslesen zu können.

Falcon060 /w SV - TT030 - Mega STE4 - Mega ST4 - 1040 ST(F/M) - Lynx II - Portfolio
non-Atari: DEC Vaxstation 4000 VLC, SGI Fuel, SGI Octane, SGI Indigo 2 R10K, SGI Indy, Casio PB-1000

Offline UdoWoy

  • Benutzer
  • Beiträge: 237
Re: Geocities; was tun?! – aber schnell!
« Antwort #27 am: So 20.09.2009, 21:17:18 »
ja, komme bei Google auch nur bis Seite1000, danach sperrt es mich auch - wodran liegt das?    ???
Grüße von Udo (aus Hannover)
MacBook pro & MacBook, iPad, Atari 800XL & 1040STE

Offline Johannes

  • Administrator
  • *****
  • Beiträge: 1.846
  • ATARI-HOME.DE - online for more than 20 years...
Re: Geocities; was tun?! – aber schnell!
« Antwort #28 am: So 20.09.2009, 21:50:18 »
Das liegt natürlich an Google, die kein Interesse haben, dass Bots ihren gesamten Index herunterladen - irgendwie logisch.

ich bin mittlerweile auf

5966 URLs gekommen  ;D

@TUXIE: ich habe Dir die Liste mal angehängt. Es ist eine Gezippte Textdatei. Vielleicht kannst du schonmal einen Testlauf mit WGET machen. Ich würde vorschlagen alle verknüpften Images etc. mit runterzuladen und vielleicht die Linktiefe auf 1 oder 2 zu setzen. Außerdem sollte man wohl den Befehl einstellen, dass absolute Links zu relativen umgeformt werden, damit man innerhalb der Seiten auch browsen kann.
« Letzte Änderung: So 20.09.2009, 21:52:17 von Johannes »
Falcon060 /w SV - TT030 - Mega STE4 - Mega ST4 - 1040 ST(F/M) - Lynx II - Portfolio
non-Atari: DEC Vaxstation 4000 VLC, SGI Fuel, SGI Octane, SGI Indigo 2 R10K, SGI Indy, Casio PB-1000

Offline tuxie

  • Benutzer
  • Beiträge: 6.834
  • Falcon! Milan! Schuetzt die Raubvoegel!
Re: Geocities; was tun?! – aber schnell!
« Antwort #29 am: Mo 21.09.2009, 13:31:52 »
Ähm wasn das für eine Datei? Bekomme sie nicht geöffnet!
Tschau Ingo

Offline Johannes

  • Administrator
  • *****
  • Beiträge: 1.846
  • ATARI-HOME.DE - online for more than 20 years...
Re: Geocities; was tun?! – aber schnell!
« Antwort #30 am: Mo 21.09.2009, 13:59:18 »
Hi Tuxie,

das ist eine ZIP Datei. bitte umbennen...

Johannes
Falcon060 /w SV - TT030 - Mega STE4 - Mega ST4 - 1040 ST(F/M) - Lynx II - Portfolio
non-Atari: DEC Vaxstation 4000 VLC, SGI Fuel, SGI Octane, SGI Indigo 2 R10K, SGI Indy, Casio PB-1000

Offline draconis1

  • Benutzer
  • Beiträge: 714
  • ATARIaner seit 1987
Re: Geocities; was tun?! – aber schnell!
« Antwort #31 am: Mo 21.09.2009, 14:32:28 »
Ähm wasn das für eine Datei? Bekomme sie nicht geöffnet!

Acrobat kennt das Format auch nicht?! Oh Johannes war TURBOSCHNELL...  ;D
:: NABU Niedersachsen :: http://niedersachsen.nabu.de/

Offline tuxie

  • Benutzer
  • Beiträge: 6.834
  • Falcon! Milan! Schuetzt die Raubvoegel!
Re: Geocities; was tun?! – aber schnell!
« Antwort #32 am: Mo 21.09.2009, 15:43:40 »
Hi,

also es läuft, mein Server leecht. Boah das kann dauern, aber sind schon am anfang einige dabei die nicht funktionieren. Ähm, entweder ich versuche ein script zu bauen wo das Sortiert wird und ich sehen kann was gelaufen ist und was nicht.. Oder wir lassen einfach laufen und schauen was kommt. Am ende können wir wohl eh nix weiter machen wenn seiten bereits down sind.

Boah hoffentlich reicht der Speicherplatz aus.

WGET macht das wunderbar, er baut auch die Links dann so um das sie funktionieen sollten.
Tschau Ingo

Offline tuxie

  • Benutzer
  • Beiträge: 6.834
  • Falcon! Milan! Schuetzt die Raubvoegel!
Re: Geocities; was tun?! – aber schnell!
« Antwort #33 am: Mo 21.09.2009, 16:02:53 »
Für die die es Interessiert

wget -r -l 2 -k -L -p -i ../../files/googleURLs_TestRun.txt
Tschau Ingo

Offline Arthur

  • Benutzer
  • Beiträge: 10.310
  • Mein Atari erinnert mich an die gute alte Zeit..
Re: Geocities; was tun?! – aber schnell!
« Antwort #34 am: Mo 21.09.2009, 17:23:14 »
Für die die es Interessiert

wget -r -l 2 -k -L -p -i ../../files/googleURLs_TestRun.txt


@ Ingo, was sollen mir diese hyroglyphen sagen?

@ Johannes, ich hab es schneller gelöscht.

Offline tuxie

  • Benutzer
  • Beiträge: 6.834
  • Falcon! Milan! Schuetzt die Raubvoegel!
Re: Geocities; was tun?! – aber schnell!
« Antwort #35 am: Mo 21.09.2009, 18:42:40 »
@Arthur!!!
Für die die es Interessiert


Tschau Ingo

Offline Arthur

  • Benutzer
  • Beiträge: 10.310
  • Mein Atari erinnert mich an die gute alte Zeit..
Re: Geocities; was tun?! – aber schnell!
« Antwort #36 am: Mo 21.09.2009, 18:47:08 »
Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes

Hallo Johannes, wie hast Du jetzt diese Liste erstellt und unter welchem OS?

Gruß Arthur

Offline Mathias

  • Benutzer
  • Beiträge: 1.578
Re: Geocities; was tun?! – aber schnell!
« Antwort #37 am: Mo 21.09.2009, 18:48:16 »
Also einmal ein dickes Dankeschön, an euch alle für die schnelle, kompetente und sinnvolle Zusammenarbeit!

Bzgl. Seiten die Down sind, könnte man die im Nachhinein noch ausgeben lassen und sehen, ob sich etwas davon noch im Google-Cache befindet?

MegaST 4 mit Sounddesigner II MegaBus-Hardware und 56001, MegaSTE, Hades 040, MagiC Mac auf Mac OS 9 und eine FireBee.

Offline tuxie

  • Benutzer
  • Beiträge: 6.834
  • Falcon! Milan! Schuetzt die Raubvoegel!
Re: Geocities; was tun?! – aber schnell!
« Antwort #38 am: Mo 21.09.2009, 18:50:25 »
Also, ich glaube das echt eine Arbeit ist die nicht wirklich viel bringt! Das was er bis jetzt runder geladen hat ist nicht wirklich brauchbar!!

Sehrrrrrrrr viele Links tot!!

und es ist sehr viel bei, was mit Atari Garnix zu tun hat.

Ähm, das macht er momentan nicht, naja läuft jetzt schon einige Zeit und es ist noch kein Gigabyte zusammen gekommen. Aber sicher schon an die 1000 seiten durch!
Tschau Ingo

Offline Arthur

  • Benutzer
  • Beiträge: 10.310
  • Mein Atari erinnert mich an die gute alte Zeit..
Re: Geocities; was tun?! – aber schnell!
« Antwort #39 am: Mo 21.09.2009, 18:53:22 »
@Arthur!!!
Für die die es Interessiert
Jetzt gib mal nicht so an. Ausserdem hast ja Johannes Posts auch nicht alle richtig durchgelesen. Bisschen mehr Infos auch für Normalos...Danke. ;)

Gruß Arthur