atari-home.de - Foren

Allgemeines => Atari - Talk => Thema gestartet von: Mathias am Do 17.09.2009, 08:08:28

Titel: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Do 17.09.2009, 08:08:28: Mit Schrecken ist mir gestern wirklich bewußt geworden, das der gratis Hoster Geocities von Yahoo abgedreht werden wird. Als ich die Meldung im Frühsommer erstmals gehört habe, empfand ich das zwar als schade, aber nicht als besonders schlimm.

Nun ist mir aber klar geworden, daß Geocities auch für Atariuser eine unglaubliche Fundgrube darstellt. Nicht weniger als 6500 Suchergebnisse zu Atari verweisen auf Geocities, ...

Und nun zur Tragödie. Geocities schließt per 26.Oktober für immer. Damit sind alle Einträge bzgl. Atari unwiederbringlich verloren. Besonders jene aus der 2. Hälfte der 90er Jahre, die seit damals auch nicht weiter gepflegt wurden – und somit voraussichtlich auch nicht von jenen Menschen die sie erstellt haben gesichert werden – laufen Gefahr für immer zu verschwinden.

Also was tun?

Ich halte unsere Community für stark genug, um im nächsten Monat alle Atari-relevanten Einträge auf Geocities zu sichern. Eine Milchmädchenrechnung dazu; 20 Leute die täglich 10 Seiten komplett sichern und wir können den Content lückenlos archivieren!

Was es bräuchte:

20-30 Menschen mit 30 min. täglich Zeit.

• Eine simple online Datenbank, in der nachgesehen werden kann, welche Seiten bereits von welchem User gesichert wurden. Und in der auch neue gesicherte Seiten eingetragen werden können. (Sollte das neimand auf die Schnelle einrichten können, dann könnten wird das auch hier im Forum machen, mit einem eigenen Unterforum, und einem gemeinsamen User zum eintragen)

• Eine sinnvolle Definition dessen, was Atari-relevant ist, und archiviert gehört.

• Ein Howto, wie komplette Seiten sinnvoll über http gesichert werden (ICab bietet beispielsweise sehr gute Möglichkeiten dazu).

• Eure Bereitschaft, die nächsten 4 Wochen mit anzupacken. (Und Kontakte zur 8-Bit und Konsolen Szenerie, die noch mehr Inhalte als die 16-Bit zu retten hätten)

Später dann Speicherplatz um unsere Sicherheitskopien in einem Archiv zusammenzufassen.

Was natürlich nicht geht ist, bei dieser Sache genauso wie bei der Zeitung, Newsportal oder gmeinsamer Onlinepräsenz zuzuwarten ;) und mal Alles totzudiskutieren, bevor wir beginnen, denn am 25 Oktober ist es für immer unmöglich.

Was sagt ihr?
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 09:44:22: Hallo Mathias,

das halte ich prinzipiell für eine super Idee! Ich würde wget als Tool der Wahl vorschlagen (für diejenigen die Linux oder Mac OS X oder Windows einsetzen), damit kann man prima Websites archivieren. Es dürfte vielleicht auch ein bisschen schneller gehen, wenn es auf einem x Ghz Linux rechner läuft als auf einem ATARI mit 100 kb Durchsatz an der Netzwerkschnittstelle :)

Als erstes müssten wir jedoch mal eine Liste aller relevanten Sites erstellen - das wird wohl die Hauptarbeit sein. Das Wget (oder was auch immer) nachher nebenbei laufen zu lassen ist ja ne KLeinigkeit).

Also einfach Google benutzen und alles nehmen? Etwas zu unscharf oder?

Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 10:03:06: Hallo nochmal,

ich würde mich übrigens bereiterklären, den Download zu übernehmen. Wenn mir eine Liste in Form von

http://www.geocities.com/siliconvalley/lakes/7953/atari.html
http://www.geocities.com/~irata/atari.html
http://www.geocities.com/funmazer/
http://www.geocities.com/siliconvalley/lakes/6757/800.HTML
...

vorliegt, dann kann ich ein Skript schreiben, was die Daten auf einem Server nächtlich herunterlädt. Das sollte dann in ein paar Nächten durch sein.

Grüße
Johannes

p.s.: Hab dieses Tool gefunden:
http://goohackle.com/scripts/google_parser.php

kennt jemand ein Tool, das eine komplette Liste auf einmal liefert?
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Do 17.09.2009, 10:28:41: Wenn mir jemand eine Liste fertig macht, kann ich diese direkt auf meinem Server ziehen!! Speicherplatz sollte erstmal kein Thema sein!! Für mich zumindest. Ich meine ich bin selbst Hoster und habe einige Server laufen!!

Wenn ich die Liste habe kann ich direkt auf console denn Wget los schicken und die seiten ziehen. Misst wird es wenn es sich um Dynamische Webseiten handelt.

Achja und mein Angebot steht immernoch!! Siehe meine Seite!!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: FrederickMeißner am Do 17.09.2009, 10:44:16: oh ja.. geocities... das waren noch zeiten ;)

Ich bin beim sichern auch dabei ;)

aber: die downloads sind meist sowieso nicht mehr aktiv und es gibt immer noch

archive.org
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Do 17.09.2009, 12:36:39: Wow, nur ein Vormittag, und so flott soviel konstruktiver Input!

Zitat von: Johannes
Als erstes müssten wir jedoch mal eine Liste aller relevanten Sites erstellen - das wird wohl die Hauptarbeit sein. Das Wget (oder was auch immer) nachher nebenbei laufen zu lassen ist ja ne KLeinigkeit).

Also einfach Google benutzen und alles nehmen? Etwas zu unscharf oder?

Ja, die Idee ist zu unscharf, vor Allem kommen da viele Deeplinks, wobei wir ja die ganzen Seiten sichern wollen.

Zitat von: Johannes
p.s.: Hab dieses Tool gefunden:
http://goohackle.com/scripts/google_parser.php
Das Tool ist natürlich der Hit, wenn wer sowas kennt, um Alle Seiten zu erfassen, könnte es fast vollautomatisch ablaufen. Ich schlage hiermit vor, noch heute und morgen Vormittag zu sehen ob wer eine Lösung für automatische Erfassung der URLs hat, und wenn nicht fangen wir morgen Abend an, die Seiten händisch einzutragen?.

Die Seiten automatisch per Script holen zu können, ist schon eine große Hilfe!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 13:42:37: ich habe gerade mal einen Testlauf angestossen. das Problem ist, dass man mit nur einer Anfangsurl schon sehr viele Geocities.com seiten erreicht (Dein Thema Deeplinks Mathias). Da ist dann auch 90% nicht Atari Kram dabei.

D.h. auch, dass wir Inhalte sicherlich doppelt runterladen.

Aber wenn Ingo sich dafür anbieten möchte, gern.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: FrederickMeißner am Do 17.09.2009, 13:49:22: Wichtig ist doch das wir alles haben.

Wenn wir dann leider 90% Müll laden, müssen wir das halt auf uns vertielen und jeder sortiert in den nächsten Monaten aus.....

Aber nochmal: Wichtig ist doch nur, das wir die Infos haben!

aber was ist mit archive.org?
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: FrederickMeißner am Do 17.09.2009, 13:51:47: Das habe ich gerade gelesen:

Zitat
Yahoo hat angekündigt, GeoCities am 26. Oktober 2009 zu schließen.[1][2] Probleme mit der Wirtschaftlichkeit des Projekts, sinkende Benutzerzahlen und das Gesamtniveau der Webpräsenzen (teilweise Spam oder Malware) waren hierfür ausschlaggebend. [3] GeoCities werden vom Internet Archive archiviert.[4]

Wir brauchen uns also egtl keine sorgen machen...
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Do 17.09.2009, 13:59:58: Ähm kommisch aber irgendwie sind meine Posts nicht lesbar!! Schaut mal einer nach!!!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Do 17.09.2009, 14:01:35: Wie stellt ihr euch das jetzt vor?

ich habe in google eine Suche geocities atari st durchgeführt und folgendes Ergebnis bekommen.

   1.
   Peters AVR, C64, Atari ST, ZX81, KC85, Vectrex + Open Source Seiten
   Peters AVR, C64, Atari ST, ZX81, KC85, Vectrex + Open Source Seiten. Disclaimer: Alle Angaben ohne jede Gewaehr. Nutzung auf eigenes Risiko. ...
   de.geocities.com/sieg.peter/ - Im Cache - Ähnlich
   2.
   Atari ST
   Der Atari ST war ein Heimcomputer von Atari aus dem Jahr 1985. Die ST/TT-Serie eignete sich allerdings auch für professionelle Büroanwendungen. ...
   de.geocities.com/sieg.peter/atarist/atarist.html - Im Cache - Ähnlich
   3.
   c't 5/98, S. 156: Spiele aus dem Internet
   Atari ST, TOSBOX, Emulator mit Auflösungen bis zu 1024 x 768 http://www.geocities.com/SiliconValley/ Vista/4448, DOS. Atari ST, StonX, ST-Emulator für Unix, ...
   www.heise.de/ct/98/05/156/tabelle.shtml - Im Cache - Ähnlich
   4.
   Atari ST Game List
   - [ Diese Seite übersetzen ]
   This web page has a list of many Atari ST games (and docs), along with the compilation disk in which they've appeared. There's also an experimental ...
   www.geocities.com/bpadinha/ - Im Cache - Ähnlich
   5.
   The Lords Of Chaos Downloads for Commodore Amiga and Atari ST ...
   - [ Diese Seite übersetzen ]
   The only website for Julian Gollop's Lords Of Chaos on Commodore Amiga and Atari ST.
   www.geocities.com/amigalordsofchaos/ - Im Cache - Ähnlich
   Weitere Ergebnisse anzeigen von www.geocities.com
   6.
   Alexa - Top Sites by Category: Computers/Systems/Atari
   - [ Diese Seite übersetzen ]
   The largest Atari ST/Emulation Resource on the Internet. Keywords: atari st emulator, atari st, ... www.geocities.com/SiliconValley/Lakes/7953/atari.html ...
   www.alexa.com/topsites/category/Top/.../Atari - Im Cache - Ähnlich
   7.
   Alexa - Top Sites by Category: World/Deutsch/Computer/Plattformen ...
   Keywords: geocities, free web hosting, yahoo geocities, geocities.com, free website ... Tipps und Tricks rund um den ATARI ST/TT und Apple Mac. ...
   www.alexa.com/topsites/category/Top/.../Atari/ - Im Cache - Ähnlich
   Weitere Ergebnisse anzeigen von www.alexa.com
   8.
   Geocities.com referenced 30485 times on wikipedia
   - [ Diese Seite übersetzen ]
   English Wikipedia references for Geocities.com 1-50 of 30485 .... The Atari ST is a home/personal computer that was commercially available from 1985 to the ...
   www.domaintools.com/enwikipedia/geocities.com - Im Cache - Ähnlich
   9.
   Emulatoren für den PocketPC [Archiv] - PPC-Welt
   InfoNES (http://www.geocities.co.jp/SiliconValley/5604/infones.html) NesterCE : NES .... CastCE : AtariST CastCE (http://www.pocketinfinity.com/) ...
   www.ppc-welt.info/community/.../t-26977.html - Im Cache - Ähnlich
  10.
   Google Verzeichnis - World > Deutsch > Computer > Plattformen > Atari
   Eine Beschreibung vom Atari ST/TT und Falcon kann man hier finden, sowie eine Auflistung der ... ATARI PCBridge - http://www.geocities.com/dr_seppel/ ...
   www.google.com/Top/World/Deutsch/Computer/.../Atari/ - Ähnlich

Zurück
   1   2   3   4   5   6   7   8   9   10   Vorwärts

Auf Perters Seite ist eine Seite die sich mit Atari ST beschäftigt:
http://de.geocities.com/sieg.peter/atarist/atarist.html
Diese Seite jetzt z.B. mit wget archiviren (Habe noch nicht mit wget gearbeitet)?

Oder gibt es eine bessere Lösung?

Gruß Arthur

@Ingo, deine Posts sind lesbar hier im Forum.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 14:04:03: Arthur,

man sollte den Suchbegriff

"site:geocities.com atari"

benutzen. Damit erhält man auch ausschließlich Treffer von geocities. den Suchbegriff atari könnte man ja noch weiter verfeinern (z.b. atari homecomputer oder atari st oder was auch immer).

Gruß
Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Do 17.09.2009, 14:24:36: Soweit so gut, aber was machen wir jetzt damit nicht alle Seiten doppelt, dreifach, zehnfach gesichert werden? Wo sollen die Links zwecks abgleich zusammengetragen werden?

Gruß Arthur
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: UdoWoy am Do 17.09.2009, 15:05:09: Wenn ich bei mir google komm ich schon mal locker auf fast 10.000 Internetseiten wo soll man da anfangen mit archivieren und wie soll man den Überblick behalten was schon gesichert wurde und was nicht .... :P
Kann ja beim Erstellen der Übersicht helfen, muß mir nur gesagt werden - wie....
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 15:44:58: Jetzt hatte ich gerade das gleiche Problem wie Tuxie, meine Antwort wurde nicht gepostet :o

Also nochmal in kürze.

1. Mit dem von mir weiter oben genannten Ausdruck bekommt man nur Seiten, die auch wirklich bei geocities.com liegen. Hier sind das genau 6.480 Treffer.

2. Dass Seiten doppelt heruntergeladen werden macht nichts, da sie sich selbst überschreiben. Beispiel: Ich lade Site1, die verlinkt auf Site2 (auch bei geocities) und wird deshalb mit heruntergeladen. Danach Lade ich Site2 (steht auch in den Google Ergebnissen) und diese überschreibt die bei Site1 heruntergeladenen Ergebnisse. Nicht schlimm, kostet nur mehr Zeit und Bandbreite.

3. Danach muss man nur die Links zu den unbrauchbaren Seiten aussortieren (z.b. habe ich einige Startrek Sites beim Testen mitgesichert, weil die von atari seiten aus verlinkt waren).

Gruß
Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: UdoWoy am Do 17.09.2009, 16:10:48: Zitat von: Johannes am Do 17.09.2009, 15:44:58
Jetzt hatte ich gerade das gleiche Problem wie Tuxie, meine Antwort wurde nicht gepostet :o

Also nochmal in kürze.

1. Mit dem von mir weiter oben genannten Ausdruck bekommt man nur Seiten, die auch wirklich bei geocities.com liegen. Hier sind das genau 6.480 Treffer.
...
Gruß
Johannes

Ok, mit der gleichen Suche komme ich jetzt bei mir auf 6270 - wie dann weiter?
Wo soll die Hilfe jetzt einsetzen?...
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Do 17.09.2009, 16:23:15: Eigentlich müssen wir nur noch einen Parser finden, der die Google Suchergebnisse in schöne normale URLs ausgibt und diese List kann Tuxie dann verwenden um daraus ein automatisiertes WGET Skript zu bauen. Dann wüden alle (!) Sicherungen zentral laufen, was das absolut beste wäre. Die Hilfe setzt dann erneut ein, wenn die Sicherung abgeschlossen ist und wir Seiten löschen müssen, die wir nicht wollen, aber aus versehen mitgesichert wurden.

aber das thema kann man ja noch nachher klären.

Grüße
Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: UdoWoy am Do 17.09.2009, 16:50:26: Habe ich mir auch so gedacht, habe aber noch keinen Parser dafür gefunden...
Wenn man einem Parser klar machen könnte das er alle "grün" geschrieben Zeilen in eine Liste schreiben soll - bei mir sind in der Ergebnisliste alle URL grün ...
Notfalls muß man ebend alle URL - Zeilen in eine Liste kopieren. Habe mal probeweise 50 Stück kopiert dauert aber ca. 10 Minuten!?! Ich glaube nach einer Stunde hat man erstmal genug - ist ja wie Strafarbeit... :'(
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Do 17.09.2009, 18:13:07: Wenn 6xxx Links durch 20 oder 30 Leute geteilt werden könnte jedem ein Bereich zugeordnet werden.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Do 17.09.2009, 20:01:34: Wenn ich die Seitenurls als liste, textdatei!! JEder URL eine neue Zeile, dann ist das ziehen ein klacks, weil ja mein Server direkt am Netz hängt und keine Download begrenzung durch DSL hat. Wie wir das dann verteilen sollte man später klären!!

Das mit dem Post nicht sichtbar war IRONISCH gemeint!!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: FrederickMeißner am Do 17.09.2009, 20:43:36: Zitat von: tuxie am Do 17.09.2009, 20:01:34

Das mit dem Post nicht sichtbar war IRONISCH gemeint!!

Hä?

Aber mal was anderes:

Archive.org saved die doch... wozu die Arbeit ??? Ist nicht böse gemeint, aber mir erschließt sich das gerade nicht... Ist da was anders? Bitte um Aufklärung!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: UdoWoy am Do 17.09.2009, 20:53:11: Kann schon mal die ersten 300 URL´s als Liste fertig stellen, dann direkt an Tuxie - oder wie? ??? ??? ???
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Do 17.09.2009, 23:12:03: Zitat von: FrederickMeißner
Archive.org saved die doch... wozu die Arbeit ??? Ist nicht böse gemeint, aber mir erschließt sich das gerade nicht... Ist da was anders? Bitte um Aufklärung!

Archive.org macht einiges, aber schafft sicher nicht alles. Du kannst dort URLS eintragen die sie sichern sollen, was zeigt, daß sie sicher nicht alles schaffen.

Und selbst bei den Seiten die dort eingetragen sind, ist nicht gesagt, daß Bilder oder gar Donloads verfügbar sind, was sogar meißtens nciht der Fall ist.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: simonsunnyboy am Sa 19.09.2009, 11:38:52: K.A. wie ihr jetz tgenau vorgehen wollt, aber eine ausgesuchte Seite habe ich mal ganz fix in mein Blog übernommen, bevor Geocities dicht macht.

Unter http://www.final-memory.org/?page_id=848 (http://www.final-memory.org/?page_id=848) findet ihr einen Mirror von http://www.geocities.com/yotisrx7/PowerPack.html (http://www.geocities.com/yotisrx7/PowerPack.html), d.h. die Anleitungen zu den Spielen aus dem Atari Powerpack.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Sa 19.09.2009, 19:42:24: Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am So 20.09.2009, 13:42:15: Hallo zusammen,

der Parser ist fertig und arbeitet fleissig. Leider musste ich eine zufällig Pause von einigen Sekunden zwischen den Aufrufen einbauen, da Google zu schnelle Abfragen erkennt und blockiert :o

Er ist jetzt bei 200 URLs und dürfte noch einige Zeit Laufen. Im Laufe des Tages stelle ich dann die Datei ein, mit der Tuxie den Download anstossen kann...

Wir müssen nur noch klären, ob wir dein Einzellinks bei google vertrauen oder ob wir WGET (das Downloadtool) den Links in einer Seite folgen lassen.

Grüße
Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am So 20.09.2009, 20:48:09: Kleiner Zwischenstand.

Google ist doof! ;D

1. Google hat mich ein paar mal gesperrt, aber ne neue IP Adresse hat geholfen

2. Man kann immer nur die Suchergebnisse 1-1000 abrufen. D.h. Treffer 1001 bis 6430 sind für uns unerreichbar.

Ich habe jetzt ca. 40 verschiedene Suchanfragen auf google losgelassen, die alle mit leicht abgewandelten suchbegriffen Ergebnisse liefern. Dann prüfe ich auf Duplikate und baue eine Liste mit URLs auf.

Wir liegen so immerhin bei ca. 4400 URLs. Ich werde noch einige Suchvarianten ausprobieren und hoffe noch mehr der 6400 Treffer auslesen zu können.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: UdoWoy am So 20.09.2009, 21:17:18: ja, komme bei Google auch nur bis Seite1000, danach sperrt es mich auch - wodran liegt das? ???
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am So 20.09.2009, 21:50:18: Das liegt natürlich an Google, die kein Interesse haben, dass Bots ihren gesamten Index herunterladen - irgendwie logisch.

ich bin mittlerweile auf

5966 URLs gekommen ;D

@TUXIE: ich habe Dir die Liste mal angehängt. Es ist eine Gezippte Textdatei. Vielleicht kannst du schonmal einen Testlauf mit WGET machen. Ich würde vorschlagen alle verknüpften Images etc. mit runterzuladen und vielleicht die Linktiefe auf 1 oder 2 zu setzen. Außerdem sollte man wohl den Befehl einstellen, dass absolute Links zu relativen umgeformt werden, damit man innerhalb der Seiten auch browsen kann.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 13:31:52: Ähm wasn das für eine Datei? Bekomme sie nicht geöffnet!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Mo 21.09.2009, 13:59:18: Hi Tuxie,

das ist eine ZIP Datei. bitte umbennen...

Johannes
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: draconis1 am Mo 21.09.2009, 14:32:28: Zitat von: tuxie am Mo 21.09.2009, 13:31:52
Ähm wasn das für eine Datei? Bekomme sie nicht geöffnet!

Acrobat kennt das Format auch nicht?! Oh Johannes war TURBOSCHNELL... ;D
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 15:43:40: Hi,

also es läuft, mein Server leecht. Boah das kann dauern, aber sind schon am anfang einige dabei die nicht funktionieren. Ähm, entweder ich versuche ein script zu bauen wo das Sortiert wird und ich sehen kann was gelaufen ist und was nicht.. Oder wir lassen einfach laufen und schauen was kommt. Am ende können wir wohl eh nix weiter machen wenn seiten bereits down sind.

Boah hoffentlich reicht der Speicherplatz aus.

WGET macht das wunderbar, er baut auch die Links dann so um das sie funktionieen sollten.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 16:02:53: Für die die es Interessiert

wget -r -l 2 -k -L -p -i ../../files/googleURLs_TestRun.txt
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Mo 21.09.2009, 17:23:14: Zitat von: tuxie am Mo 21.09.2009, 16:02:53
Für die die es Interessiert

wget -r -l 2 -k -L -p -i ../../files/googleURLs_TestRun.txt

@ Ingo, was sollen mir diese hyroglyphen sagen?

@ Johannes, ich hab es schneller gelöscht.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 18:42:40: @Arthur!!!
Zitat von: tuxie am Mo 21.09.2009, 16:02:53
Für die die es Interessiert
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Mo 21.09.2009, 18:47:08: Zitat von: Johannes am Sa 19.09.2009, 19:42:24
Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes

Hallo Johannes, wie hast Du jetzt diese Liste erstellt und unter welchem OS?

Gruß Arthur
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Mo 21.09.2009, 18:48:16: Also einmal ein dickes Dankeschön, an euch alle für die schnelle, kompetente und sinnvolle Zusammenarbeit!

Bzgl. Seiten die Down sind, könnte man die im Nachhinein noch ausgeben lassen und sehen, ob sich etwas davon noch im Google-Cache befindet?
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 18:50:25: Also, ich glaube das echt eine Arbeit ist die nicht wirklich viel bringt! Das was er bis jetzt runder geladen hat ist nicht wirklich brauchbar!!

Sehrrrrrrrr viele Links tot!!

und es ist sehr viel bei, was mit Atari Garnix zu tun hat.

Ähm, das macht er momentan nicht, naja läuft jetzt schon einige Zeit und es ist noch kein Gigabyte zusammen gekommen. Aber sicher schon an die 1000 seiten durch!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Mo 21.09.2009, 18:53:22: Zitat von: tuxie am Mo 21.09.2009, 18:42:40
@Arthur!!!
Zitat von: tuxie am Mo 21.09.2009, 16:02:53
Für die die es Interessiert
Jetzt gib mal nicht so an. Ausserdem hast ja Johannes Posts auch nicht alle richtig durchgelesen. Bisschen mehr Infos auch für Normalos...Danke. ;)

Gruß Arthur
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Mo 21.09.2009, 18:54:27: Zitat von: Arthur am Mo 21.09.2009, 18:47:08
Zitat von: Johannes am Sa 19.09.2009, 19:42:24
Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes

Hallo Johannes, wie hast Du jetzt diese Liste erstellt und unter welchem OS?

Gruß Arthur

Ich habe ein kleines Konsolenprogramm (.NET 3.5 in C#, unsere "Haussprache") geschrieben. Das läuft unter Windows, baut eine HTTP-Verbindung auf, Fragt Google, holt sich die Ergebnisseite, säubert den HTML-Code, wandelt diesen in XML um und dann hole ich per XPath suchausdrücken die Links aus dem Dokument. Dann schaue ich noch mit Hilfe einer Liste, ob die Links schonmal gefunden wurden und speichere das ganze ab. Zwischendurch macht das Programm noch zufällige Pausen und verändert den HTTP-Header, damit Google mir nicht auf die Schliche kommt.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 18:56:10: Ich dachte mehr das auch noch jemand leechen möchte, deswegen habe ich die wget syntax hier gepostet! Weil reicht ja wenn sich einer die manpages durchforstet.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Johannes am Mo 21.09.2009, 18:57:23: Zitat von: tuxie am Mo 21.09.2009, 18:50:25
Also, ich glaube das echt eine Arbeit ist die nicht wirklich viel bringt! Das was er bis jetzt runder geladen hat ist nicht wirklich brauchbar!!

Sehrrrrrrrr viele Links tot!!

und es ist sehr viel bei, was mit Atari Garnix zu tun hat.

Ähm, das macht er momentan nicht, naja läuft jetzt schon einige Zeit und es ist noch kein Gigabyte zusammen gekommen. Aber sicher schon an die 1000 seiten durch!

Wenn du die toten Links ausgeben lassen könntest, könnte man WGET dann nochmal über den Google-Cache laufen lassen...
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: tuxie am Mo 21.09.2009, 18:59:04: Ich schau was ich machen kann! Denke werde da doch ein shellscript bauen müssen.

Wer möchte bekommt von mir die FTP zugangsdaten und kann mal rein sehen!!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Mi 23.09.2009, 00:13:24: Irgendwie sind die Links nicht das was ich erwartet habe. Die Idee war nicht schlecht. Ich kann mit dem Zeug nichts anfangen. Zuviel das nichts mit Atari was zu tun hat. Allein das Durchforsten kann Wochen dauern und mit 8Bit kann ich mich nicht so recht anfreunden. Wär besser wenn spezifiziertere Suchbegriffe benutzt würden und mit mehreren Listen (Atari ST, STe, TT, Falcon, Jaguar u.s.w.) gearbeitet würde.

Gruß Arthur
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: afalc060 am Mi 23.09.2009, 01:27:47: Ich habe nun nicht auf die Liste Zugriff, aber:
Es geht um Atari allgemein und nicht nur um spezielle interessengebiete von speziellen Personen. Herzlichen Dank für die Beachtung!
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Arthur am Mi 23.09.2009, 02:17:37: Hier ist die Liste (http://forum.atari-home.de/index.php?action=dlattach;topic=6257.0;attach=1279).

Für Wenigleser: Die Datei ist keine PDF-Datei sondern eine gezippte Textdatei. Also voher bitte umbenennen und dann entzippen.
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Mo 26.10.2009, 16:29:13: Wollte nur mal´ nachfragen, da wir ja nurmehr wenige Stunden Zeit haben, wie´s aussieht?
Titel: Re: Geocities; was tun?! – aber schnell!
Beitrag von: Mathias am Fr 13.11.2009, 07:57:42: Ganz plump gefragt, weil ich seit 26.10. keine Antwort bekommen hab´:

Haben wir´s verpfuscht?