Allgemeines > Atari - Talk

Geocities; was tun?! – aber schnell!

<< < (9/10) > >>

Johannes:

--- Zitat von: Arthur am Mo 21.09.2009, 18:47:08 ---
--- Zitat von: Johannes am Sa 19.09.2009, 19:42:24 ---Hallo zusammen,

bevor ihr euch alle händisch ans Werk macht, gebt mir ein bisschen Zeit, ich möchte einen Parser für Google schreiben...

Je nachdem wieviel Zeit ich investieren kann, sollte der bald so weit sein.

Johannes

--- Ende Zitat ---

Hallo Johannes, wie hast Du jetzt diese Liste erstellt und unter welchem OS?

Gruß Arthur

--- Ende Zitat ---

Ich habe ein kleines Konsolenprogramm (.NET 3.5 in C#, unsere "Haussprache") geschrieben. Das läuft unter Windows, baut eine HTTP-Verbindung auf, Fragt Google, holt sich die Ergebnisseite, säubert den HTML-Code, wandelt diesen in XML um und dann hole ich per XPath suchausdrücken die Links aus dem Dokument. Dann schaue ich noch mit Hilfe einer Liste, ob die Links schonmal gefunden wurden und speichere das ganze ab. Zwischendurch macht das Programm noch zufällige Pausen und verändert den HTTP-Header, damit Google mir nicht auf die Schliche kommt.

tuxie:
Ich dachte mehr das auch noch jemand leechen möchte, deswegen habe ich die wget syntax hier gepostet! Weil reicht ja wenn sich einer die manpages durchforstet.

Johannes:

--- Zitat von: tuxie am Mo 21.09.2009, 18:50:25 ---Also, ich glaube das echt eine Arbeit ist die nicht wirklich viel bringt! Das was er bis jetzt runder geladen hat ist nicht wirklich brauchbar!!

Sehrrrrrrrr viele Links tot!!

und es ist sehr viel bei, was mit Atari Garnix zu tun hat.

Ähm, das macht er momentan nicht, naja läuft jetzt schon einige Zeit und es ist noch kein Gigabyte zusammen gekommen. Aber sicher schon an die 1000 seiten durch!

--- Ende Zitat ---

Wenn du die toten Links ausgeben lassen könntest, könnte man WGET dann nochmal über den Google-Cache laufen lassen...

tuxie:
Ich schau was ich machen kann! Denke werde da doch ein shellscript bauen müssen.

Wer möchte bekommt von mir die FTP zugangsdaten und kann mal rein sehen!!

Arthur:
Irgendwie sind die Links nicht das was ich erwartet habe. Die Idee war nicht schlecht. Ich kann mit dem Zeug nichts anfangen. Zuviel das nichts mit Atari was zu tun hat. Allein das Durchforsten kann Wochen dauern und mit 8Bit kann ich mich nicht so recht anfreunden. Wär besser wenn spezifiziertere Suchbegriffe benutzt würden und mit mehreren Listen (Atari ST, STe, TT, Falcon, Jaguar u.s.w.) gearbeitet würde.

Gruß Arthur

Navigation

[0] Themen-Index

[#] Nächste Seite

[*] Vorherige Sete

Zur normalen Ansicht wechseln