Freitag, 27. Juli 2007

Data-Mining StudiVZ

Bevor der StudiVZ-Virus in der Schweiz um sich griff (irgendwann einmal im Frühjahr 2007 begann die virale Infektion der Schweiz von Fribourg her nach Bern ausbreitend), nutzte ein findiger deutscher Programmierer seine Web-Kenntnisse, um mehr als eine Million StudiVZ-Profile abzugrasen. Die Auswertung („Data-Mining“) der so gewonnenen Daten finden sich hier:

StudiVZ – Inoffizielle Statistikpräsentation

Seither hat StudiVZ einiges (Geld & Grips) in Lösungen investiert, um das „crawlen“ von Profilen zu verhindern. Als gelegentlicher Benutzer der Plattform sind mir primär zwei Vorsichtsmassnahmen aufgefallen:

  • Captchas. Nachdem jemand eine bestimmte Anzahl von Seiten aufgerufen hat, muss er eine in einer Grafik angezeigte Zeichenfolge abschreiben. So verhindert man, dass die Anfragen von einer „Maschine“ ausgeführt werden.
  • Hashes als User-ID. Anstelle einer aufsteigenden Nummer verwendet man eine Zeichenkette aus Zahlen und Buchstaben, um einen Benutzer eindeutig zu identifizieren. Verwendet man wie bspw. Partyguide Benutzernummern, kann ein selbst geschriebenes Programm die Profile abgrasen, indem ein Zähler in einer Schleife konstant um hochgezählt wird (für Programmierer: i++).

Liked this post? Follow this blog to get more. 

Tags: ,
Labels: Web

Kommentar erfassen