Es war recht still in der letzten Zeit. Der Grund? Arbeit. Ich habe neben meiner Projektarbeit für Kunden mein eigenes Projekt der Suchmaschine für Projekte und Ausschreibungen erneut umgesetzt und live geschaltet. Im letzten Sommer ging eine erste Fassung online, die jedoch thematisch zu wenig fokussiert war. Der neue Ansatz lautet “Statistiken & Suchfunktion”.
Projektausschreibungen erscheinen täglich in großem Umfang neu und werden daher von allgemeinen Suchmaschinen wie Google und Bing nicht gut zeitnah erfasst. Der Crawler von metajob.it hingegen besucht die Zielseiten mehrfach am Tag und aktualisiert den Index sofort. Darüber hinaus kennt der Crawler den Aufbau der Zielseiten und kann so relevanten Text ganz spezifisch extrahieren: Projekttitel, -beschreibung und Einsatzort sind für allgemeine Suchmaschinen häufig nicht zu unterscheiden.
Natürlich bedeutet das, dass für jede Zielseite ein eigener Crawler programmiert werden muss, der die spezifischen Eigenheiten der Seite berücksichtigt. Aber der Aufwand lohnt sich: So kann metajob.it auch Inhalte erfassen, die allgemeinen Suchmaschinen überhaupt nicht zur Verfügung stehen, weil sie etwa hinter auf Javascript basierenden Formularen “versteckt” sind.
Eine besondere Funktion der metajob-Suchmaschine ist die automatische Analyse des Einsatzortes eines Projekts, mit dem Ziel, die Ausschreibung mehr oder weniger genau geographisch einzusortieren. Das ist nicht trivial: Die Angabe des Einsatzortes erfolgt als Freitext und ist zumeist sprachlich umschrieben:
Angaben wie diese werden vom Crawler erfasst, statisch untersucht und gewichtet und somit in geographische Angaben umgesetzt. Am Ende entsteht eine Karte wie diese:
Aktuell besucht der Crawler jeden Tag 10 verschiedene Projektanbieter und -portale, um dort nach neuen Ausschreibungen zu fahnden. Die Projekte sind im Volltext durchsuchbar, die Schlagwortanalyse wird ständig verfeinert. Die Ortsanalyse liefert viele gute Ergebnisse, lässt sich aber austricksen, wenn zB eine fünfstellige Projektnummer als Postleitzahl akzeptiert wird. Die strukturierte Ortssuche ist noch nicht umgesetzt.
metajob.it sucht noch Kooperationen mit Anbietern und Portalen. Wenn Sie dazu beitragen möchten, würde ich mich über Nachricht freuen.