Entwicklung eines Proof-of-concept Prototypen einer Suchmaschine, die Webseiten mittels eines eigenen Crawlers in neuartiger Weise verarbeitet und die Ergebnisse mit statistischen Analyseverfahren aggregiert.
In diesem Projekt wurde ein Prototyp einer Suchmaschine für Jobs und Projekte entwickelt, die nicht nur vorhandene Quellen wie Twitter und Projektbörsen aggregiert, sondern darüber hinaus selbst Seiten von Projektanbietern und Endkunden erfasst und verarbeitet. Dazu wurde ein Crawler entwickelt, der gewissen Seiten versteht: Projektangebote auf den Webseiten der Anbieter sehen für gewöhnlich gleich aus, auch wenn sich ihr Aufbau von Anbieter zu Anbieter ändert. Somit es möglich, Inhalte wie die Projektbeschreibung, den Einsatzort und andere Faktoren zielsicher im HTML der Seite zu erfassen.
Eine nachgelagerte Analyse findet Schlüsselworte im Text und verschlagwortet daraufhin das Angebot: So lassen sich zum Beispiel die Begriffe “Hibernate”, “Struts” und “jUnit” dem Themenkomplex “Java-Entwicklung” zuordnen. “MS Project” ist das gleiche wie “Microsoft Project” und gehört thematisch zu “Microsoft Office” - durch Anwendung dieser Verfahren lassen sich Projektthemen zielsicher eingrenzen. Gleiches gilt für den Einsatzort des Projektes, her erfasst ein spezialisiertes Geocoding nicht nur Begriffe wie “Frankfurt/M.” und “Frankfurt am Main”, sondern auch “Großraum Ffm.”, “NRW” oder “D5”
Das Backend wurde mit Ruby on Rails implementiert. Für die Volltextsuche kam die Opensource-Komponenten Sphinx zum Einsatz.