Zuletzt standen wir vor der Herausforderung, die Ansprechpartner für spezifische Anliegen in öffentlichen Verwaltungen deutschlandweit zusammenzustellen. Um den händischen Aufwand so gering wie möglich zu halten, haben wir die offiziellen Webseiten mit einem Scraper analysiert und ein NER Model trainiert, das die Kontaktdaten der relevanten Abteilungen automatisch extrahiert. Das Ergebnis ist eine umfassende Liste von über 10.000 vollständig qualifizierten Kontakten.
Zuerst war es notwendig die Liste der relevanten öffentlichen Verwaltungen mit den Einträgen unseres internen Datenbestandes abzugleichen. Dies stellte schon die erste Herausforderung dar, da uns lediglich eine Liste von Namen der Regionen ohne einen häufig verwendeten Identifier wie AGS or GISCO vorlag. Deshalb haben wir unsere initial für den Job Cube entwickelte Heuristik zum Auflösen von Einsatzorten wiederverwendet. Hierbei konnten 8% der Einträge nicht automatisch einer Verwaltung zugeordnet werden, beispielsweise weil der Name nicht eindeutig war, und mussten manuell zugeordnet werden.
Nachdem die Liste strukturiert und verknüpft vorlag, musste im nächsten Schritt die aktuelle Internetpräsenz aller Verwaltungen identifiziert werden. Durch Kombination der Informationen von Wikipedia und automatisierten Google Suchen, konnte für über 95% der Einträge automatisch eine Internetadresse bestimmt werden. Wie im Schritt davor, musste der verbliebende Rest händisch recherchiert werden. Ausgehend von dieser Liste wurden alle Webseiten mittels einer Liste von Schlüsselwörtern durchsucht, um diejenigen Seiten zu identifizieren, die wahrscheinlich die Kontaktdaten der Amtsperson von Interesse beinhalten.
Aufgrund unser gesammelten Erfahrung in der Extraktion von Ansprechpartnern aus den Texten von Stellenausschreibungen, war es möglich aufbauend auf einem existierenden NER Model direkt mit der Annotation und dem Training zu starten. Die verbliebene Zeit konnten wir nutzen und die Umwandlung der Webseiten in Text zu verbessern, indem wir die in den Strukturen (z.B. Tabellen, Listen oder Überschriften) enthaltenen Informationen erhalten. Von diesem Kontext konnte das Model eindeutig profitieren und erreichte bereits nach 400 annotierten Scraping Ergebnissen eine zufriedenstellende Genauigkeit (F1) von 88,25%.
“Initial als einmaliges Projekt gestartet haben wir unsere Erwartungen bezüglich Datenqualität und -volumen deutlich übertroffen. Deshalb arbeiten wir bereits an einem konstanten Datenfluss, der das CRM des Kunden mit Änderungen versorgt. Dies könnte die erste vollständige Anlaufstelle für voll qualifizierte Kontakte öffentlicher Verwaltungen werden. ”
Nimm jetzt Kontakt auf und erfahre mehr über unsere Scraping und Natural Language Processing Lösungen.
Kontakt