Erfassung von Kontaktdaten öffentlicher Verwaltungen durch Einsatz von NLP

Zuletzt standen wir vor der Herausforderung, die Ansprechpartner für spezifische Anliegen in öffentlichen Verwaltungen deutschlandweit zusammenzustellen. Um den händischen Aufwand so gering wie möglich zu halten, haben wir die offiziellen Webseiten mit einem Scraper analysiert und ein NER Model trainiert, das die Kontaktdaten der relevanten Abteilungen automatisch extrahiert. Das Ergebnis ist eine umfassende Liste von über 10.000 vollständig qualifizierten Kontakten.

Foxy Bytes

Einstieg

Zuerst war es notwendig die Liste der relevanten öffentlichen Verwaltungen mit den Einträgen unseres internen Datenbestandes abzugleichen. Dies stellte schon die erste Herausforderung dar, da uns lediglich eine Liste von Namen der Regionen ohne einen häufig verwendeten Identifier wie AGS or GISCO vorlag. Deshalb haben wir unsere initial für den Job Cube entwickelte Heuristik zum Auflösen von Einsatzorten wiederverwendet. Hierbei konnten 8% der Einträge nicht automatisch einer Verwaltung zugeordnet werden, beispielsweise weil der Name nicht eindeutig war, und mussten manuell zugeordnet werden.

Nachdem die Liste strukturiert und verknüpft vorlag, musste im nächsten Schritt die aktuelle Internetpräsenz aller Verwaltungen identifiziert werden. Durch Kombination der Informationen von Wikipedia und automatisierten Google Suchen, konnte für über 95% der Einträge automatisch eine Internetadresse bestimmt werden. Wie im Schritt davor, musste der verbliebende Rest händisch recherchiert werden. Ausgehend von dieser Liste wurden alle Webseiten mittels einer Liste von Schlüsselwörtern durchsucht, um diejenigen Seiten zu identifizieren, die wahrscheinlich die Kontaktdaten der Amtsperson von Interesse beinhalten.

Training des NER

Aufgrund unser gesammelten Erfahrung in der Extraktion von Ansprechpartnern aus den Texten von Stellenausschreibungen, war es möglich aufbauend auf einem existierenden NER Model direkt mit der Annotation und dem Training zu starten. Die verbliebene Zeit konnten wir nutzen und die Umwandlung der Webseiten in Text zu verbessern, indem wir die in den Strukturen (z.B. Tabellen, Listen oder Überschriften) enthaltenen Informationen erhalten. Von diesem Kontext konnte das Model eindeutig profitieren und erreichte bereits nach 400 annotierten Scraping Ergebnissen eine zufriedenstellende Genauigkeit (F1) von 88,25%.

...
Trotz kleines Training Datensatzes (400 Dokumente) erzielt das NER gute Ergebnisse.

Review

Sämtliche extrahierten Daten wurden per Hand verifiziert und ergänzt, sofern das Ergebnis des automatisierten Prozesses nicht zufriedenstellend war. Über 10.000 qualifizierte Kontakte aus 3.500 Verwaltungen konnten gefunden und validiert werden. Somit konnte unserem Kunden in kürzester Zeit ein belastbarer, vollständer und äußerst qualitativer Datensatz zur Verfügung gestellt werden.

“Initial als einmaliges Projekt gestartet haben wir unsere Erwartungen bezüglich Datenqualität und -volumen deutlich übertroffen. Deshalb arbeiten wir bereits an einem konstanten Datenfluss, der das CRM des Kunden mit Änderungen versorgt. Dies könnte die erste vollständige Anlaufstelle für voll qualifizierte Kontakte öffentlicher Verwaltungen werden. ”

Lukas

Interessiert?

Nimm jetzt Kontakt auf und erfahre mehr über unsere Scraping und Natural Language Processing Lösungen.

Kontakt