Datafying Bärn

Wer hat wann und wo in Bern gewohnt? Daten in den Adressbüchern der Stadt Bern (1900-1945) strukturieren.

Was?

Die Universitätsbibliothek Bern hat in Zusammenarbeit mit dem Stadtarchiv Bern die Adressbücher der Stadt Bern vollständig digitalisiert. Hier sind alle Einwohner, Gewerbe und Einrichtungen mit Adressen im alten Stadt-Bern verzeichnet. Wir beschränken uns in der Challenge auf die Einwohnerverzeichnisse der Jahrgänge 1900-1945 - diese verfügen zudem über (sehr interessante :) Berufsangaben der EinwohnerInnen.

Diese Angaben sollen in eine strukturierte Form überführt werden, damit sie für Analysen und weitere Anwendungen nutzbar werden. Denkbar ist ein einfaches Format wie z.B. CSV oder JSON, das die Daten Name, Vorname, Beruf, (Titel/Anrede), (Quartier), Strasse, Hausnummer, (Telefonnummer) enthält.

Wie sieht so ein digitalisiertes Adressbuch aus? Hier ist ein Beispiel. Die Adressbücher sind nicht nur so kapitelweise strukturiert zugänglich, sondern Bildateien, Original-OCR-Dateien, TXT-Dateien und PDFs (je Kapitel) sind über Schnittstellen verfügbar.

Und wo ist das Problem?

Die Datenelemente der Personen sind in der Regel mit Kommata getrennt, die Anzahl der Datenelemente kann jedoch variieren. Es werden viele Abkürzungen verwendet und es gibt dann und wann OCR-Fehler. Neben Personen tauchen auch Einrichtungen auf.

Materialien

Challenge Slides

https://docs.google.com/presentation/d/e/2PACX-1vT2VcW85Wa2O3yZbnJQ96fSXi_NwCt22Tb1p0p8VNk3PqN-UNoGYk5VtbKwzaXKx3aS4ym4hVWt973F/pub?start=false&loop=false&delayms=3000

📦 File: Infomaterial (PDF) zu Datenzugängen, Schnittstellen & Formaten

📦 File: Tabelle (CSV) mit IDs der Einwohnerverzeichnisse je Jahrgang

📦 Aktuelles amtliches Verzeichnis der Gebäudeadressen: Zur Kontrolle der OCR-erfassten und strukturierten Adressen, Hinweis: Spalte COM_FOSNR nach 351 (BFS-Gemeindenummer für Bern) filtern

📦 File: Familiennamenbuch der Schweiz (CSV) [Familiennamenbuch online] als Kontrollvokabular

Ausgangsdaten: Berner Adressbücher

alle Bände (Jahrgänge) der Berner Adressbücher auf einen Blick auf e-rara
Beispiel Seite JPEG, max. Auflösung
Beispiel Seite ALTO-XML, original OCR-Datei
Beispiel Seite TXT, Inhalt = original OCR-Daten
Beispiel Kapitel Einwohnerverzeichnis, Textlayer = original OCR-Daten

Quellen für die Auflösung von Abkürzungen, historische Wörterbücher, topografische Informationen

Sammlung von Thomas im Slack-Channel #datafying_bärn

Bern Address Book

Setup

$ git clone https://github.com/brawer/bern-addresses.git
$ cd bern-addresses
$ python3 -m venv venv
$ venv/bin/pip3 install -r requirements.txt
$ venv/bin/python3 src/fetch.py

Preview of external content.

👋 Contact ✨ Demo 💻 Source

Alle Teilnehmer*innen, Sponsor, Partner, Freiwilligen und Mitarbeiter*innen unseres Hackathons sind verpflichtet, dem Hack Code of Conduct zuzustimmen. Die Organisatoren werden diesen Kodex während der gesamten Veranstaltung durchsetzen. Wir erwarten die Zusammenarbeit aller Teilnehmer*innen, um eine sichere Umgebung für alle zu gewährleisten.

Tous les participant-es, sponsors, partenaires, bénévoles et collaborateur-es de notre hackathon sont tenus d'accepter le Hack Code of Conduct. Les organisateurs feront appliquer ce code tout au long de l'événement. Nous comptons sur la coopération de tous les participants* afin de garantir un environnement sûr pour tous. Pour plus de détails sur le déroulement de l'événement, veuillez consulter les directives sur notre wiki.

Die Inhalte dieser Website stehen, sofern nicht anders angegeben, unter einer Creative Commons Attribution 4.0 International. / Sauf indication contraire, le contenu de ce site est placé sous Creative Commons Attribution 4.0 International.

Previous
Data Hackdays BE 2023
Next project