Datafying Bärn

Wer hat wann und wo in Bern gewohnt? Daten in den Adressbüchern der Stadt Bern (1900-1945) strukturieren.

#datafyingbaern

⛶  Open fullscreen

Was?

Die Universitätsbibliothek Bern hat in Zusammenarbeit mit dem Stadtarchiv Bern die Adressbücher der Stadt Bern vollständig digitalisiert. Hier sind alle Einwohner, Gewerbe und Einrichtungen mit Adressen im alten Stadt-Bern verzeichnet. Wir beschränken uns in der Challenge auf die Einwohnerverzeichnisse der Jahrgänge 1900-1945 - diese verfügen zudem über (sehr interessante :) Berufsangaben der EinwohnerInnen.

Diese Angaben sollen in eine strukturierte Form überführt werden, damit sie für Analysen und weitere Anwendungen nutzbar werden. Denkbar ist ein einfaches Format wie z.B. CSV oder JSON, das die Daten Name, Vorname, Beruf, (Titel/Anrede), (Quartier), Strasse, Hausnummer, (Telefonnummer) enthält.

Wie sieht so ein digitalisiertes Adressbuch aus? Hier ist ein Beispiel. Die Adressbücher sind nicht nur so kapitelweise strukturiert zugänglich, sondern Bildateien, Original-OCR-Dateien, TXT-Dateien und PDFs (je Kapitel) sind über Schnittstellen verfügbar.

Und wo ist das Problem?

Die Datenelemente der Personen sind in der Regel mit Kommata getrennt, die Anzahl der Datenelemente kann jedoch variieren. Es werden viele Abkürzungen verwendet und es gibt dann und wann OCR-Fehler. Neben Personen tauchen auch Einrichtungen auf.

Materialien

Challenge Slides

https://docs.google.com/presentation/d/e/2PACX-1vT2VcW85Wa2O3yZbnJQ96fSXi_NwCt22Tb1p0p8VNk3PqN-UNoGYk5VtbKwzaXKx3aS4ym4hVWt973F/pub?start=false&loop=false&delayms=3000

📦 File: Infomaterial (PDF) zu Datenzugängen, Schnittstellen & Formaten

📦 File: Tabelle (CSV) mit IDs der Einwohnerverzeichnisse je Jahrgang

📦 Aktuelles amtliches Verzeichnis der Gebäudeadressen: Zur Kontrolle der OCR-erfassten und strukturierten Adressen, Hinweis: Spalte COM_FOSNR nach 351 (BFS-Gemeindenummer für Bern) filtern

📦 File: Familiennamenbuch der Schweiz (CSV) [Familiennamenbuch online] als Kontrollvokabular

Ausgangsdaten: Berner Adressbücher

Quellen für die Auflösung von Abkürzungen, historische Wörterbücher, topografische Informationen

Bern Address Book

Setup

$ git clone https://github.com/brawer/bern-addresses.git
$ cd bern-addresses
$ python3 -m venv venv
$ venv/bin/pip3 install -r requirements.txt
$ venv/bin/python3 src/fetch.py
This content is a preview from an external site.
 

Presentation time!

14.05.2023 12:06 ~ kwoitas

Event finished

13.05.2023 15:00

13.05.2023 13:22 ~ jovan_gocev

Edited content version 140

13.05.2023 13:18 ~ jovan_gocev

Edited content version 138

13.05.2023 13:17 ~ jovan_gocev

Edited content version 136

13.05.2023 13:05 ~ jovan_gocev

Edited content version 134

13.05.2023 11:36 ~ jovan_gocev

Edited content version 132

13.05.2023 11:35 ~ jovan_gocev

Edited content version 130

13.05.2023 11:32 ~ jovan_gocev

Edited content version 128

13.05.2023 11:27 ~ jovan_gocev

Edited content version 126

13.05.2023 11:26 ~ jovan_gocev

Add more family names from Wikidata, manually checked by Thomas Hayoz (@brawer)

Verify

13.05.2023 10:49

Edited content version 124

13.05.2023 10:49 ~ jovan_gocev

Edited content version 122

13.05.2023 10:45 ~ jovan_gocev

Edited content version 120

13.05.2023 10:42 ~ jovan_gocev

Edited content version 118

13.05.2023 10:40 ~ jovan_gocev

Edited content version 115

13.05.2023 10:17 ~ jovan_gocev

Write CSV output file with geocoded addresses (@brawer)

Verify

13.05.2023 10:12

Edited content version 113

13.05.2023 10:12 ~ jovan_gocev

Joined the team

13.05.2023 09:55 ~ jovan_gocev

Minor fixes to 1934-12-15.txt (#7) (@pdaengeli)

Fix crash due to malformed input in 1934 data file (@brawer)

Extract phone numbers from 1900 to 1917, for address cleanup (@brawer)

Remove "Strasse" as family name (@brawer)

Manual fixes by Jovan G. to 1934-12-15.txt, then applied OCR fixes (#6)

  • Manual fixes by Jovan G.

  • Applied OCR fixes to 1934-12-15.txt (@pdaengeli)

Merge pull request #5 from pdaengeli/main

Applied OCR corrections (@pdaengeli)

Applied OCR corrections (@pdaengeli)

Minor fixes for 1908 (@brawer)

Minor fixes for 1907 (@brawer)

Minor fixes for 1906 (@brawer)

Minor fixes for 1905 (@brawer)

Write CSV file with output addresses (@brawer)

Add Einstein as family name, for demo (@brawer)

Merge pull request #4 from pdaengeli/main

Applied OCR corrections (@brawer)

Applied OCR corrections (@pdaengeli)

Merge pull request #3 from pdaengeli/main

Applied misc OCR fixes (@brawer)

Integrated brawer's fixes to 1944 file (@pdaengeli)

Fix typos in 1944 (@brawer)

OCR corrections 1900-02-15.txt (@pdaengeli)

Merge branch 'main' into main (@pdaengeli)

Fix some typos in 1900 address book (@brawer)

Applied misc OCR fixes (cont.) (@pdaengeli)

Applied misc OCR fixes (@pdaengeli)

Cleanup: Kirchenfeld (@brawer)

Cleanup: Gehülfe, gehülfe (@brawer)

Cleanup: gasse + number (@brawer)

Cleanup: Misc. OCR fixes (@brawer)

Cleanup: gasse (@brawer)

Cleanup: Biihl -> Bühl (@brawer)

Merge pull request #2 from pdaengeli/main

Add OCR cleanup script (@brawer)

Add OCR cleanup script

This should tackle some more or less common OCR mistakes in the text files.

May be run any time and shouldn't break anything, but never wrong to have a look at the diff. (@pdaengeli)

Print out most frequent unknown family names (@brawer)

Fix some typos in 1944 (@brawer)

Add fixes for 1944, by Daniela Rölli (@brawer)

Add fixes for 1904, by Thomas Hayoz (@brawer)

Fix some typos (@brawer)

Merge pull request #1 from random-ao/ao

Add BE only version of pureadrbe.csv (ch.swisstopo.amtliches-gebaeudeadressverzeichnis) (@brawer)

Add BE only version of pureadrbe.csv (ch.swisstopo.amtliches-gebaeudeadressverzeichnis) (@A)

Verify

12.05.2023 15:27

Small data view

12.05.2023 15:27 ~ kwoitas

Data checking...

12.05.2023 15:25 ~ kwoitas

Our challenge is progressing

12.05.2023 15:21 ~ daniela_roelli

Repository updated

12.05.2023 15:19 ~ daniela_roelli

Print failing lines (@brawer)

Fix a couple of typos (@brawer)

Add missing family names from "Familiennamenbuch der Schweiz" (@brawer)

Fix typos A-E in volume 1934-12-15 (@brawer)

Emit all texts to be proofread (@brawer)

Ask

12.05.2023 12:59

Edited content version 92

12.05.2023 12:59 ~ daniela_roelli

Edited content version 90

12.05.2023 12:58 ~ daniela_roelli
12.05.2023 12:45 ~ oleg

Add content to be proofread (@brawer)

Improve text extraction (@brawer)

Ask

12.05.2023 10:18

Many ideas for further data processing: cleaning, geo referencing, visualization, search index...

12.05.2023 10:18 ~ kwoitas

Add mapping file with date, page ID, and page label (@brawer)

Ask

12.05.2023 09:16

Working on data extraction from the OCRified Adressbooks from 1900 till 1940. Goal: one string for every entry. Next step: data segmentation.

12.05.2023 09:16 ~ daniela_roelli

Event started

12.05.2023 09:00

Daniela kicks off the Hackdays with the Datafying Bern challenge

12.05.2023 07:32 ~ oleg

Ask

04.05.2023 12:19

Edited content version 75

04.05.2023 12:19 ~ Thomas

Edited content version 73

04.05.2023 12:17 ~ Thomas

Edited content version 71

04.05.2023 12:16 ~ Thomas

Python-Skript zum Herunterladen und Parsen der OCR-Texte: https://github.com/brawer/bern-addresses

03.05.2023 15:14 ~ sascha

Joined the team

03.05.2023 15:13 ~ sascha

Edited content version 63

17.04.2023 14:54 ~ Felix

Edited content version 61

12.04.2023 08:01 ~ AndrGolliez

Edited content version 59

27.03.2023 09:37 ~ daniela_roelli

Edited content version 57

27.03.2023 09:21 ~ daniela_roelli

Edited content version 55

21.03.2023 12:59 ~ kwoitas

Edited content version 53

21.03.2023 12:45 ~ kwoitas

Edited content version 51

21.03.2023 12:40 ~ Felix

Edited content version 49

21.03.2023 12:36 ~ Felix

Joined the team

20.03.2023 10:42 ~ Thomas

Edited content version 46

16.03.2023 07:17 ~ kwoitas

Edited content version 44

15.03.2023 08:33 ~ kwoitas

Edited content version 42

15.03.2023 07:37 ~ kwoitas

Edited content version 40

14.03.2023 14:29 ~ kwoitas

Edited content version 38

14.03.2023 14:21 ~ kwoitas

Edited content version 36

14.03.2023 14:07 ~ kwoitas

Edited content version 34

14.03.2023 14:03 ~ kwoitas

Edited content version 32

14.03.2023 14:01 ~ kwoitas

Edited content version 30

14.03.2023 13:47 ~ kwoitas

Edited content version 28

14.03.2023 13:35 ~ kwoitas

Edited content version 26

14.03.2023 13:32 ~ kwoitas

Joined the team

13.03.2023 14:21 ~ kwoitas

Edited content version 23

13.03.2023 11:40 ~ daniela_roelli

Edited content version 21

13.03.2023 11:40 ~ daniela_roelli

Edited content version 19

13.03.2023 11:38 ~ daniela_roelli

Edited content version 17

13.03.2023 11:36 ~ daniela_roelli

Edited content version 15

13.03.2023 11:35 ~ daniela_roelli

Edited content version 13

08.03.2023 15:44 ~ Felix

Joined the team

08.03.2023 15:15 ~ daniela_roelli

Edited content version 6

19.01.2023 16:48 ~ Felix

Edited content version 4

19.01.2023 16:41 ~ Felix

Edited content version 2

19.01.2023 16:38 ~ Felix
 
Alle Teilnehmer*innen, Sponsor, Partner, Freiwilligen und Mitarbeiter*innen unseres Hackathons sind verpflichtet, dem Hack Code of Conduct zuzustimmen. Die Organisatoren werden diesen Kodex während der gesamten Veranstaltung durchsetzen. Wir erwarten die Zusammenarbeit aller Teilnehmer*innen, um eine sichere Umgebung für alle zu gewährleisten.

Tous les participant-es, sponsors, partenaires, bénévoles et collaborateur-es de notre hackathon sont tenus d'accepter le Hack Code of Conduct. Les organisateurs feront appliquer ce code tout au long de l'événement. Nous comptons sur la coopération de tous les participants* afin de garantir un environnement sûr pour tous. Pour plus de détails sur le déroulement de l'événement, veuillez consulter les directives sur notre wiki.

Creative Commons LicenceDie Inhalte dieser Website stehen, sofern nicht anders angegeben, unter einer Creative Commons Attribution 4.0 International. / Sauf indication contraire, le contenu de ce site est placé sous Creative Commons Attribution 4.0 International.

Data Hackdays BE 2023