Pilot geocoderen beeldbank Het Utrechts Archief: straten en stations

De beschrijvingen van beeldbankrecords doorzochten we op alle straatnamen binnen de gemeente Utrecht.

Buiten Utrecht hebben we het anders gedaan: eerst zochten we met een reguliere expressie naar -weg, -straat, -laan, etc. en plaatsnaam. Als beiden gevonden werden hebben we daar op Wikidata een straat bij gezocht.

In de beeldbank is ook de fotocollectie van de NS opgenomen. We hebben de beeldbank doorzocht op de namen van stations die in Wikidata opgenomen zijn.

Om de resultaten te bekijken (en te valideren) hebben we drie kaartjes gemaakt.

Straten in de gemeente Utrecht

In de beeldbank zijn 145.823 vermeldingen gevonden van 2.155 straten binnen de gemeente Utrecht.

Straten buiten Utrecht

Buiten de gemeente Utrecht zijn 9.782 vermeldingen gevonden van 1.303 verschillende straten.

Stations

Er zijn 1179 stations in Nederland (geweest). Daarvan hebben we er 511 in de beeldbank gevonden op 12.256 afbeeldingen.

Wikidata, BAG & LOD

We hebben koppelingen gelegd naar zowel Wikidata als BAG identifiers. Binnen het kader van dit project zijn daarom - op enige tientallen na - alle straten binnen de provincie Utrecht op Wikidata van BAG id voorzien. Zo hebben anderen er ook weer wat aan.

Zowel de beeldbank metadata als de koppelingen met straten en stations zijn als linked open data (LOD) gepubliceerd en toegankelijk gemaakt via een SPARQL-endpoint.

Doordat je meerdere endpoints in één query kunt bevragen kan je nu de beeldbank doorzoeken op stations van de architect Sybold van Ravenstein. Of op in de jaren '90 opgeheven stations.

Toekomstig werk

Er is, als altijd, natuurlijk nog genoeg te doen.

  • De koppelingen met BAG en Wikidata URIs zouden opgenomen moeten worden in het eigen systeem
  • Als de leverancier mogelijkheden daartoe niet ingebouwd heeft kunnen de koppelingen ook als opzichzelfstaand bestand opgeslagen worden. Zo'n bestand moet dan wel duurzame URIs van beeldbankitems bevatten en duurzaam opgeslagen worden.
  • Beeldbankitems (en inventarisnummers, scans, etc.) moeten ook daarom persistente URIs krijgen
  • De koppelingen zijn scriptmatig tot stand gebracht, er kunnen dus goed vals positieven gevonden zijn. Denk aan straatnamen als 'Antillen' of het station genaamd 'Hembrug'. Hier kan nog naar gekeken worden.
  • Straten en stations die in de beeldbankbeschrijvingen met schrijfwijzes zijn aangeduid die afwijken van de gebruikte lijsten zouden nog (handmatig) gekoppeld kunnen worden.
  • In deze pilot is gekeken naar straten en stations. Andere geografische entiteiten, zoals plaatsnamen, andere gebouwen en gebieden zouden ook nog in kaart gebracht kunnen worden.
  • Dit project heeft zich beperkt tot de beeldbank. Het archief beheert natuurlijk meer collecties die geografische ontsloten zouden kunnen worden.