Vakantieblog: De groei van gegevensverwerking

Photo by Anete Lusina on Pexels

Vanwege mijn zomervakantie is de gewone blog gepauzeerd. Vandaag wederom een voorpublicatie uit mijn boek ICT & Recht.

Het vergaren van gegevens om daarmee als overheid of bedrijf beter te handelen, is natuurlijk al millennia oud. Meestal ging het dan om getalsmatige data, die door rekenaars (computers) werden bijgehouden. Vanaf het begin van de twintigste eeuw groeide de handmatige gegevensverwerking bedrijven en vooral overheden boven het hoofd. Dit was een gevolg van de tweede industriële revolutie, waardoor grote groepen mensen naar de steden trokken om te werken in de grote fabrieken. Als overheid getalsmatige uitspraken doen – statistiek – was een manier om grip te krijgen op deze grote verandering.

Automatische gegevensverwerking

Volkstellingen zijn de grootste en zichtbaarste manier waarop overheden gegevens over hun burgers verzamelen. In Nederland werden al in de zestiende eeuw regionale volkstellingen gehouden, met de eerste landelijke in 1829.[iii] Vele Westerse landen deden hetzelfde, maar liepen allen tegen het probleem aan dat de gegevensverzameling steeds arbeidsintensiever werd en de verwerking daarna steeds complexer.

Een doorbraak was de Amerikaanse volkstelling van 1890, waarbij zoveel informatie verzameld zou worden dat iedereen inzag dat dit handmatig onmogelijk te verwerken was. Volksteller en ingenieur Herman Hollerith ontwikkelde een geautomatiseerd systeem dat werkte met ponskaarten: door met een soort typemachine op de juiste plek gaatjes te slaan in een kartonnen kaart, werd informatie vastgelegd zoals geslacht of geboortejaar. Telmachines – mechanische computers –konden dan in een stapel kaarten dan met een set pinnetjes zoeken naar alle kaarten met bijvoorbeeld het gaatje bij ‘vrouw’ en ‘1880’ om alle vrouwen geboren in dat jaar te vinden. Het systeem van Hollerith werd een groot succes, dat al snel door vele overheidsinstanties werd overgenomen. (Het bedrijf Hollerith groeide snel en veranderde haar naam in 1924 in International Business Machines of IBM.)

Ponskaarten en automatische, mechanische gegevensverwerking werd enorm populair bij overheden en grote bedrijven. Een veelgehoorde klacht in die tijd was wel dat hiermee de menselijke maat verdween: met rekenmachines kon men op grote schaal abstracte uitspraken doen zoals wie er wel of geen uitkering kon krijgen of wie moest verhuizen vanwege nieuwe gebiedsontwikkeling. De telmachines van Hollerith werden ook in Nazi-Duitsland veel gebruikt; de volkstelling van 1933 werd hiermee vastgelegd, en vandaar konden efficiënt en automatisch mensen worden geselecteerd voor de concentratiekampen.

Gegevens en informatie

In eerdere hoofdstukken is het begrip ‘informatie’ al geïntroduceerd. In de communicatietechnologie is de definitie van Shannon leidend: informatie zijn de bits die ondanks de ruis bij een ontvanger aankomen. In de informatietechnologie wordt informatie anders bekeken, en geldt een onderscheid tussen informatie en gegevens. Gegevens of data zijn de ruwe grondstoffen van de informatiemaatschappij. Hieruit wordt informatie gewonnen door betekenis aan de gegevens te geven. Hiervoor zijn niet perse computers nodig: met de hand een tabel van debiteuren doorlopen en Dit is niet perse de meest kansrijke incassozaken uitzoeken, is een vorm van informatieverwerving uit data. Mechanische en later digitale computers hebben het proces wel fors versneld.

De term informatietechnologie verwijst in brede zin naar alle technieken voor verwerking van informatie. Dit omvat zo ongeveer alle apparaten met een chip of een geheugen, waardoor eigenlijk alles IT zou zijn. Nuttiger is dan ook de beperktere definitie die Leavitt en Whisler in 1958 formuleerden: informatietechnologie is technologie voor verwerking van grote hoeveelheden informatie, voor informatiegebaseerde besluitvorming en voor simulatie van “denken van hogere orde”. Dat laatste raakte aan het net opkomende vakgebied van artificial intelligence, waarover later in dit hoofdstuk meer. Het inzicht van Leavitt en Whisler vestigde de aandacht op het belang van informatie in bedrijfsprocessen, wat goed aansloot bij een nieuwe technologische innovatie: de databank.

De relationele databank

Een databank of database is een gestructureerd geheel van gegevens, dat doorzoekbaar is op diverse criteria (vergelijk art. 4 lid 6 AVG voor het ‘bestand’). Databanken werden mogelijk in de jaren zestig na de uitvinding van de direct access opslagmedia, wat we nu harde schijven noemen. Hiermee konden opgeslagen gegevens in willekeurige volgorde worden benaderd, in plaats van alleen van begin tot einde zoals bij tapes of ponskaarten.

In 1970 ontwikkelde Edgar Codd het relationele model voor databanken. Dit model maakte het mogelijk om relaties tussen gegevens vast te leggen, zoals tussen namen, geboortedata en woonplaats van personen of tussen ingrediënten van voorverpakte maaltijden. Hiermee kon informatie op basis van die relaties worden doorzocht of geselecteerd (“alle mensen geboren op 1-1-1970” of “alle maaltijden met rucola en avocado met houdbaarheidsdatum meer dan twee dagen geleden”). Deze uitvinding maakte het organiseren en correct houden van gegevens een stuk eenvoudiger. In dit model worden gegevens gekoppeld met zogeheten sleutels. Uitgangspunt daarbij is dat gegevens slechts eenmalig worden opgeslagen, en dat men met sleutels verwijst naar overige informatie.

Het grote voordeel voor de automatische gegevensverwerking is dat vrijwel alle bewerkingen plaatsvinden op tabellen, met relatief weinig gegevens. Dat kan snel en efficiënt, ook in een beperkt werkgeheugen. Voeg daar een gestructureerde set instructies voor databasebeheer aan toe – structured query language of SQL – en de mogelijkheden zijn eindeloos.

Een explosie van databanken

Relationele databanken en SQL (en aanverwante technieken) maakten dat het aantal gegevensverzamelingen – en alle bedrijven en overheden die er gebruik van maakten – snel groeide. Dat leidde weer tot een grotere gegevenshonger, want als er zo veel kan dan is er snel behoefte aan meer. Dat gaf aanleiding tot meer zorgen en protesten over de bescherming van de burger, die zich bijvoorbeeld niet kon verweren tegen fouten in een databank. Een simpele reden was omdat hij niet wist dat hij erin stond. Maar minstens zo hardnekkig was – en is – de overtuiging dat ‘de computer gelijk heeft’, gegevens in een databank hebben een aura van juistheid.

Een tegenbeweging met meer utopische visie op dataverwerking ontstond rondom bibliotheken, die dankzij ponskaarten en mechanische rekenaars juist mogelijkheden zagen om informatie te koppelen en ontsluiten. Het idee van hypertext (zie hoofdstuk 2) is ook in deze tijd geboren. Ook de snel groeiende hobby-computerbeweging zag mogelijkheden in databases. Vanaf de jaren tachtig raakte de databank ingeburgerd in de computerwereld. Via diensten zoals CompuServe kon men online databanken raadplegen, en na de uitvinding van de cd-rom was het zelfs mogelijk een databank in huis te hebben. De opkomst van internet maakte het nog makkelijker om databanken te ontsluiten.

De populariteit van databases explodeerde in 1979 toen het obscure bedrijf Ashton Tate het pakket dBase II op de markt bracht. Hun geniale marketingstrategie was de software weggeven aan kopers van de nieuwe personal computer, in plaats van zoals iedereen te mikken op de grote computers, de mainframes. Omdat dBase II ook beschikte over een simpele programmeertaal, kon ineens een enorme groep mensen nu databases opzetten en beheren.

Maar ook de groei van spreadsheets (Lotus 1-2-3 en vooral Microsoft Excel) en hun invloed op gegevensverwerking moet niet worden genegeerd.Hoewel deze tools primair waren ontworpen voor berekeningen, was het zeer eenvoudig om ook lijsten met gegevens bij te houden en daarin te zoeken en filteren, wat voorheen alleen kon met grote databanksoftware waarvoor gespecialiseerde kennis nodig was. Voor kleine ondernemingen (of beperkte toepassingen bij grote ondernemingen) waren spreadsheets dus meer dan genoeg. Vandaag de dag zijn spreadsheets een onmisbare tool bij grote en kleine ondernemingen.

2 reacties

  1. “de volkstelling van 1933 werd hiermee vastgelegd, en vandaar konden efficiënt en automatisch mensen worden geselecteerd voor de concentratiekampen”

    Ik wist niet dat daar al automatisering een rol speelde. Afschuwelijk

  2. Juist om die reden (Tweede Wereldoorlog) en zeer felle discussies in de jaren ’80 is de Gemeentelijke Basis Administratie volledig decentraal opgezet en is er in de GBA-wet de “Noodvernietiging” opgenomen, waarmee het ‘centrale berichtendienst’ kan worden opgeblazen en de bestanden ontkoppeld.

    Omdat in de Tweede Wereldoorlog, na de aanslag op het Amsterdamse Bevolkingsregister, bleek dat er nog complete kopieën in Den Haag waren en alles werd hersteld, is toen met speciale toestemming uiteindelijk een luchtaanval (bombardement) op de “grote kantoorvilla” vlak bij het Catshuis uitgevoerd.

    De Volkstelling van 1971 was de laatste. In de jaren ’80 is er niet alleen veel beleidsheisa bij de GBA-wet geweest, maar ook over SoFi-nummer en een identiteitskaart invoeren.

    In die jaren speelden er ook privacy debatten over bijv. nummeridentificatie en vermeldingen in de telefoongids / geheime nummers, wel/niet bekend bij inlichtingen (008) etc.

    Eind jaren ’90 kwamen de “centralisten” de vakpers in, die graag de GBA wilden “moderniseren” (= centraliseren) en veel koppelen, zoals bij de Belgische Kruispuntbanken. ‘Belgen doen het Beter’ was hun motto.

    De net gestarte staatssecretaris Zsolt Szabo maakte zich als VVD-kamerlid toen sterk voor ‘Belgen doen het Beter’.

    Bij zijn aantreden enkele weken terug schreef prof. Arre Zuurmond, toen van ZenC en de Belgen-campagne, een open brief aan Szabo, waar hij subtiel aan het einde deze oude beleidskoe weer uit de sloot trok en opnieuw Kruispuntbanken bepleitte.

    Het worden zeer beleidsinteressante tijden in Den Haag.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.