Een bekende zoeksite voor potentiële autokopers, Gaspedaal.nl, maakt inbreuk op de database van concurrent Autotrack.nl, zo las ik in de Volkskrant. De rechterlijke uitspraak kan verregaande gevolgen hebben voor de uitgevers van auto- maar bijvoorbeeld ook vacaturesites, die leven van het verzamelen van gegevens uit de databanken van andere sites, roept de krant vervolgens. Met als gevolg dat mijn inbox vol zat met vragen van metazoekmachines: moeten we nu stoppen?
Autozoekersite Gaspedaal sluisde zoekopdrachten die mensen op hun site doen, door naar de zoekmachine van AutoTrack en herformatteerde de resultaten zodat het lijkt of je op Gaspedaal zoekt. AutoTrack meende dat zij een databankrecht had en dat Gaspedaal dit schond op deze manier. Na een voor Gaspedaal negatief vonnis ging men in hoger beroep, waarop het Gerechtshof haar juridische hulplijn inzette en het Hof van Justitie om antwoord op prejudiciële vragen omtrent het databankenrecht bij realtime metazoekmachines vroeg. En dat antwoord kwam in december vorig jaar.
Het arrest volgt de uitspraak van het Hof van Justitie op de voet. Onder het databankenrecht mag je andermans databank niet hergebruiken. En er is onder meer sprake van ‘hergebruiken’ als je, zoals Gaspedaal doet:
- “in wezen dezelfde functionaliteiten” biedt als je bronnen,
- je realtime data opvraagt bij diezelfde bronnen,
- de resultaten ontdubbelt en
- de bevindingen vervolgens in een eigen layout presenteert.
Het is dus niet -zoals de Volkskrant nogal alarmistisch roept- een algeheel verbod op metazoekmachines. Deze vier punten tesamen waren de juridische overtreding, dus wie op deze punten anders werkt, is niet automatisch ook in overtreding.
Belangrijkste lijkt me dat je een eigen dienst levert, dus niet slechts het doorzoeken van andermans databank. Ga je realtime opvragen, dan kom je in de gevarenzone. En ga je daarna de resultaten ombouwen tot ‘eigen’ resultaten (ontdubbelen en eigen layout) dan heb je een serieus probleem.
Dat realtime een probleem is, verbaast me een beetje. Ik zie weinig verschil tussen realtime en eens per dag. Misschien omdat het een hogere belasting neerlegt bij de server van de database-eigenaar? Google moet met eigen servers haar webindex doorzoekbaar maken, Gaspedaal kon het doorzoeken lekker bij AutoTrack laten liggen.
Voor mij is het ombouwen belangrijker. Daarmee presenteer je jezelf niet duidelijk als een metazoekmachine, maar kan de indruk ontstaan dat jij in feite de databank zelf beheert. Een soort van aanhaken bij andermans databank-investering dus. En dat is uiteindelijk waar het databankenrecht over gaat.
En dat ontdubbelen hoort daarbij, daarmee stap je weg van je positie als neutrale indexator en overzichtsmaker. Als Google duplicaten van webpublicaties bij elkaar zou gaan vegen, zou dit dus ook problematisch voor ze worden.
Wie weet er voorbeelden die voldoen aan deze vier criteria? Google valt af, want doet niets realtime en heeft hele andere functionaliteiten dan haar bronnen.
Arnoud
Er is toch ook ooit een vergelijkbare zaak geweest over een meta zoekmachine van vliegtickets die de site van Ryan Air of Easy jet (?) real time doorzocht?
Het belangrijkste verschil met een Google vind ik toch dat je bij Google altijd kan vragen om je site niet meer te indexen (robots.txt) . Wat mij betreft zou het dan ook verplicht moeten worden om je te houden aan robots.txt én het verplicht wordt om je als robot te identificeren.
Het realtime opvragen vind ik juist een groter probleem dan het ontdubbelen en in eigen layout presenteren. Dat laatste kan bijna niet anders omdat je anders een site krijgt met 5 verschillende layouts van de 5 verschillende bronnen en/of een klacht krijgt dat jouw site wel heel erg op die van een ander lijkt en daarmee probeert mee te liften op de bekendheid van die andere site.
Het ontdubbelen doet Google ook in bepaalde opzichten maar het is veel lastiger om de inhoud van een webpagina te ontdubbelen (tenzij het 100% identiek is) dan om een autoadvertentie te ontdubbelen. Bij de advertentie zijn er maar een aantal vaste kenmerken waardoor de je vrijwel zeker kan vaststellen dat het een duplicatie is.
[edit]Doet Trivago niet iets soort gelijks. Ik dacht dat die ook bij andere zocht maar ik weet niet of dat realtime gebeurt.
Ik heb wel eens gewerkt aan een stukje open source software voor visualisatie van (o.a.) het aard-oppervlak, en ik heb wel eens gekeken of die software ook data van Google maps kan downloaden en gebruiken.
Het blijkt dat je officieel een”API key” van Google nodig hebt, maar daar had ik geen zin in. Ik zag dat de data ook direct met eenvoudige URLs beschikbaar is, zoals vanuit de web-interface van maps.google.com zichtbaar is. Andere mensen, die hier ervaring mee hadden, meldden dat Google jouw(*) IP-adres blokkeert als je te snel achter elkaar requests doet op de zelfde maps-server. Ik dacht dat dit wel opgelost kan worden door een “request rate limiter” in te bouwen, en zo veel mogelijk maps data in een permanente cache op de harddisk op te slaan.
Ik ben wel benieuwd in hoeverre het maken, verspreiden en gebruiken van zulke software illegaal is. Voor de veiligheid zou ik trouwens de software niet expliciet naar de Google-servers verwijzen: in plaats daarvan zou ik het via een configuratiebestand mogelijk maken om een willekeurige bron van map-data in te stellen: bijv. een format-string voor map-URLs, instellingen voor request rate limiting, de map projectie-methode en coordinaat-offset, enz.. Configureerbaarheid zou zodanig moeten zijn dat Google maps niet de enige maps-service is die gebruikt kan worden, maar dat het wel relatief makkelijk is voor power users om uit te vogelen hoe de koppeling met Google maps gemaakt kan worden.
Vanwege interessantere projecten heb ik het bovenstaande trouwens nooit gerealiseerd. Misschien komt het er nog wel een keer van.
(*) In dit geval dus: de IP-adressen van de gebruikers van mijn software
http://rudhar.com/naviga/degma-nl.htm
Ik heb wel eens een documentaire gezien over de vroege industriële revolutie, en naast de Zwitserse klokken en Franse weefgetouwen werden daar ook de Nederlandse molens besproken.
Wat ik van de documentaire begreep was dat Leeghwater een patent had op het gebruik van molens, en dat hij er geen brood in zag om ze voor iets anders te gebruiken dan het leegpompen van polders. Cornelis Corneliszoon(*) kon zijn ideeën, o.a. voor zaagmolens, niet toepassen totdat het patent was verlopen. Juist deze nieuwe ideeën zouden later van Nederland een wereldmacht maken: d.m.v. zaagmolens kon Nederland goedkoop een enorme vloot opbouwen, die voor een bepaalde tijd machtiger was dan wat de grote landen om ons heen hadden.
Mijn punt is: exclusieve rechten zorgen er voor dat de creativiteit van derden niet optimaal wordt benut, waardoor je mogelijkheden over het hoofd ziet. Het databankrecht dreigt te voorkomen dat derden creatieve manieren bedenken voor nieuwe toepassingen van bestaande data.
Het is daarbij belangrijk te bedenken dat praktisch alle grote ideeën tot stand zijn gekomen in een evolutionair proces, waarbij de individuele bijdragen van verschillende “uitvinders” klein en bijna triviaal is. Om grote ideeën tot stand te brengen is het dus ook belangrijk dat kleine, triviale ideeën alle ruimte krijgen. Wie het kleine niet eert, is het grote niet weerd.
(*) Naamgenoot 🙂
Het is een vrij duidelijk patroon: allerlei uitvinding waar patenten op zijn verleend breken pas echt door nadat deze patenten zijn verlopen. Wat voorbeelden uit het verleden: de stoommachine; het vliegtuig; FM radio; public key encryption. Het patent motiveerd de uitvinder niet om verder te innoveren, omdat je daarmee een officieel gesanctioneerd melkkoetje krijgt, waarom zou je dan nog moeite doen, en het blokkeert anderen in innovatie omdat ze toch met de oorspronkelijke uitvinder moeten afrekenen, die helemaal niet zit te wachten op wat gezonde concurrentie. Het was dus niet voor niets dat rond 1860 de toenmalige liberale regering in Nederland het hele onzalige patentsysteem heeft afgeschaft.
Dit situatie rond de uitvindingen van Leeghwater is nog schrijnender. Als verre nazaat van Leeghwater kan ik niet eens achterhalen hoe bv. zijn duikapparaat voor het onderhouden van sluizen heeft gewerkt, want in zijn patent staat het in het geheel niet beschreven…
Vergelijkbaar is er een studie van NB de Europese Commissie, die laat zien dat de databanken markt in de VS zeven keer zo groot is als in de EU, en dat niet ondanks, maar juist dankzij het feit dat ze daar geen “databankenrecht” kennen. Dit soort regelingen zijn dus obsceen, in de zin dat ze markten en innovatie blokkeren, en dienen dan ook subiet afgeschaft te worden.
Leeghwater heeft juist de geocrooieerde zaagmolen van Cornelis Corneliszoon in uitgeest bezocht (in 1592 of 1593) toen hij 17 jaar oud was en toen een ander betere soort molen bedacht (met draaiende kap) om daarmee polders droog te maken. Effectief dus het omgekeerde. Nadat Leeghwater toegang had tot de geoctrooieerde zaagmolen van corneliszoon werd hij geinspireerd om een andere betere innovatie te creeren.
Heb je een bron? Mijn bron is mijn herinnering van een Discovery Channel documentaire, dus daar kom je al snel bovenuit, maar dan moet je wel een bron hebben. Ik zal zelf eens kijken of ik die documentaire terug kan vinden.
Het staat vast nog wel ergens. Op wikipedia kun je overigens al terugvinden dat Corneliszoon zijn molen al in 1592 gereed had toen leeghwater 17 jaar oud was. En corneliszoon is al rond 1600 overleden terwijl leeghwater in 1607 begon met het inpolderen van de Beemster. Dat onderbouwt het verhaal al duidelijk genoeg.
Discovery channel zou ik nooit als bron nemen. Een leuk verhaal gaat daar altijd boven droge feiten
Dat doet Google al jaren, bijvoorbeeld op Google Scholar. Ideaal als je een (betaald) artikel uit een wetenschappelijk tijdschrift liever van een gratis site leest…
Deze lijkt me wel aan de voorwaarden te voldoen: http://www.hotelscombined.com/ Zoekt op sites als booking.com en expedia en laat de goedkoopste optie zien.
Hoewel, de vraag is of het de databases met hotelomschrijvingen van genoemde sites gebruikt of slechts de prijzen vergelijkt (die uiteraard wel uit de database gehaald worden).
en bijvoorbeeld Trivago.com?
Hotelvergelijkingssites voldoen in het algemeen niet aan criterium 1 doordat de functie prijzen vergelijken in veel gevallen nieuw of uitgebreid is. Ook aan criterium 3 voldoen dergelijke sites nauwelijks. Vaak verschijnen exact dezelfde aanbiedingen van verschillende platformen wél in de lijst.
Dat ontdubbelen toont juist aan dat je een aggregator bent (een specialistische zoekmachine). Als je de resultaten van slechts één site zou scrapen dan hoef je niet te ontdubbelen. Ook als je een slechte service wilt leveren aan je bezoekers hoef je niet te ontdubbelen. Ik vind de voorwaarde van ontdubbelen dus een beetje bout.
Ook die van je “eigen layout”… hoe wil je een web-based zoekmachine aanbieden met de layout van iemand anders? Of zonder “eigen layout”. Dan maar de CSS eruit slopen…
Onderscheid realtime en via cronjob is ook meer een technisch dan een legaal onderscheid. Ik dacht dat realtime juist als positiever werd gezien, omdat je dan meer een technische schil om het zoekprocess van een ander bent. Ik zou mij voorbeeld een browserextensie kunnen voorstellen die vanaf mijn IP zoekopdrachten doet op 10tallen sites en de resultaten ontdubbeld en aanbied. Dan ben je niet meer bezig met publiceren en volgens mij mag dit.
“in wezen dezelfde functionaliteiten” aanbieden was hier volgens mij geen sprake van. Bij de ene site kan je de auto kopen en de eigenaar een berichtje sturen, bij de andere site kun je slechts zoeken en wordt er doorverwezen. Maar wil je werkelijk een andere functionaliteit, dan kun je, mits dit de giecheltoets doorstaat, experimenteren met loze functionaliteit tot je site in weze een andere functionalteit bied dan de site die gescraped wordt.
Een flauwe: Zet een custom Google zoekmachine op de site die je zoekterm automagisch aanvult met “site:autotrack.nl”.
Hi, het onderswerp scraping kwam op toen ik een plugin vond die lokale bedrijven op postcode ophaalt, + foto en recencies. Wat opviel was dat WordPress deze plugin niet in haar lijsten heeft staan, daarom op zoek naar de bezwaren van scraping, voor een leek onbegrijpelijk want wanneer ik mijn eigen naam ingeef komt er van alles naar voren wat ik nou niet direct zo expliciet vermeld zou willen zien. Na het lezen van bovenstaand toch twijfel, mag een website de NAW gegevens, de op de betreffende website gepubliceerde foto’s en recencies, doorplaatsen om een lokaal overzicht te creeren?