Mag je geen open source meer op Github zetten?

| AE 9296 | Open source | 10 reacties

Paniek in de tent: softwarehostingsite Github heeft nieuwe voorwaarden, en die botsen met veel open licenties. Dat las ik op diverse plekken. Je moet ze een brede licentie geven en afstand doen van je persoonlijkheidsrechten, en dat kan nu eenmaal niet als je open source daar neerzet. Maar volgens mij valt dat wel mee.

De pijn zou zitten in sectie D, over eigendomsrechten. Allereerst de licentie die je moet verlenen:

If you set your pages and repositories to be viewed publicly, you grant each User of GitHub a nonexclusive, worldwide license to access your Content through the GitHub Service, and to use, display and perform your Content, and to reproduce your Content solely on GitHub as permitted through GitHub’s functionality. You may grant further rights if you adopt a license.

In gewone taal: wij als Github mogen jouw content (inclusief eventuele werken van derden daarin) gebruiken en verspreiden op onze dienst, en alle gebruikers mogen dat ook. Dit is typisch juridisch moeilijk doen: oh jee, straks zegt iemand dat wij een kopie maken van zijn software omdat hij die bij ons host, laten we maar even zeggen dat hij ons een licentie moet geven.

Maar belangrijker, ik zie er geen tegenspraak in met de opensourcelicentie die je op je werk plakt. Mensen moeten met de Github functionaliteit kunnen doen wat die functionaliteit doet. En met open source mag je alles: kopiëren, aan derden geven, importeren in je eigen project en ga zo maar door. Het is de distributie naar anderen toe waarop de voorwaarden geschreven zijn, en die anderen moeten dus gewoon zorgen dat ze de voorwaarden nakomen.

Dan de morele rechten: daar moet je inderdaad afstand van doen, iets dat van de Auteurswet mag (behalve het recht van verminking, maar hoe dat moet uitpakken bij software weet werkelijk niemand). Dat botst dan met licenties die naamsvermelding eisen, en dat is 99% van de opensourcelicenties. Maar ik zie ook dat niet als een probleem:

To the extent such an agreement is not enforceable by applicable law, you grant GitHub a nonexclusive, revocable, worldwide, royalty-free right to (1) use the Content without attribution strictly as necessary to render the Website and provide the Service; and (2) make reasonable adaptations of the Content as provided in this Section. We need these rights to allow basic functions like search to work.

Github wil met name voorkomen dat elke zoekopdracht moet zeggen “met code van Jan, Piet en Klaas”. Iets dat iedere rechter volkomen redelijk zal vinden. Zeker omdat je meteen wordt doorverwezen naar de resultaten, waar de naam van de programmeurs wel gewoon bij staat. Ik vraag me zelfs af of Github uberhaupt een licentie nodig heeft om zoekresultaten te mogen tonen, dat zie ik gewoon als citaatrecht.

Alles bij elkaar lijkt dit me dus een storm in een glas water, hoewel ik wel toegeef dat dit iets handiger had kunnen worden opgeschreven.

Arnoud

Mag je in een Git repository andermans merknaam gebruiken als verwijzing?

| AE 8983 | Merken, Open source | 5 reacties

github-octocatDiverse lezers wezen me (dank!) op dit artikel over het Docker-merk dat strenge regels hanteert over wat je met hun merknaam mag doen. Eén van die regels is dat je geen extensies mag publiceren op Docker als je daarbij de term ‘Docker’ gebruikt. Kan dat zomaar?

Docker is een containersysteem voor software, waardoor deze makkelijker te verspreiden is. Het is mogelijk hier allerlei extensies of scripts bij te ontwikkelen, en waar Docker zich dus tegen verzet is wanneer mensen zo’n eigen werk een naam geven die begint met docker. Zij zien dit als verwarringwekkend: mensen kunnen denken dat Docker, Inc. zelf deze projecten beheert of ze heeft goedgekeurd of gesponsord.

Het doet vagelijk denken aan dit geval uit maart waar een discussie over de merknaam 'Kik' zelfs lijdde tot een tijdelijk stukgaan van het internet. Maar daar ging het over het bezet houden van een naam (kik) door één van meerdere merkhouders. Hier gaat het over aanvullingen: docker-existdb bijvoorbeeld, een script waarmee je bij het bouwen van een container makkelijk verbinding kunt leggen met een database van eXist.

Is het nu verwarrend, docker-x als je wilt zeggen, een X voor/met Docker? Ik zou zeggen van niet. Het is toegestaan onder de merkenwet om te refereren naar een merkproduct, met name om aan te geven dat je daarmee compatibel bent of dat jouw product daarvoor bestemd is. "Hoesje voor Samsung Galaxy S" is dus legaal om te zeggen.

Daar staat tegenover dat je ook merkinbreuk pleegt door te onduidelijk te zijn over wie je wél bent. "Hoesje-voor-samsung-galaxy-s.nl" als webshop die zegt "Welkom, koop snel het mooiste hoesje voor uw Samsung Galaxy S" zou merkinbreuk zijn, omdat het hier (door stilzwijgen) lijkt alsof deze site van Samsung zelf is. Je moet dus als merkenverkoper expliciet en groot duidelijk maken wie je wél bent.

Bij Github-projecten wordt altijd vermeld wie de beheerder is van een project. De ontwikkelaar uit het artikel onderhoudt bijvoorbeeld zijn repositories op Github onder de naam 'zopyx', en dat kun je prima zien bij zijn projecten. Ik denk niet dat iemand hier uit zou halen dat dit een project van Docker is. Die zien er zo uit. Plus, in de opensourcegemeenschap dóe je dat nu eenmaal zo, de naam van het origineel combineren met wat jouw project daaraan toevoegt.

Maar toegegeven, deze informatiepresentatie is wel érg zakelijk en strak. De grootste en duidelijkste termen zijn de naam van het project. Als daar dan 'docker' in staat, dan zou je wellicht kunnen zeggen dat je daarmee de nadruk legt op Docker en zo dus stilzwijgend de indruk wekt dat dit project van Docker afkomstig is.

Wat vinden jullie? Overdreven zorg, of zou Docker legitiem kunnen vrezen dat mensen die onafhankelijke projecten aanzien voor die van hen?

Arnoud

Mag GHTorrent openbare data van Github aggregeren als onderzoeksdataset?

| AE 8460 | E-mail, Privacy, Software | 25 reacties

ghtorrent-data-structureMag je eisen dat je e-mailadres verwijderd wordt uit de GHTorrent dataset? Een veel voorkomende klacht bij dit project. GHTorrent is een onderzoeksproject dat Github-softwareprojecten indexeert en gemakkelijk doorzoekbaar maakt. Hierbij worden ook de e-mailadressen van ontwikkelaars geïndexeerd, waardoor je allerlei koppelingen kunt leggen. Maar mag dat eigenlijk wel?

Github is een van de grootste platforms voor gedistribueerde softwareontwikkeling, met name voor open source. De activiteit op het platform maakt het ook interessant voor wetenschappelijk onderzoek naar gedrag en handelen bij softwareontwikkeling. Zo las ik dat bijdragen van vrouwen eerder opgenomen worden in softwareprojecten dan die van mannen.

Dit onderzoeken betekent dat je honderdduizenden projecten moet doorlopen, iets dat handmatig vrijwel onmogelijk is. Vandaar GHTorrent: plat gezegd een offline mirror van alle Github metadata, zodat je niet per onderzoeksvraag de hele site af hoeft te struinen.

Niet iedereen is daar blij mee. Met name niet omdat ook het e-mailadres van ontwikkelaars opgenomen is. Je kunt dat e-mailadres dan als identifier gebruiken (het man/vrouw onderzoek werkte zo: via het e-mailadres kon je het Google+ profiel vinden en daar het geslacht van de ontwikkelaar achterhalen). En je kunt er natuurlijk ook mail heen sturen, waar de klachten over begonnen. Continu vragen krijgen om mee te doen aan allerlei onderzoek is niet prettig.

De data is publiek. E-mailadressen zijn gewoon zichtbaar, dus iedereen die wil kan dezelfde dataset verkrijgen als GHTorrent. Is het dan slechts een kwestie van fatsoen dat je toch mailadressen blokkeert of van antispam-maatregelen voorziet? Nou, niet per se. In Europa – waar het project vandaan komt – gelden strenge privacyregels ten aanzien van persoonsgegevens, en die gelden ook als de gegevens uit openbare bron zijn verkregen.

Een e-mailadres is een persoonsgegeven onder de Europese regels, omdat het naar een persoon (de ontwikkelaar) te herleiden is. Wie dergelijke gegevens bij elkaar brengt en ontsluit, is daar verantwoordelijk voor. Deze verantwoordelijke moet een grondslag in de wet hebben om dit te mogen doen, en moet zich houden aan de informatieplichten en het recht van inzage, correctie en verwijdering dat alle betrokken personen hebben.

Ook als de data publiek is. Dat ondervond Google in 2014 met het vergeetrecht-arrest: hoewel Google-zoekresultaten afgeleid zijn van openbare bronnen, heeft Google een eigen verantwoordelijkheid bij hoe zij die resultaten rangschikt en presenteert. Zij is dus zelf onderworpen aan het vergeetrecht (en de andere wettelijke plichten voor verantwoordelijken), los van de bronnen waar zij zich op baseert.

Hetzelfde geldt voor GHTorrent. Zij brengt openbare data bij elkaar, maar die data bevat persoonsgegevens. En daarom is de beheerder van GHTorrent de verantwoordelijke en verplicht om te informeren en om correctie en verwijdering toe te staan.

Verwijdering hoeft echter niet altijd. De vraag is of de data irrelevant is voor het doel waarvoor deze is verzameld. In het geval van Google: wanneer de zoekresultaten achterhaald of anderszins niet meer relevant zijn voor de persoon op wie je zocht, bij een zoekopdracht naar een persoon. Bij GHTorrent geldt hetzelfde, maar dat vertaalt zich lastiger naar de praktijk. Immers, ook oude gegevens van een ontwikkelaar zijn relevant voor wetenschappelijk onderzoek, dus het Google-criterium gaat hier niet op. Welk criterium dan wel, dat weet ik zo even niet.

Maar misschien is er een simpeler oplossing. Er moet immers sowieso een wettelijke grondslag zijn voor je gebruik van de gegevens. Enkel “ze komen uit openbare bron” is niet genoeg als grondslag, net zo min als “wij doen wetenschappelijk onderzoek”. Toestemming is er niet, een contract met GHTorrent ook niet, dus dan val je terug op de eigen dringende noodzaak: er is een legitiem belang (wetenschappelijk onderzoek), de gegevens zijn daar écht voor nodig (die zie ik wel) en alles is in het werk gezet om de privacy zo veel mogelijk te beschermen.

En bij dat laatste gaat het mis, want in principe is dan een opt-out vereist. Niet perse, andere maatregelen mogen ook. Zo kun je bijvoorbeeld de e-mailadressen hashen, zodat je er wel op kunt matchen maar ze niet kunt gebruiken om te mailen. Of je laat ze weg uit de publieke dataset en verstrekt ze alleen als mensen apart akkoord gaan met geheimhouding van die set. Maar opt-out lijkt mij het makkelijkste.

GHTorrent lijkt me dus legaal, maar ze moeten zich wel houden aan de Europese regels over persoonsgegevens. En in de praktijk betekent dat dus wel degelijk dat er een opt-out moet zijn.

Arnoud

Moet je bij een notice/takedown je hele GitHub repository verwijderen?

| AE 7673 | Auteursrecht, Software | 15 reacties

Een lezer vroeg me: Als ik in mijn GitHub repository een pull-request binnenhaal waar ik later een notice and takedown over krijg, voldoet het dan om met een nieuwe commit de omstreden code te verwijderen (de omstreden code blijft dan in in de git historie beschikbaar) of moet ik dan de hele repository verwijderen? Voor… Lees verder