gheeresesri-nl-esridist

AHN: hoe om te gaan met grote volumes rasterdata?

Blog Post created by gheeresesri-nl-esridist Employee on Dec 12, 2018

Worstel jij ook met de alsmaar toenemende hoeveelheid rasterdata? Wij wel! Bijvoorbeeld met de AHN-data: de actuele hoogtekaart van Nederland. Hoe slaan we dat zo kosteneffectief mogelijk op, maar bieden we het tegelijk ook snel en schaalbaar aan als webservice. Dat zijn uitdagende puzzels om aan te werken, maar ook leerzaam en het levert weer nieuwe inzichten. Ik deel de opgedane inzichten graag via dit artikel.

 

Het Actueel Hoogtebestand van Nederland (AHN) kent meerdere edities. Op dit moment wint de Nederlandse overheid de 3e versie in: AHN3 (over meerdere jaren). Meerdere gebieden van Nederland zijn al beschikbaar en in de komende jaren volgen de resterende gebieden. Er komt elk jaar dus meer data bij en voor je het weet ga je van vele GB’s aan data, naar TB’s.

 

Wij waren op zoek naar een slimme manier op deze rasters van het AHN op te slaan. In onze zoektocht stuiten we op het Meta Raster Formaat (MRF). Dit is een rasterformaat bedacht door NASA, waar Esri gebruik van maakt in het kader van rasters serveren op het web en via cloud-infrastructuur.

 

Bij MRF worden een aantal onderdelen van het traditionele raster opgesplitst in losse bestanden en wordt de data logisch gerangschikt. Via een indexbestand worden de groottes en geometrische organisatie van de rasterpixels opgeslagen en een metadatabestand geeft de belangrijkste informatie weer, zoals het aantal rijen en kolommen, het datatype, de opzet van de tegels (tiling) en projectie. Hierdoor hoeft niet het hele rasterbestand te worden gelezen of verstuurd. Door deze techniek is het zelfs ook mogelijk om deze verschillende typen bestanden te scheiden en op verschillende opslagvolumes te zetten. Wel zo handig voor het schalen. De indexbestanden en metadatabestanden zet je dan bijvoorbeeld op een snelle SSD-schijf en de databestanden op een langzamere schijf. Door de indexbestanden kan snel worden bepaald welke databestanden moeten worden bevraagd en het metadatabestand geeft aan hoe deze te interpreteren of plaatsen in de ruimte. Dit zorgt ervoor dat de performance bewaard blijft, maar dat niet alle bestanden op snelle opslagvolumes hoeven te staan, waardoor je kosten kunt besparen.

 

Meta Raster Formaat opbouw

 

In aanvulling op het MRF bestandsformaat, hebben wij ook een relatief nieuwe manier van compressie gebruikt. Bij compressie worden bestanden vaak kleiner qua opslag, maar voor het serveren van data over het web, betekent dit wel dat de data telkens moet worden uitgepakt om te kunnen gebruiken. Huidige technieken zoals JPEG2000, PNG, Deflate en LZW kunnen prima gebruikt worden in combinatie met MRF, maar hebben nadelen qua volume reductie of qua CPU-gebruik. Esri heeft een nieuwe compressiemethode ontwikkeld, genaamd Limited Error Raster Compression (LERC). LERC is specifiek ontwikkeld om snelle compressie/decompressie en een laag CPU-gebruik te faciliteren. LERC kan zowel gebruikt worden voor ‘Lossless’ (hierdoor worden rasterpixels niet aangepast) en voor ‘Lossy’ (hierdoor worden de rasterpixels aangepast om optimaal te kunnen comprimeren). Als de tolerantie wordt ingesteld op 0, dan wordt er een lossless compressie toegepast en bij een waarde hoger dan nul juist een lossy compressie. Dit laatste hebben wij toegepast op het AHN met een tolerantie van 0,01 m. Hierdoor blijft de waarde van elke cel ruim binnen de stochastische afwijking (5 cm voor AHN2/3), maar bereiken we toch een compressie van ongeveer een factor 5-7 ten opzichte van GeoTIFF zonder compressie en een factor 3-4 ten opzichte van GeoTIFF met LZW-compressie. Natuurlijk is het mogelijk om de data nog kleiner te maken, maar dan zullen ook de pixelwaarden variëren en dit is voor het AHN niet gewenst.

 

Lang verhaal kort… de volgende tabel maakt het punt over opslag wel duidelijk:

 

 

Opslag als GeoTIFF (zonder compressie)

Opslag als GeoTIFF 

met LZW-compressie

Opslag als MRF met LERC-compressie

AHN2 i

408 GB

272 GB 

72,7 GB

AHN2 r

465 GB (geschat)

316 GB

97,1 GB

AHN3 i (circa 70% compleet voor NL)

391 GB (geschat)

241 GB

46,3 GB

AHN3 r (circa 70% compleet voor NL)

448 GB (geschat)

276 GB

61,1 GB

 

Voor meer informatie over MRF en LERC zie ook het artikel van Peter Becker, Productmanager voor Beeldmateriaal bij Esri Inc.

Outcomes