|
|
|
Oude data, nieuwe zakken Door Martijn Hoogeveen
Wat is de delfstof van de 21e eeuw? Data. Althans als we de poging om beslissingsondersteunende systemen een nieuw leven in te blazen met luchtballonnen als datamijnbouw (data mining), datapakhuis (data warehouse) en datamarkt (data mart) serieus nemen. Het gaat stuk voor stuk om beeldspraak die suggesties van nut, productie en handel wekken. Suggesties die bij het wereldbeeld van IT-klanten aansluiten maar helaas verwarrend werken als het gaat om data. Dus allereerst: wat is een datapakhuis? Een datapakhuis is een informatiesysteem voor de analyse van geïntegreerde, historische data over een langere tijdsperiode. Het gaat in bedrijven om datacollecties ter ondersteuning van beslisprocessen van management. Hé! Het Management Informatie Systeem heeft dus een nieuw jasje gekregen! De academische definitie die ik op meerdere sites ( http://www.dwo.bull.com/dwtechb.htm) tegenkom blijkt afkomstig uit W. H. Inmons boek Building the Data Warehouse (John Wiley/QED, NY). Een datapakhuis is: onderwerpgeoriënteerd, geïntegreerd, niet actueel - namelijk historisch van aard, en niet-vluchtig. Niet vluchtig omdat de data in een datapakhuis niet zo vaak verandert als in een operationele omgeving. Verder worden er vier niveaus van aggregatie binnen pakhuisdata onderscheiden: oude details, huidige details, licht samengevatte data, en sterk samengevatte data. (http://www.cait.wustl.edu/cait/papers/prism/vol1_no1/). Een samenvattingsniveau binnen een datapakhuis wordt wel datamarkt genoemd, omdat hiervanuit de gedetailleerdere informatieniveaus bereikt kunnen worden. Het uitpluizen van databases en datapakhuizen wordt wel datamijnbouw genoemd. Het wordt nu wel heel duidelijk: oude wijn in nieuwe zakken.Het nut, de toegevoegde waarde van datapakhuizen, wordt slechts wollig aangegeven: in termen van kapitaliseren op de enorme datahulpbronnen binnen een organisatie ( http://www.dwo.bull.com/dwtechh.htm ). Terwijl volgens Chuck Ballard en Paul Wilms in IBM Information Warehouse Solution (http://booksrv2.raleigh.ibm.com:80/cgi-bin/bookmgr/bookmgr.cmd/BOOKS/iwsolu/1.2) de hoeveelheid data in organisaties iedere vijf jaar verdubbelt, wordt het steeds belangrijker goede data-analyses ter maken. Zij onderbouwen het belang van datapakhuizen vanuit empowerment en de groeiende klantoriëntatie, die het nodig maken dat vertegenwoordigers ter plekke data-analyses maken met betrekking tot klantorders, producten, voorraden, leverschema's, e.d. om hun klanten goed te kunnen helpen. Maar wat zei mijn promotor, Henk Sol van Technische Bestuurskunde aan de TU Delft, ook alweer over beslisprocessen en hoeveelheden data? "Meer data leidt niet noodzakelijkerwijs tot betere beslissingen". Juist.Vanzelfsprekend zijn consultants als IDC ( http://www.idcresearch.com/f/idcf.htm ) and Gartner Group optimistischer - depressieve rapporten verkopen nu eenmaal niet zo goed. IDC heeft een grote productie aan relevante onderzoeksrapporten uitgebracht, maar biedt slechts een "datamarkt" op hun site aan: kleine voorproefjes in de vorm van generieke samenvattingen. En dat terwijl veel verslagen op het Web gratis toegankelijk zijn via andere bronnen. Zo citeert Bull de nieuwsbrief InSide Gartner Group This Week van november 1994 met "a data warehouse can reduce user-driven access to operational data stores by 80%, and increase the effectiveness and timeliness of business decisions." Over de waarde van zulke generieke claims heb ik sterke twijfels.David Baum gaat in Byte ( http://www.byte.com:80/art/9706/sec20/art1.htm) dieper in op de IT-kansen die datapakhuizen bieden, bijv. ontwerp van datamodellen of webinterfaces naar bestaande databases. Grotere aanbieders kunnen investeren in verticale oplossingen voor banken en verzekeringen, de detailhandel, productieomgevingen, de gezondheidszorg en andere marktsegmenten. De Gartner Group verwacht dat het tegen 1999 om een kans gaat van $6.9 miljard. Na een overtuigende business case is de eerste implementatiestap kiezen voor een databaseoplossing. Baum stelt dat een relationeel DBMS - bijv. Oracle7 - kan voldoen. Sommige organisaties kiezen echter voor multidimensionale DBMS'en zoals Oracle Express (http://www.oracle.cl/corpnews/cn_0307.htm) en Red Brick VPT (http://www.redbrick.com/rbs/rbwxpp.html ). Red Brick is een succesvolle nichespeler. Een traditioneel RDBMS staat gebruikers toe data in twee dimensies te bekijken - bijv. per product per regio, terwijl een MDBMS meerdere dimensies toestaat - bijv. per product per regio door de tijd heen. Een andere ontwikkeling is die richting een gedistribueerd model voor een datamarkt (http://www.byte.com:80/art/9706/img/067rs1c2.htm), niet onlogisch op het Web met haar tienduizenden database servers.Vanzelfsprekend heeft Big Blue de datapakhuis-ontwikkeling niet aan zich voorbij laten gaan. PC Week bespreekt ( http://www8.zdnet.com/pcweek/reviews/0120/20ware.html) dat IBM's Visual Warehouse op NT een flexibeler, gemakkelijker te gebruiken product is geworden. Behoorlijke beperkingen zijn echter dat het product alleen op Windows NT draait en alleen van IBM's DB2-databases gebruikt maakt als repository. Een demo is beschikbaar op het Web (http://www.software.ibm.com/data/warehouse/vw/demo.html ). Pas wel op het is een file van 1,9 MB.Met datapakhuizen gaat het in feite om een kleine variatie op bekende database-thema's voor een kleine nichemarkt, waarbij we dezelfde issues als voor beslissingsondersteunende en management informatiesystemen tegenkomen: veel vragen zijn ad hoc - dus eenmalig en onvoorspelbaar van aard - terwijl de opbrengsten moeilijk meetbaar zijn. Dat maakt investeringsinschattingen in dit soort analysesystemen, die vaak de kernprocessen van een bedrijf slechts licht raken, ook zo moeilijk en kosten-baten-claims onnavolgbaar. We moeten dus niet alleen oppassen voor oude data in nieuwe pakhuizen, maar ook voor dataroofbouw: het nutteloos plunderen van databases voor eenmalige oplossingen. Om de drie weken schrijft dr. Martijn Hoogeveen, manager Partnership & Service Development bij PTT Telecom Internetdiensten, op deze plek over de beste Internet-sites rond een thema dat interessant is voor de lezers van Computable. Alle http-adressen van de genoemde sites zijn te vinden op Computable Online: http://www.bpa.nl/computable/internet. |
|
© 1995-1999 Martijn Hoogeveen, martijn@cyber-ventures.com |