EIMgroep2 Wikia
Register
No edit summary
Tag: rte-wysiwyg
Tags: Visual edit apiedit
Line 179: Line 179:
 
De wet bescherming van persoonsgegevens stelt veel eisen aan het opslaan van data en hoe lang deze bewaard mag worden. Nu er steeds meer informatie wordt opgeslagen, niet alleen gestructureerde maar ook ongestructureerde informatie wordt dit een steeds grotere uitdaging.  Het blijkt dan ook dat veel bedrijven hier slecht mee omgegaan. Dit is niet alleen een risico voor het bedrijf deze loopt namelijk kans imago schade en een boete van maximaal tienduizend euro, maar hierdoor is het voor de klanten tegenwoordig niet meer na te gaan welk bedrijf over welke informatie beschikt. Een klant kan wel inzicht vragen bij het bedrijf over welke gegevens het beschikt, maar moet hier dan wel een kleine vergoeding voor betalen.
 
De wet bescherming van persoonsgegevens stelt veel eisen aan het opslaan van data en hoe lang deze bewaard mag worden. Nu er steeds meer informatie wordt opgeslagen, niet alleen gestructureerde maar ook ongestructureerde informatie wordt dit een steeds grotere uitdaging.  Het blijkt dan ook dat veel bedrijven hier slecht mee omgegaan. Dit is niet alleen een risico voor het bedrijf deze loopt namelijk kans imago schade en een boete van maximaal tienduizend euro, maar hierdoor is het voor de klanten tegenwoordig niet meer na te gaan welk bedrijf over welke informatie beschikt. Een klant kan wel inzicht vragen bij het bedrijf over welke gegevens het beschikt, maar moet hier dan wel een kleine vergoeding voor betalen.
 
=='''Belang goede storage oplossing'''==
 
=='''Belang goede storage oplossing'''==
 
 
 
 
 
 
 
 
 
Belang goede storage
 
 
Link naar cloud storage
 
 
Dataverwerking (databases)
 
 
Technieken
 
 
: Modulaire storage
 
 
: Raid configuratie
 
 
: Meta data
 
 
: Document change tracking
 
 
: NAS
 
 
: SAN
 
 
: Storage cabinet
 
 
Nadelen/voordelen verschillende manieren storage
 
 
Data beveiliging
 
   
 
<p class="MsoListParagraphCxSpLast" style="text-indent:-0.25in;">
 
<p class="MsoListParagraphCxSpLast" style="text-indent:-0.25in;">

Revision as of 10:51, 10 June 2015

Wat is storage?

Storage Technieken

RAID configuraties

Een ‘Redundant Arrays of Inexpensive Disks’ (RAID) is een uit de Jaren 80 stammende opslagtechniek voor het efficiënt gebruik van harddisk storage. De techniek was van origine bedoelt voor grote serverparken en mainframes, maar heden ten dage geniet de techniek ook populariteit bij (high-end) computer consumenten. De kosten voor opslag een aantal decennia geleden wogen bijna niet op tegen de noodzaak van opslag. De vraag naar betrouwbaarheid tegenover een lage prijs steeg explosief. Het grote nadeel van goedkope harde schijven was dat deze onbetrouwbaar waren. Risico op dataverlies was te hoog en in veel gevallen ook onacceptabel.

Tegenwoordig wordt het woord ‘Inexpensive’ in RAID vaak vervangen voor ‘Independent’, een trend die aangeeft dat de prijs van HDD’s tegenwoordig maar een fractie zijn van de prijs in de jaren tachtig. RAID is ontstaan uit de praktijk van grote arrays van opslageenheden. Door opslag aan elkaar te knopen werd de opslagcapaciteit en kon deze als één logisch geheel benaderd worden. Interne hardwarematige controllers en software zorgen ervoor dat de data op de juiste plaatsen wordt opgeslagen en vindbaar is achteraf.

Er zijn twee zaken belangrijk om in acht te nemen in deze benadering van opslag: snelheid en veiligheid. Om deze twee begrippen af te dekken zijn er verschillende RAID opstellingen ontstaan met allen hun eigen mate van snelheid en veiligheid. De vuistregel hierin is vaak (niet altijd!): hoe sneller, des te onveiliger/duurder en hoe veiliger, des te langzamer/duurder.

Binnen EIM is het belangrijk dat de gegevens die je opvraagt uit een opslageenheid kloppend en compleet zijn. RAID kan daarbij een grote rol spelen, vooral op het gebied van dataveiligheid. Echter moet niet uit het oog verloren worden dat snelheid weldegelijk een rol speelt bij effectief Enterprise Information Management. Bijvoorbeeld: een persoon zoekt een vakantie op een internetsite en stelt zijn eigen reis samen. Het moet dan niet zo zijn dat elke handeling of keuze een half uur verwerkingstijd kost.

Alvorens de verschillende RAID types worden toegelicht is het belangrijk om te bepalen hoe de keuze voor een bepaald RAID type tot stand komt. Een beslissing binnen het EIM domein is belangrijk om te kijken naar de ‘waarde’ van data. Zo zijn gegevens van rekeninghouders binnen een grote bank van veel grotere waarde dan een paar .mp3 bestandjes op een NAS thuis. Een gamer wil vooral een snel systeem en zal minder aandacht besteden aan recovery en een politiedatabase moet vooral kunnen zorgen voor opslag voor langere tijd.

Hieronder zijn per RAID type de benaming, aantal disks, voor –en nadelen en het kostenniveau aangegeven. Tevens is bij een aantal een voorbeeld aangegeven voor een toepassingsgebied.

RAID 0

Striping (strepen)

Alle data wordt per blok parallel naar alle aanwezige disks (binnen het RAID) geschreven. Er vindt geen duplicatie van data plaats en de totale eenheid van opslag is zo groot als de totale opslagcapaciteit van alle disks binnen de RAID bij elkaar. Er is bij dit type RAID geen capaciteitsverlies. Het minimale getal van disks moet twee of een groter even aantal zijn.

V: Snelste RAID opstelling tegen de laagste prijs die je kunt hebben. Deze opstelling is vooral voor gamers erg interessant vanwege zeer grote performancewinst t.o.v. reguliere diskopstellingen. Tevens kan het bij deze opstelling zeer voordelig uitpakken om twee langzame (goedkope) schijven te gebruiken.

N: Totaal geen betrouwbaarheid aanwezig. Bij het crashen van 1 schijf binnen de gehele RAID 0 opstelling zal alle (!) data verloren zijn. De specifieke datablokken die op die schijf staan zijn verloren en daardoor zijn ook alle andere datablokken onbruikbaar. RAID 0 zal binnen professionele instellingen niet gebruikt worden vanwege de uiterst lage betrouwbaarheid en geen mogelijkheid tot ‘Hot swap’.

RAID 1

Mirroring (spiegelen)

Een redelijk eenvoudige en veelgebruikt RAID type dat en behoorlijke betrouwbaarheid waarborgt. Alle data wordt op alle disks binnen de RAID opgeslagen. Elk stukje data is dus minimaal twee maal opgeslagen. Het minimale getal van disks moet twee of een groter even aantal zijn.

V: Grote betrouwbaarheid over de opgeslagen data, er is altijd minimaal één duplicaat aanwezig. RAID 1 kan dan ook als een back-up methode worden gezien. Tevens is RAID 1 nog redelijk goedkoop en vooral ook zeer gemakkelijk te configureren. Het vergt van de controller weinig extra performance.

N: Geen snelheidswinst t.o.v. de gevoerde snelheid van elke disk binnen de RAID. De capaciteit van RAID 1 is even groot als de capaciteit van de kleinste disk binnen de RAID. Gebruik je één disk van 500 GB en één disk van 1000 GB binnen RAID 1, dan zal de totale capaciteit maar 500 GB zijn. Het is aan te raden om een RAID 1 opstelling zodanig op te zetten dat je zo min mogelijk capaciteit ‘weggooit’. RAID 1 kan goed dienst doen voor kleine opslagvolumes die wel grote betrouwbaarheid moeten genieten.

RAID 2

Bit Level Striping (Strepen op Bit-niveau)

Qua voor –en nadelen gelijk aan RAID 0 en is theoretisch zelfs sneller dan RAID 0. Het minimaal benodigd aantal disks is 3. Op de 3e disk komen de zogenaamde Error Correction Codes (ECC’s). Deze RAID methode wordt zo goed als niet meer gebruikt binnen moderne opslagsystemen, vooral omdat HDD’s en SSD’s tegenwoordig zelf ECC functionaliteiten bezitten. RAID 2 is redelijk duur, bied weinig voordelen en is hoogstens toepasbaar om als hobby project op te zetten. De opslagcapaciteit is de totale opslag van de striped disks.

RAID 3/4

RAID 3 is Bytes striped en RAID 4 is Blocks striped, beide qua werking gelijk.

Dit type RAID is de veiligere versie van RAID 0 en zit technisch ingewikkelder in elkaar. De minimale hoeveelheid disks is 3, waarbij er twee gebruikt worden voor striped data en één voor Pariteits gegevens. Deze Parity data kan zorgen voor de herstel van data wanneer er één van de striped disks uitvalt. De RAID controller rekent op basis van de pariteit data uit wat de data op de striped disks is en zal deze data herproduceren.

V: Redelijke betrouwbaarheid. Geen gegevensverlies bij crashen van maximaal één disk. Goede snelheden bij sequentiële data, dus ideaal voor het streamen van videobeelden en grote afbeeldingen. De kosten van dit type RAID zijn gemiddeld t.o.v. andere types.

N: Langzaam bij niet-sequentiële data, dus slecht bruikbaar bij opslageenheden voor databases en transactieservers. Geen hot-swap functionaliteit en benadering van de opslageenheid is niet mogelijk wanneer nieuwe data op basis van pariteit wordt berekend. De schijven moeten een gesynchroniseerde rotatie hebben voor de juiste werking.

RAID 4 en 5 worden beide vrijwel niet gebruikt.

RAID 5

Striping with rotating partity (Blokken Strepen met roterende partiteit)

Redelijk identiek aan RAID 4 omdat deze soort ook werkt met datablocks en niet met bytes. Bij dit RAID type zijn ook minimaal 3 drives nodig. Vanwege wat voordelen t.o.v. RAID 4 wordt dit type wel veel toegepast. Bij dit type wordt niet één disk als partiteit disk gebruikt, maar worden verschillende partiteits bestanden verdeeld over de striped disks.

V: Goede betrouwbaarheid met de snelheid van striping. Grotere opslagcapaciteit omdat niet één schijf uitsluitend voor partiteit wordt gebruikt (dit hangt echter wel af van de gekozen groottes van de schijven).

N: Minder snel dan normaal striping en redelijk moeilijke configuratie. Er kan maar één schijf uitvallen.

RAID 6

Striped Blocks with double rotating partity (Blokken strepen met dubbele roterende partiteit)

Qua werking identiek aan RAID 5, echter worden de partiteit data dubbel over de schijven verdeeld. De partiteit data is dus dubbel aanwezig op 2 verschillende schijven. Deze techniek wordt veel toegepast vanwege grote betrouwbaarheid.

V: Zeer grote betrouwbaarheid en goede snelheid. Er kunnen twee disks uitvallen zonder dataverlies.

N: De zelfde nadelen als RAID 5, echter is de capaciteit wat kleiner vanwege de dubbele pariteit.

RAID 7

Officieel bestaat RAID 7 niet en wordt ook vaak verward met RAID 6 omdat RAID levels beginnen bij level 0. RAID 7 wordt alleen gebruikt voor specifieke toepassingen, meestal van dezelfde organisatie die RAID 7 op ‘de markt’ heeft gebracht. Technisch heeft het wat verbeteringen tegenover RAID 3 en 4 maar is volgens veel publicaties een stuk duurder.

Nested RAID Levels zoals RAID 1+0 (10)

Bij nested RAIDS combineer je 2 of meer RAID levels met elkaar, je combineert daarbij vaak het beste van twee werelden met elkaar (snelheid en hoge betrouwbaarheid). Het is bijvoorbeeld gebruikelijk om twee RAID 0 (striping) opstellingen naast elkaar te laten draaien en te benaderen als een RAID 1 opstelling (mirroring). Je haalt dan de snelheid van RAID 0 maar je bent er ook van verzekerd dat alles minimaal 2 keer is opgeslagen. De kosten zijn door het grotere aantal disks wel vele male hoger.

JBOD

Just a Bunch of Disks (‘Gewoon een aantal schijven’ of ‘een hoopje schijven’)

JBOD heeft weinig met RAID te maken, echter het aspect van aan elkaar knopen van schijven gebeurt hierbij ook. Data wordt naar disk 1 geschreven en als deze vol is dan wordt er geschreven naar disk 2 enzovoorts. Er is speciale software die er voor zorgt dat dit zorgvuldig gebeurt en is ideaal voor storage van zaken die niet veel waarde hebben.

Meta d​ata

Metadata is ‘informatie over informatie’ of ‘data over data’. Het is in ieder geval op internet de meest gebruikte omschrijving van het begrip. Metadata is, tegen veel verwachtingen in, niet iets nieuws en stamt zeker niet alleen uit de wereld van ICT.

De data die in een bedrijf verwerkt wordt tot informatie heeft een bepaalde waarde, deze waarde geeft aan wat het belang is van die data voor het bedrijf. Elk stukje informatie heeft naast die waarde nog een aantal eigenschappen of requirements aan zich hangen. Zo is het voor een bepaald gedeelte van de data belangrijk om snel opvraagbaar te zijn (zie RAID) en voor een ander gedeelte is het belangrijk dat data goed beveiligd is (of een combinatie van beide). Ongeacht de eisen die een bepaald stuk informatie nodig heeft, is de vindbaarheid daarvan van wezenlijk belang. Omdat informatie binnen een bedrijf vaak afkomstig is uit verschillende (geautomatiseerde) informatiesystemen en behandeld wordt door meerdere functionarissen, komt het significant vaak voor dat bijvoorbeeld naamgevingen of bestandsformaten inconsistent zijn.

Door een extra label aan elk stukje data te hangen is het beter mogelijk om de juiste informatie te vinden, te hergebruiken, te routeren, de status van in te zien en te rapporteren. Dat extra label wordt dan de metadatering genoemd en kan verschillen van een simpele omschrijving tot een compleet label met alle benodigde informatie. Een groot deel van dagelijks gebruikte middelen bevatten metadata, vaak gekoppeld aan de gebruiker of voor terugkoppeling naar de fabriek of dienstenleverancier. Bijvoorbeeld: op je bankpas staat een pasnummer, dit nummer wordt gebruikt voor een aantal doeleinden. Bij de administratie van de bank is het nummer bekend omdat een bepaalde pas gekoppeld is aan een klant. Voor de bank is het ook een extra methode van beveiliging bij het inloggen bij internetbankieren (Rabobank). Voor de gebruiker heeft het nummer weinig toevoegende waarde, en is voor de gebruiker vooral het rekeningnummer en de pincode van belang.

De hoeveelheid metadata en de detaillering daarvan is per situatie verschillend. Bijvoorbeeld: voor een projectplan is de status heel belangrijk maar voor een foto weer niet, daarvan is bijvoorbeeld de datum dat de foto is genomen heel belangrijk. De overwegingen over de hoeveelheid en detaillering van metadata zijn sterk afhankelijk van de keuzes van een informatiemanager of het beleid in de betreffende organisatie.

Essentieel is Metadata te verdelen in 2 types: beschrijvende en component metadata. In veel situaties wordt ook nog een 3e type metadata genoemd, de technische metadata. Hieronder zijn ze alle drie toegelicht:

1.       Beschrijvende metadata (ook wel publicatie metadata genoemd)

Beschrijven van het informatieobject en het identificeren van het informatieobject. De herkomst en de context van een informatieobject wordt geïdentificeerd. Algemeen bekende voorbeelden van beschrijvende metadata: datum, titel/naam, opdrachtgever, projectnaam etc.

2.       Component metadata (ook wel Administratieve metadata genoemd)

Vooral van belang voor het terugvinden van informatieobjecten en om deze eventueel te hergebruiken of om de status te rapporteren, te escaleren of te volgen. Bijvoorbeeld: status (geaccepteerd, review, afgekeurd, concept), aanmaak datum, datum laatste aanpassing, wie heeft laatste aanpassing uitgevoerd, ondertekening etc.

3.       Technische metadata (minder gebruikelijk binnen het EIM domein)


Technische metadata is moeilijk abstract te scheiden van de andere twee metadata types. Technische metadata heeft veel gemeen met component metadata, maar gaat op specifieke (technische) zaken dieper in. Denk hierbij aan de resolutie van een scan, bestandsformaat/codec, benodigde software, virusrapport, 


Dataverwerking

Anno 2015 worden steeds meer informatie vast gelegd in databases. Voor veel bedrijven is het een uitdaging om te bepalen welke data wel of niet opgeslagen moet worden. Immers meer data, kost meer opslag kosten, maar kan eventueel op lange termijn wel weer een sterkere concurrentie positie opleveren.

Rapportage

Door deze enorme toename van de data in databases wordt het ook steeds lastiger om data efficiënt te verwerken. Een goede architectuur van de database wordt daarom steeds belangrijker, maar vooral ook het goed bijhouden wie en waarom bepaalde data wordt geraadpleegd.
Zo hoeft niet ieder rapport gemaakt te worden met real life data. Als iemand een rapport moet maken over het afgelopen maand of afgelopen half jaar. Kan dit goed met een copy van de data. Je ziet daarom ook vaker dat een deel van de data in extra tabellen of in een losse database wordt gekopieerd. Deze extra database is dan bedoeld voor rapportages die niet de meest actuele data nodig hebben. Op deze manier wordt de hoofd database niet zo zwaar belast en kan iedereen toch bij de data die hij of zij nodig heeft. Hierdoor wordt het uiteindelijke proces sneller en stabieler.

Wetgeving

De wet bescherming van persoonsgegevens stelt veel eisen aan het opslaan van data en hoe lang deze bewaard mag worden. Nu er steeds meer informatie wordt opgeslagen, niet alleen gestructureerde maar ook ongestructureerde informatie wordt dit een steeds grotere uitdaging.  Het blijkt dan ook dat veel bedrijven hier slecht mee omgegaan. Dit is niet alleen een risico voor het bedrijf deze loopt namelijk kans imago schade en een boete van maximaal tienduizend euro, maar hierdoor is het voor de klanten tegenwoordig niet meer na te gaan welk bedrijf over welke informatie beschikt. Een klant kan wel inzicht vragen bij het bedrijf over welke gegevens het beschikt, maar moet hier dan wel een kleine vergoeding voor betalen.

Belang goede storage oplossing