- 2017-11-22:
- Hela servern slutade svara strax före kl 9, snabb omstart på strömknappen men med vissa hinder i starten gjorde att maskinen var uppe igen strax före kl 10. Tyvärr finns inga spår av vad som skedde, ingen ovanlig belastning heller, så möjligen "behövdes" en omstart. Vi undersöker om vi på ett säkert sätt kan starta om maskinen lagom regelbundet under lågtrafiktid för att förekomma denna typ av störning.
- 2017-07-10:
- En av de virtuella servrarna gick väldigt tungt och verkar till slut ha tagit med sig hela systemet ner. Efter omstart fungerade allt igen.
- 2016-01-27:
- Tyvärr stannade server kl 09:07, omstartad och uppe 09:46. Dessvärre verkar epost som hanterats mellan kl 7 och 9 BORTA då server under denna tid verkade funka, men inte kunde skriva något på disken (!?!). Läskigaste felet vi upplevt och kan bara be om ursäkt för detta och försöka åtgärda orsaken.
- 2015-12-02:
- Nedtagning kl 7 för minnesuppgradering, men vad som skulle varit ett kort stopp på max 15 minuter blev 45 minuter då en backup-partition vägrade monteras. Strax före kl 8 var allt igång igen - vi beklagar nedtiden på webb och epost men hoppas också att diverse saker kommer löpa snabbare med mer minne i maskinen.
- 2014-09-25:
- Vid kontroll av brandväggen i serverhallen visade det sig vara strömadaptern som gett upp. Ersatt med ny strömadapter vilket under inkopplingen orsakade någon minut med instabil anslutning kring kl 10:30, men nu rullar allt igen. Att switchade nätadapters ger upp efter ett antal år är tyvärr vanligt och svårt att helt undvika.
- 2014-09-24:
- Efter lång tid med stabil drift gick plötsligt brandväggen sönder kl 20:50. Trots kvällstid var jourpersonal på plats inom kort och kl 22:24 var trafiken igång. Vi undersöker vidare och byter utrustning som blivit för gammal.
- 2014-06-12:
- Vid en uppdatering som skall undvika "read only"-problemet för de virtuella maskinerna krävdes en omstart men maskinen kom inte igång. Besök i serverhallen bokades kl 06:30 och efter några omstarter till var allt uppe igen vid halv nio. Vi beklagar nedtiden under morgonen som orsakades av att den nya versionen missade att installerade en av boot-filerna, men nu skall den uppdaterade värdmaskinen ge en ännu stabilare miljö framöver.
- 2014-06-06:
- Webbarna funkade dåligt under några timmar då rotfilsystemet blivit "read only". Detta verkar vara ett problem som drabbat fler och vi söker både sätt att undvika detta samt under tiden tillägg i driftövervakningen för att snabbare upptäcka och lösa om problemet uppstår igen.
- 2014-05-26:
- Kl 03:19 på måndagmorgonen stannade en virtuell Windows-server vilket påverkade epost och Windows-webbar. Omstart kl 07:28 och vi undersöker om det finns uppdateringar till den virtuella miljön som kan undvika störningar.
- 2014-04-03:
- Vid 15:29 bröts trafiken, både epost och mail. Efter felsökning av personal i datahallen hittades en kontakt i brandväggen som glappade. Trafiken igång kl 16:25. Så skall det inte vara. Den felande kabeln byts och övrigt kablage kontrolleras.
- 2014-03-26:
- En oönskad omstart orsakade först ett kortare stopp men då det blev överlast på maskinen av en återskapningsprocess krävdes en manuell insats i datahallen. Vi beklagar nedtid mellan ca 10:00 och 11:20. Ny server med högre kapacitet är på väg in för samtliga webbar.
- 2014-03-11:
- Ca kl 12:30 inleddes någon form av överbelastningattack som segade ner server och till slut krävde omstart. Uppe igen kl 13:30 och vi analyserar orsak och motmedel för att förhindra denna typ av störning.
- 2014-03-07:
- Under morgonen gick en switch i datahallen sönder. Servrarna mådde alltså bra men var inte åtkomliga. Tre tekniker kopplade om till fungerande switch och kl 09:21 var trafiken igång. Vi beklagar nedtiden på 3 timmar och kontrollerar med vår datahallsoperatör vilken redundans eller motsvarande som begränsar risken för liknande störningar och kortar nedtiden.
- 2014-02-03:
- Diskstrulet eskalerade och servern stannade under förmiddagen. Efter diskbyte (en disk i en RAID-array) var maskinen igång igen vid 11-tiden. Vi beklagar nedtiden som berodde på att disken rasade och kommer flytta över alla webbar till ny server i närtid.
- 2014-02-02:
- Under söndag eftermiddag fick disksystemet problem och vid omstart indikerades fel på en container i den felsäkra disklagringen. Efter ingrepp på plats startade maskinen men disken kommer bytas vilket blir ett kortare avbrott ens en kväll i början av veckan.
- 2014-01-05:
- Tidigt på söndagsmorgonen fick databasen problem och servern saktade ner till krypfart. Omstart så funkar det och vi kollar vad som kan ha orsakat störningen.
- 2013-09-10:
- Vid kl 17:43 fick databasen problem och alla databasanslutningar blev upptagna så inga nya kunde etableras. Vår övervakning missade detta då den minutvis kollat att databasen svarar (och det gjorde den fortfarande). Först kl 20:40 startade vi om databasen. Vi kollar nu alla databaser samt utökar övervakningen att kolla att det finns lediga databasanslutningar så motsvarande störning snabbt skall kunna lösas (men helst undvikas helt förstås).
- 2013-04-24:
- Straxt efter 15:30 började webservern sega av överlast från någon form av webattack. Vi stängde brandväggen för inkommande HTTP, kunde logga in, starta om webservern och släppa på HTTP i brandväggen igen ca 16:10. Vi beklagar de ca 40 minuter som webbplatserna inte svarade. Fler loggar analyseras för att se om något kan göras för att hindra denna typ av överlast-attack.
- 2012-08-10:
- Under eftermiddagen minskade trafiken mellan 14 och 15:20 vilket verkade bero på ett tillfälligt DNS-problem hos vår operatör Nettica. Kan ha berott på försök till överbelastningsattack mot deras DNS-servrar som sköter namnhanteringen för de flesta av våra och våra kunders domäner. Vi tackar Netticas personal för snabb lösning av problemet.
- 2011-11-18:
- Under morgonen, kl 07:09, drabbades Katrineholm av ett jordfel i huvudmatningen. Reservmatningen som skulle tagit över elförsörjningen hade något problem. I kopplingspunkten för fibrer ut på Internet finns UPS som skulle hantera detta, men något missöde slog ut UPS:en (som borde klara just strömspikar) och kopplingspunkten blev strömlös. Servrarna i datahallen var igång hela tiden genom fungerande reservkraft, men kunde nå Internet först kl 09:39. Exakt 2,5 timmars nedtid som vi beklagar. I sammanhanget får nämnas att reservkraft fanns, men när både den reservmatning som finns till Katrineholm slås ut och någon strömspik dödar den UPS som skall strömförsörja kopplingspunkten vid spänningsfall, då är det inte helt lätt att undvika nedtid.
- 2011-05-26:
- Efter lång tid utan några som helst bekymmer ville inte webmailen svara under kvällen. Snabb omstart av servern efter över 400 dygns upptid löste problemet. Vi beklagar att webmailen inte gick att använda under några timmar på torsdag-kvällen, men inkommande och utgående epost påverkades inte. Efter omstarten fungerar dock inte fjärrinloggningen vilket endast drabbar administratörer, men det löser vi på plats i datahallen under fredag förmiddag.
- 2010-04-19:
- En kort stund straxt före 10:00 var både webbar och epost onåbara. Från datahallen meddelas:
-
Det var ett kortare problem under gårdagen.
Konstig trafik (attack?) som kommer in utifrån, något som slås ut med routrar, konstig trafik med source-port 53 i brandväggen (som sitter innanför routern).
Enligt vår externa övervakning så var avbrottet ca 4,5 minuter.
Denna gång har vi samlat mer data, och kunnat få fram mer information om problemet, så nu har vi mycket mer att arbeta vidare med.
Vi beklagar det inträffade, och lovar att göra vad vi kan för att motverka den här typen av problem.
Även denna gång någon slags attack utifrån som störde routrarna. Vi följer upp vilka åtgärder som vidtas i datahallen efter analys av insamlade data.
- 2010-04-12:
- Ett problem uppstod med brandväggen i kombination med DNS-hanteraren i den nya datahallen. Trafiken låg nere 13:52 till 14:48. Exakt orsak och möjlighet att undvika detta problem analyseras med datahallens personal. Forss meddelar nu:
-
Vi har som du säkert märkt haft ett driftproblem under dagen.
Vi råkade ut för en överbelastningsattack utifrån. Ping m.m. fungerade igenom men DNS:erna vart utslagna.
Naturligtvis undersöker vi om det finns patchar som gör att detta inte kan hända igen.
- Överbelastningsattacker utifrån är svåra att hantera men enligt svaret ser man i datahallen över vilka åtgärder som kan vidtas för att undvika att detta upprepas. Kan tilläggas att våra DNS:er inte påverkades men däremot de routrar som ansluter våra servrar i datahallen.
- 2010-04-03:
- Den nya datahallen hos Forss blev, liksom en stor del av Katrineholm, strömlösa på påskaftonskvällen. Reservkraften är tyvärr inte fullt installerad ännu på grund av tjäle och servrarna var nere några timmar under kvällen. Vi ligger på för att antingen åstadkomma en tillfällig installation direkt eller att den riktiga reservkraften installeras så snart tjälen gått ur marken.
- 2009-12-18:
- Minutrarna efter midnatt "slocknade" fibern. Efter felanmälan kom den igång straxt efter 04:00, tyvärr saknade mailservern anslutning fram till 08:50. Flytten till den säkrare hallen planeras till måndag kväll/natt.
- 2009-11-02:
- En god och en dålig rapport: vi planerar flytta servrarna till en större datahall med dubblerade fibrer och utrustning som automatiskt kopplar mellan dessa anslutningar utan dataförluster. Efter att ha rådgjort med vår största kund som är mitt uppe i sin viktigaste period på året väntar vi med flytt till mitten av december. Då kommer det bli två kortare avbrott, för uppgradering av en maskin samt för flytten av maskinerna, men det skall handla om någon timme nattetid. Genom detta skall vi kunna återgå till nära 100% upptid.
Tyvärr började veckan med ett kort strömavbrott och då reservkraften verkar stoppas av en felaktig temperatursensor stannade maskinerna vid fem i morse och kom igång först 07:15. Vi beklagar detta men även leveranssäkerheten och reserverna på elsidan skall bli bättre i den nya datahallen. - 2009-10-28 / 29:
- Nu hände det igen, IP-Only:s fiber är bruten och drabbade många många i och omkring Stockholm (så många att det blev ett tydligt avbräck i landets totala Internettrafik) från onsdag kl 13:45. Fiberlagning har pågått hela natten men har dragit ut på tiden från 06:00, till 08:00, 09:00 och senast 10:00. Se mer på IP-Onlys driftsida. När man till slut var klar och skulle släppa på visade det sig finnas ett brott till på helt annan plats. Nu felsökning och lagning som var klar först torsdag kl 22.
Vår reservlina har hanterat en del av trafiken för kunder där vi sköter DNS:en så vi kunnat styra om trafiken. Kontakt tas med övriga kunder för att erbjuda denna funktion. Men nedtid på 32 timmar är ABSOLUT INTE ACCEPTABELT på en allt mer affärskritisk kanal som Internet. Vi tittar på co-location av servrar i en större datahall med flera fiberanslutningar samtidigt som Bahnhof och IP-Only måste ta sitt ansvar och förbättra både möjligheterna till reservtrafik och att snabbare laga inträffade fel (för fel kan inträffa). Något är allvarligt fel när deras enda fiber till Katrineholm går av två gånger samma månad och som det nu visade sig en tredje gång samma dag! - 2009-10-07 / 08:
- När IP-Only:s stamfiber mellan Stockholm och Malmö blev avgrävd mellan Botkyrka och Vagnhärad drabbades tusentals kunder i södra Sverige, så även vår datahall. Webb och epost var oåtkomliga mellan 18:51 och 14:41 vilket även om skadan var av det större slaget och utanför både vår, Utsikts och Bahnhofs kontroll ändå orsakat ett oacceptabelt långt avbrott. Då webb och epost blivit såpass affärskritiska lösningar som de är idag kommer vi skapa en reservlösning via annan operatör att ta till när fibern går ner nästa gång.
- 2009-09-28:
- En närmast Filipinsk storm svepte över oss vilket orsakade strömavbrott. Först gick reservströmmen igång, men så slutade enheten generera ström. Innan felsökning var klar och nytt startbatteri anslutits hade servrarna varit nere en timme, 23:09 till 00:09. Tyvärr inträffade fler fel och trafiken var mestadels nere fram till 07:24 då en felande nätverksport (orsakad av strömavbrotten) identifierades. Även om det är lägre trafik under natten beklagar vi det inträffade och försöker säkra upp systemen ytterligare.
- 2009-09-03:
- Bahnhof hade en störning i sitt nät som drabbade hela södra Sverige mellan ca 15:48 och 17:35. Vi hör med dem vad som gick fel och vilka åtgärder de kan vidta för att förebygga liknande fel i framtiden. Bahnhofs driftinfo, ärende M756768 och M756974. Här deras ingående förklaring - med åtgärder för framtiden:
- 2009-07-26:
- Under söndageftermiddagen bröts strömmen i två timmar och då det återstår en mindre installation för att vår reservkraft skall starta automatiskt stannade servrarna. Dessvärre gick dem inte igång riktigt av sig själva när strömmen återvände vilket krävde en särskild insats som kunde ske först sent söndag kväll. Hög tid att ordna det sista steget i vår automatiska reservström.
- 2009-07-13:
- Startade om Apache, vår webserverprogramvara kl 09:29 då den "gått ryckigt" eller inte alls sedan midnatt. Undersökning görs av orsaken till stoppet.
- 2009-04-22:
- Mellan 20:23 och 00:15 hade Bahnhof en störning i sitt nät som stoppade trafik för deras kunder i Katrineholm, Linköping och Norrköping. Felet avhjälpt hos dem och vi undersöker hur kommunikationen mellan Utsikt och Bahnhof kan förbättras för att snabbare få fram information om störningar (men helst undvika störning naturligtvis).
- 2009-04-09:
- Mellan 11:01 och 11:55 hade Utsikt störning i sitt nät som bromsade eller hindrade trafik till vår server. Felet avhjälpt hos dem och vi kollar vad som drabbade dem och att det inte skall hända igen.
- 2009-04-04:
- Ett fel som inte påverkat oss: under söndagen drabbade flera korta strömavbrott stora delar av Julita. Vattenfall hade problem med matningen på en 40-kilovoltledning till KEAB:s elstation och fick bryta för omkoppling vid lagning fyra gånger. Vår reservkraft hade inga problem att hålla servrar och lina igång!
- 2009-01-24:
- Lördag eftermiddag gick fiberanslutningen ner. Utsikt hade en störning som enbart drabbade Julita mellan 14:17 och 16:58. På Utsikts driftsida finns ingen mer information än att det var en driftstörning. Vi kontaktar dem för att höra detaljerna och säkerställa att de gör vad som är möjligt för att förhindra motsvarande störningar i framtiden.
-
- 2009-01-10:
- Under eftermiddagen blev fibermodemet strömlöst beroende på glapp i en strömkontakt och extern trafik avstannade 14:45. Kontakten byttes och trafiken kom igång igen 16:00. Vi beklagar detta stopp och ser över kontakter och kablar för strömförsörjning till alla viktiga delar i vårt nätverk.
-
- 2008-09-24:
- Tyvärr inträffade ett kort avbrott i anslutningen på grund av en urdragen kontakt i vår datahall. Felet varade mellan 18:55 och 19:30. Vi beklagar detta och förebygger detta genom bättre fixering av samtliga viktiga kablar.
- 2008-09-21:
- Webmailen på http://webmail.eldata.se var inte nåbar under morgonen. Efter omstart av webmail-programmet fungerar allt normalt. Vi kontrollerar om en uppdatering av programvaran kan hjälpa samt kompletterar våra automatiska kontrollrutiner.
- 2008-05-26:
- En liknande driftstörning som den 12:e mars drabbade hela Utsikts nät, inklusive fiber-anslutningen av våra servrar. Från sent söndag kväll till ca 09:50 måndag förmiddag kom endast en liten andel trafik igenom vilket drabbade våra webkunder och försenade epost. Vi beklagar än en gång å Utsikts vägnar och kommer diskutera med dem dels hur detta tillsynes likartade problem undviks, men också hur felsökning och reparation kan ske snabbare i framtiden.
- 2008-03-12:
- Efter midnatt fram till ca 10:30 låg hela nätet hos vår ISP Utsikt nere. Våra servrar mådde bra men utan kontakt med omvärlden kunde varken epost eller weblösningar nås. Vi beklagar det inträffade och ligger på vår leverantör att förebygga liknande avbrott i framtiden.
-
Mer driftinfo från vår ISP Utsikt.
|
Av Erik Liljencrantz 2008-09-24 22:50, uppdaterad 2017-11-22 14:35
|