Ankündigung: Wartungsarbeiten kommende Nacht, 10.05.2012, 01:00-03:00

  • Antworten:18
  • OffenNicht stickyNicht beantwortet

09.05.2012 16:32:58 via Website

Hallo zusammen,

kommende Nacht um 1:00 werden wir beginnen unsere Datenbank auf einen leistungsfähigeren Server umzuziehen.
Es wird etwa 1-2 Stunden dauern - während dieser Zeit werden wir offline sein.
Ich bitte um Verständnis.

Viele Grüße,
Sven

— geändert am 09.05.2012 16:34:08

Android Forum ... AndroidPIT-Regeln

09.05.2012 17:54:26 via Website

Liebe AndroidPIT Leserinnen und Leser,

für all diejenigen unter Euch, die nun ab 1:00 Uhr von Weinkrämpfen ereilt werden, haben wir in Kooperation mit der Akuthilfe deutscher Weinkrampfopfer eine kostenlose Taschentuch Notausgabe organisiert.

Wer ab 1:00 Nacht, heute, mit einer angezeigten Fehlermeldung im AppCenter zu einer der Notausgabestellen kommt und diese dort vorweist, bekommt eine Notration von 150 Papiertaschentüchern sowie fünf tröstende Worte gespendet.

Ein Service Eures Dreamteams
von AndroidFIT

— geändert am 09.05.2012 17:55:51

lg Voss - Ach ja und noch was, die AndroidPIT-Regeln ლ(╹◡╹ლ) Android Security

Gelöschter Account

09.05.2012 18:22:18 via App

Der Link zur Liste der Notausgabestellen fehlt!

Die Tatsache, dass ich paranoid bin, heißt noch lange nicht, sie seien nicht hinter mir her!

09.05.2012 19:05:14 via App

Ich werde jetzt schon von Weinkrämpfen geschüttelt - im Wissen um das unaufhaltsam herannahende Unheil. Ich WILL jetzt schon meine tröstenden Worte haben...

Signaturen werden im allgemeinen überbewertet

09.05.2012 19:19:18 via Website

Käpt'n Andreas V.
Och du armes kleines Otternäschen, es wird nur halb so wild :lol:

das waren aber rmehr wie fünf worte... kostet doch normal einen Aufpreis oder nicht?

Ich bin ein Kind der Straße.... keins aus dem Ghetto... mein Viertel war die Sesamstraße

Gelöschter Account

09.05.2012 19:26:35 via App

Marc N.
Vielleicht hören endlich diese Serverausfälle auf.

Wovon träumst du?
Weißt du eigentlich, der wievielte Serverumzug das bereits ist, ohne eine wirklich stabile Verbesserung zu erreichen?

— geändert am 09.05.2012 19:27:08

Gelöschter Account

09.05.2012 21:38:50 via Website

Jörg V.
Och Ralph .... Du enttäuscht mich .. :(

Wieso, fehlt doch!

(Leider sind mir die Ironie-Tags ausgegangen)

Die Tatsache, dass ich paranoid bin, heißt noch lange nicht, sie seien nicht hinter mir her!

10.05.2012 01:50:57 via Website

Hans K.
Marc N.
Vielleicht hören endlich diese Serverausfälle auf.

Wovon träumst du?
Weißt du eigentlich, der wievielte Serverumzug das bereits ist, ohne eine wirklich stabile Verbesserung zu erreichen?

Der letzte Upgrade des Datenbankservers war im November, also vor einem halben Jahr. In unserer Zeitrechnung ist das eine Ewigkeit, in dem Zeitraum hat sich unser Traffic verdoppelt.

Damals hatten wir von einem i7-930 mit 24 GB RAM und 2 HDDs im Software-RAID auf einen i7-950 mit 24 GB RAM sowie Hardware-RAID-Controller mit 2 HDDs und 2 SSDs aufgerüstet. Das hatte ziemlich viel gebracht und dieser Server ist auch noch längst nicht ausgelastet.

Doch wollen wir vorbeugen und rüsten jetzt auf auf einen i7-3630K (die viertschnellste CPU momentan auf dem Market laut http://www.cpubenchmark.net/high_end_cpus.html und mehr als doppelt so schnell wie die bisherige) mit satten 64 GB RAM. Das sollte noch mal deutliche Entspannung bringen, vor allem zu Lastspitzen.

Weiterhin haben wir gestern - ohne dass es eine Downtime gab - zwei zusätzliche Webserver aufgesetzt. Somit werden nun App Center und Webseite von jeweils 4 Webservern bedient.

Zu den Ausfällen lasst mich noch sagen, dass es nicht immer Hardwareprobleme sind. Oft sind auch Softwareprobleme - fremd- sowie selbstverschuldete - die Ursache.

Die häufigen Ausfälle vor einigen Wochen z. B. hatten ihre Ursache im JDK. Alle JDKs bis zur Version 1.7.3. waren von einem Tag auf den anderen plötzlich instabil und wurden immer wieder - ohne jede erkennbare Ursache - mit einem Segmentation Fault beendet. Da wir die Ursache zunächst nicht in einer seit monaten stabil laufenden Komponente vermutet haben, hatte die Fehlersuche so lange gedauert. Erst mit dem Erscheinen der ersten Developer-Preview der JDK 1.7.4 waren die Probleme plötzlich verschwunden und wir konnten die Ursache nun definitiv auf die bisherigen JDKs schieben.

Natürlich machen wir selbst auch Fehler.

So kommt es trotz aller Vorsicht (jede größere Änderung am Code wird reviewed, bevor sie online geht) auch gelegentlich dazu, dass wir fehlerhaften Code deployen. Oft ist es sofort sichtbar: Wenn z. B. eine bestimmte Seite bei 100.000 Aufrufen 100 Fehler verursacht, hagelt es uns Fehler-Mails im Posteingang (die werden von den Server automatisch verschickt).

Wenn aber eine Änderung am Code dazu führt, dass vereinzelte Server alle paar Tage plötzlich auf 100% CPU-Last gehen - dann ist hier die Ursache nicht so schnell zu erkennen. Insbesondere durch unsere häufigen Updates wissen wir zunächst nicht, welches Update der letzten Tage denn nun überhaupt dafür verantwortlich ist.

Vor ein paar Tagen gab es wieder so einen Fall: In einem vor etwa 4 Wochen deployten Feature gab es einen unsynchronisierten Zugriff auf eine Hashmap (was in einer hochparallelen Webanwendung tödlich sein kann - erfahrene Programmierer wissen wovon ich rede), die trotz Code Review ins Live-System deployed wurde. Das kann dann wochenlang gutgehen und plötzlich kracht's, ohne dass jemand weiß, woran es liegt. Da müssen wir dann zunächst ein Profiling Tool starten, warten bis der Fehler erneut auftritt (und zwar genau auf dem Server, auf dem das Profiling mitläuft - das kann Tage bis Wochen dauern) und erst dann können wir anhand des Profiler-Outputs den Fehler fehlen und beheben.

So... genug davon. Ich wollte eigentlich nur sagen, dass die deutsche Seite seit 01:31 wieder erreichbar ist und bis 01:36 auch die Server für alle anderen Sprachen wieder hochgefahren waren.

Viele Grüße + Gute Nacht,
Sven

Android Forum ... AndroidPIT-Regeln

10.05.2012 07:06:01 via Website

Sven, ich finde, ihr leistet hervorragende Arbeit! Kleine Wünsche und Probleme werden prompt erledigt und liegt doch einmal was größeres an, verbeißt ihr Euch so lange darin, bis es zur Zufriedenheit aller behoben ist.

Ich glaube manche machen sich einfach keinen Kopf, was für ein technischer und personeller Aufwand hinter einer Seite mit 1,2 Millionen Usern steckt. Sekündlich kommen tausende Anfragen auf die Server zu, werden zig Apps heruntergeladen und Posts verfasst. Dann bleibt ihr auch noch mitten in der Nacht auf, um die Server zu warten. Hut ab vor diesem Einsatz für die Community!!!

Gelöschter Account

10.05.2012 13:39:30 via App

Hallo Sven, danke für deinen hochinteressanten Einblick in das interne Geschehen hinter Androidpit.

Auch wenn ich viele Begriffe erst mal googlen musste, um zumindest ansatzweise zu verstehen, um was es ging. :*)

— geändert am 10.05.2012 13:42:08