Donnerstag, 12. Januar 2023
Backup vom beatsblog.ch
Seit langer Zeit habe ich heute wieder einmal ein Full-Backup meines Blogs gemacht und dieses Backup hier auf unserem NAS abgelegt. Per FTP habe ich 3,2 GB Daten downgeloadet, was ganz schön dauert. Danach habe ich die Datenbanken per phpMyAdmin exportiert und ebenfalls hier lokal gesichert. Dabei ist mir folgendes aufgefallen: Die ganze DB umfasst 116 MB an Daten. Die -mit Abstand- grösste Tabelle ist die styx_visitors, welche allein schon 75 MB Speicherplatz benötigt.
Als ich diese Tabelle dann genauer betrachtete stellte ich fest, dass darin 424'739 Zeilen abgespeichert sind und zwar jeder Seitenaufruf beginnend am 21.02.2022, bis zum 29.12.2022. Da frage ich mich doch gleich mehrere Dinge:
- Weshalb beginnt die Aufzeichnung am 21.02.2022?
- Weshalb endet die Aufzeichnung am 29.12.2022?
- Ist das so korrekt und gewollt?
- Könnte ich die Tabelle leeren um Speicherplatz freizugeben?
Mir ist das nicht sonderlich wichtig, doch vielleicht kannst Du mit diesen Angaben etwas anfangen.
Dieser Link ist nicht aktiv. Er enthält eine kopierbare Trackback-URI, um manuell ein Ping- und Trackback zu diesem Eintrag für ältere Blogsysteme zu generieren; zB (immer noch valide) über das zur Verfügung gestellte Eintragsfeld des serendipity_event_trackback Plugins. Serendipity und andere Blogsysteme erkennen die Trackback-URL heutzutage aber automatisch anhand der Artikel-URL. Die Trackback-URI für ihren Link des Sender-Eintrages lautet daher wie folgt: »https://www.blog.dokumenzi.ch/2681-Backup-vom-beatsblog.ch.html«
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
Ian Styx am :
Ja FTP ist grottenlangsam, wesentlich besser ist ein Zip über einen Konsolenzugang mit anschließendem download. Und hoffentlich mit phpMyAdmin als UTF-8 exportiert! !!!!!!!! 😬 du erinnerst dich...
hmmm.. der 21. Februar ist komisch..., denn
Suche mal nach +visitors +Tabelle. Da findest du vier Kommentarsessions die das Thema behandeln. (Und wenn du sie mit rechts im neuen Tab öffnest bleibt auch das searchhighlight erhalten. 😎)
Wenn ich mich recht erinnere soll die visitors Tabelle immer dann aufgeräumt werden, wenn du das Statitik Plugin aufrufst, so dass einerseits alle gegenwärtig neuen Daten in die _refs und _visitors_count Tabellen aggregiert werden und andererseits alles von vor einem Jahr kontinuierlich gelöscht wird, so dass eben nur jeweils ein Jahr verbleibt. Die von dir genannten Daten müssen also abhängen von den Daten des letzten Aufrufes und cleanups bzw von den Daten die überhaupt darin aufgelaufen sind.
Bei der Frage ob man sie nun direkt nach der Datenaggregation komplett leeren könnte bin ich mir gerade nicht sicher. Eigentlich ja schon.., aber ich kann nicht versprechen dass das nicht doch irgendwelche Folgen hat ... zb jene, die wir bereits beim install hatten, denn es braucht mindestens einen Eintrag um als existent zu gelten. Möglicherweise gibt es noch mehr solche Sachen....🙄
Ian Styx am :
424'739 Zeilen sind es wahrscheinlich auch gar nicht und diese Zahl ist nur der gegenwärtige autoincrement ID counter seit install. Wahrscheinlich hast du so gegen ~40-50.000 Einträge in diesem letzten vorliegenden Jahr, je nachdem wie viele Spammer und Einbruchsversuchsaufrufe du zu verzeichnen hast. Die wenigen echten Besucher sind 1-10%.
Beat Post author am :
Um das klar zu machen: Ich rede von der styx_visitors-Tabelle von www.beatsblog.ch (nicht von hier).
Diese Tabelle habe ich gestern (mit allen anderen) exportiert. Wenn ich sie mit Excel öffne, sind darin 424'651 Zeilen enthalten, im oben genannten Zeitraum.
Vorhin habe ich auf www.beatsblog.ch die Statistik aufgerufen und danach mit phpMyAdmin die Tabelle betrachtet. Die Einträge haben sich nun auf 419'905 reduziert (geschenkt). (ein zweites Mal die Statistik aufrufen, dann sind es 419'908, beim dritten Mal dann 419911) -> vermutlich werden meine eigenen Hits mitgezählt.
Moment:
Habe gerade festgestellt, dass die Tabelle nicht nach Datum/Uhrzeit sortiert ist. Wenn ich das mache, sehe ich der gestern exportierten Tabelle den Gesamtzeitraum vom 06.01.2022/00:05 bis zum 12.01.2023/14:58 (dem Zeitpunkt des Exportes).
Habe die Tabelle soeben noch einmal exportiert. Ja, stimmt: Die Tabelle enthält die Daten eines Jahres. Nun sind es 419'920 Einträge, beginnend am 13.01.2022/00:02 bis heute, 13.01.2023/12:31.
O.K. Soweit alles in Ordnung! Über die vielen Datensätze kann man sich wundern, doch der Automatismus "Datehaltung eines rollenden Jahres" lässt die Tabelle immerhin nicht einfach endlos anwachsen. Soweit also alles gut.
Ian Styx am :
Na dann ist ja alles ok..., bis auf die erschreckenden Größe für so einen Export, die man ja so tatsächlich nicht bräuchte. Vielleicht kann man sie nach Aufruf des Statistics Plugins und vor dem Backupexport zusammenschrumpfen und nur die letzten 10 Tage drinnen lassen ..oder so.
(Dann müsste der ID counter ja schon in den Millionen sein...)
Das heißt du hast ganz schön viel Zugriffe von Bots und Spammern, und bösen Bub::inn::en (hihihi) Angesichts der vermuteten Menge muss man aber erstmal dem System insgesamt extrem auf die Schulter klopfen, dass es davon (fast) nix durchlässt, nicht wahr?!!
Dann wäre es eine verdammt gute Fundgrube für ein Script dass die IP Adressen derjenigen herausliest, die es öfter als X mal im Zeitraum N versuchen und diese dann per ip-/nftables (wenn man soetwas zur Verfügung hat) generell für den Server auf 1,2,3 Jahre o.s. sperrt. Sowas macht ja fail2ban auf eigenen Servern meist sowieso schon... und wenn nicht könnte es eben diese Fundgrube nutzen.
Wo ich aber zusammenzuckte war bei dem Wort Excel. 😱 Machts du tatsächlich generell eine sql Export Datei mit Excel auf? Kann Excel mit UTF-8 encodeten Dateien umgehen und belässt sie auch so, mitsamt den ganzen Steuerzeichen von PhpMyAdmin usw, falls man sie mal nicht nur zum Lesen öffnest?
Hast du das auch so benutzt wenn du in sql Daten für Importe herumhantiert hast?
Beat Post author am :
Der ID-Counter der styx_visitor-Tabelle steht aktuell bei etwa 780'000.
Betreffend Excel: Ich bin ein alter Windows und Office Bürogummi. Excel kann ich zumindest recht gut bedienen 😉. Zum schnellen Sichten und Sortieren von Datenbanktabellen finde ich das nach wie vor eine gute Variante, zumal phpMyAdmin explizit einen "CSV-Export for Excel" anbietet.
Ich würde jetzt gerne behaupten, dass ich Änderungen an Tabellen immer und ausschliesslich mit Notepad++ gemacht habe, doch so wirklich sicher bin ich mir da nicht. Wenn ich an diese Aktion vor fünf Jahren denke (/2285-nur-fuer-mich...-relativ.html), so weiss ich wirklich nicht mehr genau, wie ich das damals gemacht habe. Ich gehe aber davon aus, dass ich das damals schon per Editor und nicht mit Excel gemacht habe.
PS: Falls Du an der aktuellen styx_visitors-Tabelle interessiert bist, könnte ich sie ja hier in die Mediathek hochladen.
Ian Styx am :
Nee Danke, habe selbst genug spammer zu bearbeiten..! 🙂
Aber soetwas mit Excel zu bearbeiten wäre mir echt zu heikel, wobei ich das Teil eben auch meide wie der Teufel das Weihwasser und deshalb nur aus Paranoia so daherrede, angesicht meiner wenigen früheren Erfahrungen mit MS Word Quellcodes (die einfach nur zum Gruseln waren).
Angesichts UTF-8 und dem zugehörigen Dateiformat und eben auch den phpmyadmin SQL headern muss aber sehr genau wissen was das EDIT Programm kann, beachtet und abspeichert, wenn man ein Solches zur Bearbeitung für einen späteren Import benutzt. Und phpmyadmin ist ja auch nicht unfehlbar. Ich würde mal behaupten dass dem Exel Export/Import auch kein so grosses Augenmerk geschenkt wird wie den reinen SQL txt Formaten. Nun denn..!
780.000 ist ja noch gar nicht so schlimm wie befürchtet und liegt vielleicht daran dass es noch relativ jung seit dem Umzug ist.
Ian Styx am :
Ich denke gerade dass es vielleicht doch lieber bei einem Jahr bleiben sollte, denn -so kam es mir gerade in den Sinn- der Übertrag in refs und visit counts erfolgt nicht unbedingt nach den neueren Daten seit letztem Besuch sondern aus diesem aktualisiert verbleibenden und rollenden Jahr. Im Grunde muss man das also mal (backup) gesichert ausprobieren, wenn man es eindampft, ob es dann überhaupt noch funktioniert. Obacht also! 😦
Beat Post author am :
Ich werde nichts daran herumbasteln oder löschen. Bei 7% Speicherauslastung auf dem Webspace spielen diese paar MB wirklich keine Rolle.
Das Ganze ist mir einfach aufgefallen und ich wollte es Dich wissen lassen. Wenn also alles soweit in Ordnung ist, können wir es dabei belassen.