AW: Regelmässiger Absturz des Postfix-Servives

Uwe Drießen driessen at fblan.de
So Mär 29 22:30:46 CEST 2026


Hallo Andreas 
Ich hab das ganze mal meiner trainierten KI einfach hingeworfen .... und ich hab ihr schon gesagt fasse dich kurz :-) 

Das ist scheinbar kein Postfix Problem 
nach Sichtung der Logs sieht es für mich eher nicht nach einem primären Postfix Problem aus.

Zum Absturzzeitpunkt fällt zuerst systemd-journald mit Watchdog Timeout auf, zudem werden system.journal und user-5000.journal als beschädigt bzw. unsauber beendet gemeldet. Erst danach folgt bei Postfix Main process exited, status=14/ALRM.

Auffällig ist außerdem kurz davor eine größere Zahl paralleler Verbindungen auf smtps Port 465 mit SSL_accept error und lost connection after CONNECT. Das waren in diesen Minuten zwar keine echten Mailtransfers, aber durchaus viele TLS Handshakes und Logeinträge durch Scanner oder Bots.

Mein derzeitiger Verdacht ist daher:

primär ein Problem mit journald bzw. I/O oder Logging
verstärkt durch viele kurze Verbindungen auf 465
Postfix dann als Folgeschaden mit Timeout ALRM

Als nächste Schritte würde ich daher eher journalctl --verify, dmesg, mögliche I/O Fehler, Coredumps sowie testweise eine Begrenzung der Prozesse bzw. Verbindungen auf smtps und submission prüfen, bevor ich Postfix selbst als Hauptursache annehme.

Was die Logs sagen
journald war kaputt bzw. hing
systemd-journald.service: Watchdog timeout
system.journal corrupted or uncleanly shut down
user-5000.journal corrupted or uncleanly shut down
Postfix wurde mit Signal ALRM beendet
postfix.service: Main process exited, code=killed, status=14/ALRM
Zur selben Zeit massig Verbindungsversuche auf smtps 465
viele connect from unknown[...]
viele SSL_accept error ... lost connection

Das sind typische Bot und Scanner Verbindungen. Die wollen nicht sauber Mail schicken, die klopfen nur an die Tür und rennen wieder weg. Das allein ist noch kein Weltuntergang. Aber es produziert Prozesse, TLS Handshakes, Logeinträge und Dreck im Stall.

Scannerlast auf 465
plus
viel Logging / I/O Problem / journald hängt
gleichzeitig
Postfix oder einer seiner Kinder bleibt irgendwo fest
und dann kommt ALRM als Folgeschaden, nicht als eigentliche Ursache.

Anders gesagt:
Nicht die Mailübertragung ist gestorben, sondern eher das Drumherum im Betriebssystem hat angefangen zu stolpern.
1. journald / Storage / I/O Hänger

Das ist mein Hauptverdacht.

Warum:
Journal korrupt
Watchdog Timeout
Startoperation von journald timed out
Logreihenfolge ist nach Journald Absturz schon halb Kartoffelsuppe

Prüfen:

journalctl --verify
systemctl status systemd-journald
dmesg -T | egrep -i 'error|ext4|xfs|blk|nvme|scsi|hung|oom|watchdog'

Wenn da I/O Fehler, Hänger oder Block Layer Theater auftauchen, hast du den Hasen.

2. Scannerflut auf Port 465

Dein smtps hängt offen im Internet und wird beackert wie ein Acker im Frühjahr.

Die vielen:

connect from unknown
SSL_accept error
lost connection after CONNECT

zeigen, dass Bots auf 465 feuern.
Wenn genug parallel kommen, hast du:

viele smtpd Prozesse
TLS Aufwand
Logging Aufwand
möglicher Stress auf Dovecot Auth Socket, Milter, DNS, Journal

Submission 587 und SMTPS 465 für echte Benutzer offen lassen ist normal.
Aber man muss sie hart begrenzen.

3. Ein Nebenprozess blockiert Postfix
Mögliche Kandidaten:
milter auf localhost:11332
dovecot auth Socket
MySQL Lookups
DNSBL / DNS Auflösung
postscreen eher nur Port 25, also hier weniger verdächtig

Dein milter_default_action = tempfail ist okay für Mailfluss, aber wenn der Milter oder Logging klemmt, kann das trotzdem Chaos machen.

A. Journald aufräumen
systemctl stop postfix
systemctl stop systemd-journald

mv /var/log/journal/4063617fe39349249b8031de6b7b3d12/system.journal \
   /var/log/journal/4063617fe39349249b8031de6b7b3d12/system.journal.bad.$(date +%F_%T) 2>/dev/null

mv /var/log/journal/4063617fe39349249b8031de6b7b3d12/user-5000.journal \
   /var/log/journal/4063617fe39349249b8031de6b7b3d12/user-5000.journal.bad.$(date +%F_%T) 2>/dev/null

systemctl start systemd-journald
journalctl --flush
systemctl start postfix

journalctl --verify

B. 465 und 587 härter einschnüren

Du hast auf smtps und submission aktuell kein Prozesslimit gesetzt.
Dann greift der Default. Das ist oft zu großzügig.

In master.cf würde ich für beide Dienste testweise bremsen:

smtps      inet  n       -       -       -       20      smtpd
submission inet  n       -       -       -       20      smtpd

Noch sauberer mit Rate Limits und Anvil.

Zusätzlich:

smtpd_client_connection_count_limit = 10
smtpd_client_connection_rate_limit = 30
anvil_rate_time_unit = 60s

C. Fail2ban oder nftables auf 465 und 587

Wer auf SMTPS nur connectet und sofort wieder stirbt, ist selten Tante Erna mit Outlook.

Du kannst diese Kandidaten schön absägen:

viele kurze Fehlverbindungen
SASL Fehlschläge
verdächtige Verbindungsrate

Wenn du schon Fail2ban hast, baue dafür einen eigenen Jail für postfix-smtps.


D. Testweise Milter rausnehmen

Nur zum Eingrenzen. Nicht als Dauerlösung.

postconf -e 'smtpd_milters='
postconf -e 'non_smtpd_milters='
systemctl reload postfix

Wenn die Kiste dann stabil bleibt, sitzt der Wurm eher beim Milter.

Danach wieder zurückdrehen.

E. Dovecot Auth Socket prüfen

Weil smtps und submission beide SASL via Dovecot nutzen.

Prüfen:

ss -lx | grep auth_dovecot
systemctl status dovecot
journalctl -u dovecot --since "2026-03-27 21:00:00"

Wenn Dovecot Auth hängt, stauen sich deine MUA Ports.

Die sinnvollsten Prüfkommandos jetzt

Einmal diese Batterie, ohne Schnickschnack:

systemctl cat postfix
postconf default_process_limit
postconf smtpd_client_connection_count_limit
postconf smtpd_client_connection_rate_limit
postqueue -p
postfix status
journalctl -u postfix --since "2026-03-27 21:00:00" --until "2026-03-27 21:45:00"
journalctl -u systemd-journald --since "2026-03-27 21:00:00" --until "2026-03-27 21:45:00"
journalctl --verify
dmesg -T | egrep -i 'oom|killed process|watchdog|hung task|ext4|xfs|blk|nvme|scsi|i/o'
ss -tnp | egrep ':465|:587|:25'

Und ganz wichtig:

coredumpctl list | grep -E 'postfix|journald'

Wenn für postfix oder journald ein Core da ist, wird es plötzlich sehr viel weniger mystisch.

Primärproblem: systemd-journald bzw. I/O/Journal Problem
Verstärker: Scannerflut auf 465
Folgeschaden: Postfix Master oder Teilprozess läuft in Hänger/Timeout und stirbt mit ALRM

Also:
Der Briefträger ist nicht an einem Liebesbrief gestorben, sondern weil die Straße voller Schlamm war und draußen zehn Betrunkene gleichzeitig Sturm geklingelt haben.

Mit freundlichen Grüßen

Uwe Drießen
--
Software & Computer

Netzwerke, Server. 
Wir vernetzen Sie und Ihre Rechner !

Uwe Drießen
Lembergstraße 33
67824 Feilbingert

Tel.: 06708660045 
Mobil 01726688122
" Ich bekomme so langsam Pickel wie die DIGITALIESIERUNG und KI MEHR Arbeit verursacht weil es Unternehmen nicht hinbekommen diese so zu GESTALTEN das diese den MENSCHEN ENTLASTET."
"Wissen macht den Unterschied zu Titel, Titel kosten - Wissen verdient."
"Digitalisierung löst KEINE Probleme, wer nicht Analog arbeiten kann wird es auch digital nicht können, Digitalisierung deckt gnadenlos jedes Problem auf."
"wenn Digitalisierung den Aufwand zur Analogen Arbeitsweise erhöht, den Gewinn schmälert dann wird es Zeit zur Analogen Arbeitsweise zurückzukehren"
"Programmierer müssen lernen wie Menschen denken. "
"Digitalisierung ist die Intelligente Art erforderliche Arbeit auf Kunden zu übertragen. ("
"Digitalisierung darf nicht zur Entmündigung führen."
" Es gibt über 2000 Jahre alte Papierdokumente, 10000 Jahre alte Steintafeln und wie alt ist das älteste elektronische Dokument?"




Mehr Informationen über die Mailingliste Postfixbuch-users