Bislang hatte ich noch kein Pogramm gesehen, bei dem man auf der Kommandozeile einfach HTML Entitäten, wie > oder & in den normalen Zeichensatz zurückkonvertieren kann. Sicher, es gibt dafür eine PHP-Funktion und bestimmt auch eine entsprechende Perl-Funktion, aber warum nicht etwas einfacheres nutzen..
sudo apt-get install recode
recode HTML.. < file.html > file.txt
Recode kann übrigens noch mehr, z.B. die Zeilenumbrüche vom Linux-Format zu Windows konvertieren. Eine kleine Beispielsammlung gibt es bei linux.co.uk.
Leave a Reply