Zeit sparen bei der Textpflege – Reguläre Ausdrücke

Textdurcheinander
Kopierte Texte sind oft ganz schön durcheinander.

Wer viel mit Text von anderen arbeitet, kennt das Problem: Je nach Quelle findet sich mehr oder weniger viel Unkraut zwischen dem eigentlichen Inhalt – überflüssige Zeilenumbrüche, Sonderzeichen, HTML-Code oder doppelte Leerzeichen. Oder man bekommt Text, den man in ein Dokument einbauen soll, der nicht die richtigen Anführungszeichen, Bindestriche oder Umlaute enthält.

Auch wenn man Text von Webseiten, aus PDFs oder aus Blog-/Redaktionssystemen kopiert, hat man meist jede Menge Zeichenmüll im Text.

Korrigiert man alles von Hand, kostet das viel Zeit und Geduld. Mit gewöhnlichem Suchen und Ersetzen kommt man schon etwas schneller zum Ziel. Jetzt stelle ich Ihnen aber ein paar Tools vor, mit denen es noch schneller geht. Vor allem, wenn Sie immer wieder mit solchen ungepflegten Texten kämpfen, lohnt sich die Mühe, diese Arbeitsschritte zu optimieren.

Die Retter: Reguläre Ausdrücke

Um solche Suchvorgänge zu erleichtern, gibt es die so genannten Regulären Ausdrücke (regular Expressions). Das sind Abkürzungen, mit denen Sie definieren, welche Zeichen Sie suchen bzw. suchen und ersetzen wollen. Sie sind sehr mächtig, aber leider auch sehr mühsam zu lernen. Ich habe mich jahrelang auf die paar einfachen Zeichen beschränkt, die ich kannte – \n steht zum Beispiel für einen Zeilenumbruch, \t für einen Tabulator.

Damit lassen sich aber auch viel komplexere Suchen zusammensetzen: Sie können zum Beispiel nach verschiedenen Formen eines Wortes suchen, also zum Beispiel nach „cool“, „cooler“, „coolen“ und „cooles“ auf ein Mal:

cool\w*

Der Rückstrich ist das Sonderzeichen, das die meisten Regulären Ausdrücke einleitet. Das „w“ steht für „Wortzeichen“, also praktisch alle Buchstaben. Der Stern heißt so etwas wie „nimm so viele am Stück vom vorstehenden, wie Du bekommen kannst“. Das heißt in unserem Fall, dieser Ausdruck sucht so lange weiter, bis er ein Zeichen findet, das kein Wortzeichen ist – also ein Komma, ein Punkt oder ein Leerzeichen.

Und es kommt noch besser: Sie können auch auf die gefundenen Zeichenteile zugreifen. Deren Position können Sie dann beim Ersetzen zum Beispiel vertauschen. Folgender Regulärer Ausdruck:

(die Katzen )\((\w*)\)

mit der Ersetzungsanweisung

$2: $1

macht etwa aus

die Katzen (Beispiel)

den Text

Beispiel: die Katzen

Die Dollarzeichen mit den Nummern sind die Fundstellen, die im Regulären Ausdruck mit Klammern gruppiert sind.

Wenn Sie jetzt ausgestiegen sind: Denken Sie sich nichts, so ging es mir bis gerade eben auch. Am besten lernt man, wie es funktioniert, wenn man es ausprobiert. Aber mit den gewöhnlichen Mitteln ist das mehr als mühsam. Daher kann ich die Site RegExr nicht genug empfehlen: Hier können Sie Ihren eigenen Text einkopieren und dann so lange mit den Regulären Ausdrücken spielen, bis das herauskommt, was sie wollen.

Sie sehen sofort nach jeder Änderung, welche Auswirkung das hat. Per Rollover über Ihren Ausdruck bekommen Sie auch gleich eine Kurzbeschreibung dessen, was dieses Zeichen bewirkt.

Dass die Anwendung in Flash umgesetzt ist, nimmt man dann gern in Kauf – sie ist nicht hübsch, funktioniert aber wunderbar.

Interface von RegExr
Mit RegExr können Sie sofort sehen, welche Zeichen Ihr Regulärer Ausdruck findet.

Im nächsten Post werde ich Ihnen ein paar Programme vorstellen, die die Arbeit mit Regulären Ausdrücken deutlich leichter machen.

1 Gedanke zu „Zeit sparen bei der Textpflege – Reguläre Ausdrücke“

Schreibe einen Kommentar