Reguläre Ausdrücke
Reguläre Ausdrücke werden zum Suchen in Texten verwendet.
Die Funktionen countRE(), itemRE(), findRE() und substRE()
verwenden reguläre Ausdrücke.
Reguläre Ausdrücke sind Zeichenketten, bei denen einige Zeichen als
Steuerzeichen interpretiert werden. Dabei werden Übereinstimmungen mit dem zu
durchsuchenden Text gesucht. Die folgenden Steuerzeichen werden erkannt:
- c
Ein Buchstabe, eine Ziffer oder ein Zeichen, welches keine der unten
beschriebenen Sondereigenschaften hat, paßt auf das gleiche Zeichen im Text.
- \c
Paßt auf das folgende Zeichen 'c',
wobei das Zeichen 'c' nicht als Steuerzeichen interpretiert wird.
- .
Ein Punkt paßt auf jedes Zeichen außer auf das Zeilenende.
- ?
Das dem Operator '?' vorangehende Muster kann null oder einmal vorkommen.
- *
Das dem Operator '*' vorangehende Muster kann beliebig oft, auch 0 mal, vorkommen.
- +
Das dem Operator '+' vorangehende Muster kann beliebig oft, mindestens aber 1 mal, vorkommen.
- |
Die durch den Operator '|' verbundenden Argumente werden ODER verknüpft.
- ^
'^' (Caret) paßt auf den Zeilenanfang.
- $
'$' paßt auf das Zeilenende.
- <
'<' paßt auf einen Wortanfang.
- >
'>' paßt auf eine Wortende.
- []
Paßt auf alle angegebenen Zeichen. Es können auch Zeichenbereiche in der Form '[a-z]' angegeben werden.
Ist das erste Zeichen nach der eckigen Klammer ein '^' (z.B. '[^a-z]'),
dann passen alle Zeichen, die nicht in der Beschreibung vorkommen.
- ()
Die Klammern fassen (Teil-) Ausdrücke zusammen, wie in der Mathematik.
Außerdem wird wird der auf den in Klammern eingeschlossene Teil des Musters gespeichert
und kann innerhalb des restlichen der Regulären Ausdruckes und bei substRE()
auch innerhalb der Ersetzungszeichenkette abgerufen werden.
Den Zugriff erreicht man durch Verwendung von '$1' bis '$9'.
In der Ersetzungszeichenkette kann auch '$0' verwendet werden
um die gesamte Fundstelle einzufügen.
'$$' wird als einzelnes '$' interpretiert,
alle anderen '$*' Kombinationen bleiben unverändert.
- \b
Paßt auf kein Zeichen, sondern auf den Anfang oder das Ende eines Wortes.
- \B
Symbolisiert den Raum innerhalb eines Wortes.
- \w
Paßt auf alle alphanumerischen Zeichen '[A-Za-z0-9]'.
- \W
Paßt auf alle nichtalphanumerischen Zeichen '[^A-Za-z0-9]'.