次のトピックは、http://www.scintilla.org/SciTERegEx.html にあるパブリック ドメイン文書に基づいています。
正規表現 (RegEx) は、文字列ではなくパターンを検索するために使用します。
たとえば、次の POSIX モードの正規表現を使用すると、プロパティ ファイル内の $(name.subname) のような変数を検索することができます。
\$([a-z.]+)
この正規表現は、次のような内容になっています。
次の規則にマッチする文字列を検索します。
特殊な文字 \\$
で示されるように、$
で始まる
その後に a から z までの小文字、さらに任意の文字が続く(ピリオド .
セットを定義する \+
と \[\]
記号で示されたとおり、上記のセットが 1 回以上繰り返される
正規表現を使用した置換では、タグによる式を使用することによって複雑な変換を行うことができます。
たとえば、カンマで区切られた 1 対の数字は、POSIX モードの正規表現で置き換えることによって順番を変えることができます。
([0-9]+),([0-9]+)
を次のように置換します。
\2,\1
1 つ目の正規表現は、1 つ以上の連続した 0 から 9 までの数字、カンマ、さらに 1 つ以上の連続した 0 から 9 までの数字、にマッチするパターンを表します。
POSIX モード以外では、同じパターンは次のように書きます。
\([0-9]+\),\([0-9]+\)
置換する正規表現 \\2, \\1
は、マッチした 2 つ目の表現をカンマの前に置き、1 つ目の表現をカンマの後に置くことを表します。
1 つ目の POSIX モードの正規表現は、次のように書くこともできます。
(\d+),(\d+))
これは、1 つ以上の連続した任意の数字、カンマ、さらに 1 つ以上の連続した任意の数字、というパターンを表します。
正規表現の構文は、次のパラメータによって異なります。
find.replace.regexp.posix
このパラメータが 0 (既定値)に設定されている場合は、正規表現の構文には従来の UNIX スタイル(\( と \) が取得する文字列範囲を定義し、( と ) は文字通りのカッコを表す) が使用されます。
1 に設定されている場合は、正規表現の構文にはより一般的なスタイル (通常のカッコ ( と ) が取得する文字列範囲を定義し、\( と \) は文字通りのカッコを表す) が使用されます。
文字はその文字自体にマッチしますが、次の特殊文字(メタキャラクタ)は例外です。\ [ ] * + ^ $ および POSIX モードの場合は ( )
任意の文字にマッチします。
後続の文字にマッチしますが、以下の例外があります。
\a、\b、\f、\n、\r、\t、\v はそれぞれ対応する C のエスケープ文字である BEL、BS、FF、LF、CR、TAB、VT に一致します。Scintilla では正規表現の検索は 1 行ごとに行われる(行終了文字は取り除かれる)ので、\r および \n にマッチすることはないことに注意してください。
POSIX モード以外で、左右の丸カッコが続いている場合 ([7]参照)
1 から 9 までの数字が続いている場合 ([8]参照)
左右の角カッコが続いている場合 ([9]参照)
d、D、s、S、w、W のいずれかが続いている場合 ([10]参照)
x と 2 つの 16 進数が続いている場合 ([11]参照)
バックスラッシュは、すべてのメタキャラクタおよび自身のエスケープ文字として使用されます。
セット内のいずれかの文字にマッチします。
セット内の最初の文字が ^ である場合は、セット内の文字以外の文字 (セットの補集合) にマッチします。
略式の S-E (開始文字(S)、ダッシュ、終了文字 (E)) は、開始文字から終了文字までの文字のセット (開始文字と終了文字を含む) を指定します。
特殊文字 ] および - は、このセットの最初の文字として使用される場合には特別な意味はありません。この両方を同時に含めたい場合は、[-]A-Z] のように「-」を先に指定するか、[A-Z\]\-] のようにそれぞれの直前にバックスラッシュを追加します。
例: | マッチする文字 |
---|---|
`[-] | ]` |
`[]- | ]` |
[a-z] |
任意の小文字のアルファベット |
[^-]] |
- および ] を除く任意の文字 |
[^A-Z] |
大文字のアルファベットを除く任意の文字 |
[a-zA-Z] |
任意のアルファベット |
[1]から[4]の任意の正規表現形式([3]の[7]、[8]、[9]形式は除きます)とそれに続く終了文字(*)は、その形式の _0 個以上_と一致します。
たとえば、[a-z]* は、「小文字のアルファベットが 0 個以上連続しているパターン」にマッチします。
[5]と同じですが、_1 回以上の繰り返し_にマッチします。
[5]および[6]は最長のパターンにマッチします(マッチしない文字が出現するまで、可能な限り多くの文字にマッチします)。
[1]から[12]までの正規表現を\(フォーム\) (POSIX フラグを使用している場合は (form)) のように囲むと、フォームにマッチするパターンと同じものにマッチします。() (または ()) で囲むことによってタグが形成され、[8] およびパターンの置換に使用できます。タグ付けされたフォームには、1 から始まる番号が振られます。
¥ に続いて 1 から 9 までの数字を指定すると、直前にタグ付けされた正規表現([7]参照)にマッチしたパターンに一致します。
正規表現の先頭に \< または末尾に \> を付けると、それぞれ語頭または語末でマッチするパターンのみを検索します(同時に使用することもできます)。1 つの語とは、A-Z、a-z、0-9、および _ で始まるか終わる (または両方) キャラクタ文字列であると定義されます。エディタはユーザ設定によってこの定義を拡張します。1 つの語の前後には、必ず先ほどの文字範囲外の文字が先行または後続し、語の区切りとなります (先行も後続もする場合もあります)。
バックスラッシュ(または円マーク)の後にd、D、s、S、w、Wのいずれかが続く場合は、文字クラスになります(いずれも [] セットの内部または外部にある場合)。
d: 10 進数の数字
D: 10 進数の数字_以外_の任意の文字
s: 空白文字(スペース、\t、\n、\r、\f、\v)
S: _空白文字以外_の任意の文字(スペース、\t、\n、\r、\f、\v 以外の文字)
w: 英数字_および_アンダースコア(ユーザ設定によって変更可)
W: 英数字 および _アンダースコア_以外の任意の文字 (上記参照)
バックスラッシュ_の後に xさらに、_2 つの連続した 16 進数が続くと、ASCII コードがその値にマッチする文字を表します。 2 つの 16 進数が続かない場合は、そのまま文字「x」を表します。
合成正規表現 xy (x と y はそれぞれ[1]から[10]にマッチ)は、_x の最長マッチ_に _y のマッチ_が後続するものにマッチします。
正規表現の先頭に ^ または末尾に $ を付けると、それぞれ行頭または行末でマッチするパターンのみを検索します(同時に使用することもできます)。 パターン内のその他の場所では、^ と $ は通常の文字と同じように扱われます。
このドキュメントの大部分は、Ozan S. Yigit によって書かれたものです。加筆部分は Neil Hodgson および Philippe Lhoste によるものです。このドキュメントはすべてパブリック ドメインです。