跳到主要內容

[Python] 正規表達式 Regex:group

記錄正規表達式的 group 擷取字串的順序。
Python 的正規表達式,透過 group() 函式擷取括號框住的內容。

以下是我寫的例子:
import re
def main():
    string_to_search_1 = "food   @123"
    string_to_search_2 = "feed"
    pattern = re.compile(r'(f(oo|ee)d)\s*(@(\d+))*')

    matches = pattern.finditer(string_to_search_1)
    for match in matches:
        print "match:", match.group()
        print "1:", match.group(1)
        print "2:", match.group(2)
        print "3:", match.group(3)
        print "4:", match.group(4)
        # print "5:", match.group(5)  # no such group.

        tmp = int(match.group(4))
        tmp += 5
        print "tmp =", tmp
        tmp = str(match.group(4))
        print "tmp[2] =", tmp[2]

    matches = pattern.finditer(string_to_search_2)
    for match in matches:
        print "match:", match.group()
        print "1:", match.group(1)
        print "2:", match.group(2)
        print "3:", match.group(3)  #
        print "4:", match.group(4)  #
        # print "5:", match.group(5)  # no such group.

        if match.group(4) is None: print " None detected in group(4)."
        tmp = str(match.group(4))
        print "tmp:", tmp

if(__name__ == "__main__"):
    main()


執行結果
match: food   @123
1: food
2: oo
3: @123
4: 123
tmp = 128
tmp[2] = 3
match: feed
1: feed
2: ee
3: None
4: None
 None detected in group(4).
tmp: None

幾個重點
  1. 在正規表達式內,有幾個括號,就有幾組 group。
  2. 在 string_to_search_1 內掃描 (f(oo|ee)d) 這個 Pattern,group(1) 會回傳 food,group(2) 回傳 "oo"。先從最外大括號先回傳,其次再回傳內部小括號的字串。
  3. 回傳的字串可以自由的轉成整數或是取出個別字元。
  4. 在 string_to_search_2 內,group(3) 跟 group(4) 都回傳 None,因為找不到對應 Pattern。

留言

這個網誌中的熱門文章

[程式競賽] UVa 572, Oil Deposits,Flood Fill 演算法

原題目簡述如下: 以 m x n 大小的 grid 代表一張地圖,現今要在此地圖內探勘,找出油田。某一區塊如果標示 "@" 代表有油,"*" 代表沒有油。 "@" 相鄰的區域的聯集,可視為一個油田。(所謂相鄰,除了上下左右,斜向的相鄰也算進去) 求任意地圖中,油田的個數。 例如輸入的測資為: *    *   *    *  @ *   @  @  *  @ *   @   *   *  @ @ @  @   * @ @ @   *   *  @ 則油田個數為 2。 想法 採用典型的倒水演算法(Flood Fill),走訪 "@" 出現的區域,從此往下倒水,倒過水的區域標上 id,因此透過 id 的編號,可以得知油田的個數。 實作 先實作倒水演算法的子函式: void floodfill(vector<vector<char> >& map,                vector<vector<int>  >& id_table,                int row, int col, int id) {    if(row < 0 || (row >= map.size()) )   return;    if(col < 0 || (col >= map[0].size())) return;    if(map[row][col] != '@' || id_table[row][col] > 0) return;    id_table[row][col] = id;    floodfill(map, id_table, row-1, col-1, id);    floodfill(map, id_table, row-1, col,   id);    floodfill(map, id_table, row-1, col+1, id);    floodfill(map, id_table, row,   col-1, id);    floodfill(map, id_table, row,   col+1,

[Python] print 同時輸出到 file 和 console

在 Python 撰寫程式時,我們會希望螢幕 stdout 輸出可以同時記錄到 log 檔案裡。 但是螢幕輸出可能含有 ASCII escape codes 的顏色資訊,輸出的 log 檔案會有類似 ^[[01;32m 這種字樣出現。 我採用比較簡單的解法: 先將 print 函式輸出的訊息,同時導向到螢幕,同時儲存在指定的 log.txt 檔案中。 再用 sed 指令,將 log.txt 內的 ASCII escape code 清除。 方法如下: import sys class PrintLog(object): def __init__(self): self.console = sys.stdout self.log_file = open("log.txt", "w") def write(self, msg): self.console.write(msg) self.log_file.write(msg) def flush(self): pass def main(): original_stdout = sys.stdout sys.stdout = PrintLog() print " This is a testing message." sys.stdout = original_stdout if(__name__ == "__main__"): main() 也就是將 sys.stdout 指向自定義的 PrintLog class,讓 PrintLog 來處理輸出文字,用完 PrintLog 後再把 sys.stdout 導向回原本的 stdout。 接著使用 sed 指令刪除 log.txt 的 ASCII escape code: sed -i 's/\x1b[^m]*m//g' ./log.txt 上面的正規,\x 後面用來接一個 16 進位 ASCII 編碼,其中 1b 代表的是 ESC 退出鍵。 到此即可獲得沒有顏色編碼的 log.tx

[Python] 單引號,雙引號和三引號

在此解釋各種引號的意義。 雙引號跟單引號,在 Python 中的基本上沒差別,都可以代表字串: "This is a string" 'This is a string' 並且雙引號內可包含單引號,反之,如果用的是單引號,則單引號內可包含雙引號: "We call it 'Dog'...... " 'We call it "Dog"...... ' 三個雙引號,就可以直接輸入有換行的字串: """haha, this is a dog.""" 三個單引號要換行,就要輸入"\": '''haha, \ this is a dog.'''