[Python] Parse 左右括號內的變數宣告

以前做研究時，常用正規擷取兩個括號之間的 Attributes，用一個例子解釋如下。

假設今天有一個檔案內容，描述一筆資料結構：

Person Tom{
name Tom,
age 20,
gender male
};

如果想擷取出：

1 : Tom
2 : 20
3 : male

用 Python 的 regex 具體作法，我分成兩步驟：

先將檔案內容從 Person 開始到結尾分號，存入一個 string 叫做 full_line，但注意不要存 \n 換行字元到 full_line 內。
用正規將 full_line 內大括號內的字元都擷取出來，也就是擷取：
"name Tom, age 20, gender male"
再利用正規，將第 2 步驟擷取出的字串，用 re.findall 逐一擷取 attributes 的 key 值。

Code 如下：

full_line = ""    
with open(fileName, 'r') as f:
        for line in f.readlines():
            line = line.strip()
            if not line:    continue   
            // eliminate lines filled with white spaces
            
            print line
            
            full_line += line 
            if full_line.find(';') == -1:
                full_line += " "
                continue

通常檔案內的資料會分為多行並縮排以方便閱讀，因此利用偵測分號，將開頭到結尾分號的內容存入 full_line，拿掉 \n 符號。

接著參考這個討論串的作法，將左右大括號內的內容取出：

     
            pattern = re.compile(r"""
                                   (\w+)\s+(\w+) 
                                   \s*\{
                                         ([^)]+)
                                   \}\s*;
                                 """, re.VERBOSE|re.MULTILINE)
            
            match = pattern.search(full_line)
            if match is not None:
                content = match.group(3)
             
                pat = "[^,]+\s(\w+)\s*,?"
                var_list = re.findall(pat, content)

                for i in range(len(var_list)):
                    print i, ":", var_list[i]

執行結果
0 : Tom
1 : 20
2 : male

找到我們要的 Person 資料結構之後，先將括號內的資料存在 content 內，re.findall 會返回一個 list ，將符合比對項目的所有的 attributes 存入此 list 內。

Edoc Zec

搜尋此網誌

[Python] Parse 左右括號內的變數宣告

標籤

留言

張貼留言

這個網誌中的熱門文章

[開箱] Filco Majestouch 2 忍者鍵盤第二代

[Linux] 安裝 conda 並用 conda 安裝套件

[程式競賽] UVa 572, Oil Deposits,Flood Fill 演算法