以前做研究時,常用正規擷取兩個括號之間的 Attributes,用一個例子解釋如下。
假設今天有一個檔案內容,描述一筆資料結構:
Person Tom{
name Tom,
age 20,
gender male
};
如果想擷取出:
1 : Tom
2 : 20
3 : male
用 Python 的 regex 具體作法,我分成兩步驟:
通常檔案內的資料會分為多行並縮排以方便閱讀,因此利用偵測分號,將開頭到結尾分號的內容存入 full_line,拿掉 \n 符號。
接著參考這個討論串的作法,將左右大括號內的內容取出:
執行結果
0 : Tom
1 : 20
2 : male
找到我們要的 Person 資料結構之後,先將括號內的資料存在 content 內,re.findall 會返回一個 list ,將符合比對項目的所有的 attributes 存入此 list 內。
假設今天有一個檔案內容,描述一筆資料結構:
Person Tom{
name Tom,
age 20,
gender male
};
如果想擷取出:
1 : Tom
2 : 20
3 : male
用 Python 的 regex 具體作法,我分成兩步驟:
- 先將檔案內容從 Person 開始到結尾分號,存入一個 string 叫做 full_line,但注意不要存 \n 換行字元到 full_line 內。
- 用正規將 full_line 內大括號內的字元都擷取出來,也就是擷取:
"name Tom, age 20, gender male" - 再利用正規,將第 2 步驟擷取出的字串,用 re.findall 逐一擷取 attributes 的 key 值。
full_line = "" with open(fileName, 'r') as f: for line in f.readlines(): line = line.strip() if not line: continue // eliminate lines filled with white spaces print line full_line += line if full_line.find(';') == -1: full_line += " " continue
通常檔案內的資料會分為多行並縮排以方便閱讀,因此利用偵測分號,將開頭到結尾分號的內容存入 full_line,拿掉 \n 符號。
接著參考這個討論串的作法,將左右大括號內的內容取出:
pattern = re.compile(r""" (\w+)\s+(\w+) \s*\{ ([^)]+) \}\s*; """, re.VERBOSE|re.MULTILINE) match = pattern.search(full_line) if match is not None: content = match.group(3) pat = "[^,]+\s(\w+)\s*,?" var_list = re.findall(pat, content) for i in range(len(var_list)): print i, ":", var_list[i]
執行結果
0 : Tom
1 : 20
2 : male
找到我們要的 Person 資料結構之後,先將括號內的資料存在 content 內,re.findall 會返回一個 list ,將符合比對項目的所有的 attributes 存入此 list 內。
留言
張貼留言