Detail

HTTP Requests

previous page next page

Details

® Bài viết này của lazycat - hocautoit.com ®

Regular Expressions (Regex) dịch ra tiếng Việt là Biểu thức chính quy. Khái niệm này nằm trong 1 mớ lý thuyết vô cùng đồ sộ và hầm hố. Nhưng không nên lo lắng, ta có thể hiểu nôm na Regex là 1 cái mẫu (pattern) dùng để mô tả 1 lớp ký tự nào đó. Ví dụ: lazydog là 1 regex. Nó là 1 mẫu đơn giản nhất vì nó so khớp (match) với đoạn text lazydog. 1 match là 1 đoạn text so khớp với mẫu.

Ví dụ phức tạp hơn 1 chút: \b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b . Đây là mẫu mô tả 1 địa chỉ email. Mẫu này có thể được dùng để tìm 1 địa chỉ email trong 1 đoạn văn bản, hoặc kiểm tra xem 1 chuỗi có phải là địa chỉ email hợp lệ hay không.

Regex có thể được sử dụng với bất kỳ dữ liệu nào mà ta có thể truy cập, thông qua ứng dụng hoặc ngôn ngữ lập trình. Có thể kể đến 1 số ứng dụng xử lý văn bản hỗ trợ regex: PowerGREP, EditPad Pro, RegexBuddy,...

Regular Expression Engines

Regex engine là 1 bộ phận của phần mềm, chuyên để xử lý regex (so khớp mẫu với 1 chuỗi nào đó). Có nhiều regex engine và chúng không hoàn toàn tương thích với nhau. Cú pháp regex (flavor) của mỗi engine cũng có sự khác nhau. Loạt bài này sẽ tập trung vào cú pháp regex được sử dụng trong Perl 5, vì nó phổ biến nhất. Rất nhiều engine regex khác giống với engine sử dụng trong Perl 5: engine nguồn mở PCRE (sử dụng trong rất nhiều ngôn ngữ lập trình, và cả AutoIT cũng dùng thằng này), thư viện regex.NET,...

Để dễ tương tác, mình sẽ đánh dấu những string được áp dụng regex bằng màu xanh, các regex bằng màu hồng và phần match sẽ là màu lam

Regex Engine của AutoIt thuộc loại Regex-directed engine và các bạn nhớ lưu ý điều này khi đọc các TUT khác về regex (vì còn 1 loại nữa là text-directed engines). Đặc điểm của Regex-directed engine là "luôn trả về kết quả so khớp bên trái nhất" thậm chí nếu có 1 match khác tốt hơn phía sau! Điều này đáng để ghi nhớ! Regex-directed engine luôn bắt đầu so khớp với ký tự đầu tiên của chuỗi. Giả sử ta áp dụng regex cat và chuỗi He captured a catfish for his cat. Thì nó sẽ match He captured a catfish for his cat. rồi dừng lại thay vì He captured a catfish for his cat.

Trong AutoIt thì chỉ có 2 hàm chính liên quan đến regex đó là StringRegExp và StringRegExpReplace. 2 hàm này tương tự nhau (về phần regex) nên ở đây chúng ta sẽ nói đến StringRegExp trước.

Hàm StringRegExp

StringRegExp("test", "pattern" [, flag ])

Hàm StringRegExp trả về Mảng khi flag > 0, trả về True/False khi flag = 0

·	"test"=Chuỗi cần áp dụng regex (string)

·	"pattern"=Một chuỗi các kí tự khóa để chỉ cho hàm biết chính xác các bác muốn khớp (match) cái gì. Không if, không and và không but. Chỉ có match hoặc không. (biểu thức regex)

flag[optional]=Chỉ cho hàm rằng các bác chỉ muốn biết xem là biểu thức regex có match hay không, hoặc trả về các kí tự các bác muốn lấy từ biểu thức regex

flag=0: kiểm tra xem pattern có khớp với string hay không.

MsgBox (0 , "Regex ex 1" , StringRegExp ("text" , 'test'))

Ví dụ trên sẽ trả về 0 vì không tìm thấy test trong text (không match)

MsgBox (0 , "Regex ex" , StringRegExp ("text" , 'ex'))

Ví dụ trên sẽ trả về 1 vì tìm thấy ex trong text (match)

flag=1: trả về (array) nhóm đầu tiên mà pattern đã khớp với string

$ex=StringRegExp ("text and test" , 'te(.)t' , 1)