Unaccent
là một từ điển tìm kiếm văn bản loại bỏ kèo bóng đá pháp điểm nhấn (dấu hiệu diarritic) khỏi từ vựng. Đó là một từ điển lọc, có nghĩa là đầu ra của nó luôn được chuyển sang từ điển tiếp theo (nếu có), không giống như hành vi thông thường của từ điển. Điều này cho phép xử lý không nhạy cảm với điểm nhấn để tìm kiếm toàn văn.
Việc triển khai hiện tại củaUnaccent
Không thể được sử dụng làm từ điển bình thường hóa choThesaurus
Từ điển.
ANUnccent
Từ điển chấp nhận kèo bóng đá pháp tùy chọn sau:
Quy tắc
là tên cơ sở của tệp chứa danh sách kèo bóng đá pháp quy tắc dịch. Tệp này phải được lưu trữ trong$ sharedir/tsearch_data/
(trong đó$ sharedir
có nghĩa làPostgreSQLThư mục dữ liệu chung của cài đặt). Tên của nó phải kết thúc trong.rules
(không được bao gồm trongQuy tắc
tham số).
Tệp quy tắc có định dạng sau:
11189_11365
à a Á a  a à a Ä a A Æ ae
Hai ký tự phải được phân tách bằng khoảng trắng và bất kỳ khoảng trắng dẫn đầu hoặc dấu vết nào trên kèo bóng đá pháp dòng đều bị bỏ qua.
Ngoài ra, nếu chỉ có một ký tự được đưa ra trên một dòng, kèo bóng đá pháp phiên bản của ký tự đó sẽ bị xóa; Điều này hữu ích trong kèo bóng đá pháp ngôn ngữ nơi kèo bóng đá pháp điểm nhấn được biểu diễn bằng kèo bóng đá pháp ký tự riêng biệt.
Trên thực tế, mỗiNhân vậtHồiCó thể là bất kỳ chuỗi nào không chứa khoảng trắng, vì vậyUnaccent
Từ điển có thể được sử dụng cho kèo bóng đá pháp loại thay thế phụ khác bên cạnh việc loại bỏ diacritic.
như với người khácPostgreSQLTệp cấu hình tìm kiếm văn bản, tệp quy tắc phải được lưu trữ trong mã hóa UTF-8. Dữ liệu được tự động dịch vào mã hóa cơ sở dữ liệu hiện tại khi được tải. Bất kỳ dòng nào chứa kèo bóng đá pháp ký tự không thể dịch được đều bị bỏ qua, để kèo bóng đá pháp tệp quy tắc có thể chứa kèo bóng đá pháp quy tắc không áp dụng trong mã hóa hiện tại.
Một ví dụ đầy đủ hơn, có thể tìm thấy trực tiếp kèo bóng đá pháp ngôn ngữ châu Âu, có thể được tìm thấy trongunaccent.rules
, được cài đặt trong$ sharedir/tsearch_data/
KhiUnaccent
Mô -đun được cài đặt. Tệp quy tắc này dịch kèo bóng đá pháp ký tự có điểm nhấn thành cùng một ký tự mà không có điểm nhấn và nó cũng mở rộng dây chằng thành chuỗi kèo bóng đá pháp ký tự đơn giản tương đương (ví dụ: æ sang AE).
Cài đặtUnccent
tiện ích mở rộng tạo mẫu tìm kiếm văn kèo bóng đá phápUnaccent
và từ điểnUnaccent
Dựa trên nó. TheUnaccent
13604_13652quy tắc = 'Unaccent'
, làm cho nó có thể sử dụng ngay với tiêu chuẩnunaccent.rules
Tệp. Nếu bạn muốn, bạn có thể thay đổi tham số, ví dụ
MyDB =# thay đổi từ điển tìm kiếm văn kèo bóng đá pháp Unaccent (quy tắc = 'my_rules');
hoặc tạo từ điển mới dựa trên mẫu.
Để kiểm tra từ điển, bạn có thể thử:
MyDB =# Chọn TS_LEXIZE ('Unaccent', 'Hôtel'); ts_lexize ----------- Khách sạn
Đây là kèo bóng đá pháp ví dụ cho thấy cách chènUnaccent
Từ điển thành cấu hình tìm kiếm văn kèo bóng đá pháp:
14369_14955
TheUnaccent ()
Hàm loại bỏ kèo bóng đá pháp điểm nhấn (dấu hiệu dấu hiệu) khỏi một chuỗi đã cho. Về cơ bản, đó là một trình bao bọc xung quanhUnaccent
-type từ điển, nhưng nó có thể được sử dụng bên ngoài ngữ cảnh tìm kiếm văn kèo bóng đá pháp thông thường.
Unaccent ([Từ điển
Regdictionary
, ]chuỗi
Text
) trả vềText
NếuTừ điển
Đối số bị bỏ qua, Từ điển tìm kiếm văn kèo bóng đá pháp có tênUnaccent
và xuất hiện trong cùng lược đồ vớiunaccent ()
16027_16054
Ví dụ:
chọn Unaccent ('Unaccent', 'Hôtel'); Chọn Unaccent ('Hôtel');