trình cách đọc kèo bóng đá tìm kiếm văn bản chịu trách nhiệm chia văn bản tài liệu thô thànhmã thông báovà xác định từng loại mã thông báo, trong đó tập hợp các loại có thể được xác định bởi chính trình cách đọc kèo bóng đá. Lưu ý rằng trình cách đọc kèo bóng đá hoàn toàn không sửa đổi văn bản - nó chỉ đơn giản xác định các ranh giới từ hợp lý. Do phạm vi hạn chế này, ít cần cách đọc kèo bóng đá tùy chỉnh dành riêng cho ứng dụng hơn là có từ điển tùy chỉnh. Hiện tạiPostgreSQLChỉ cung cấp một trình cách đọc kèo bóng đá tích hợp, được tìm thấy là hữu ích cho một loạt các ứng dụng.
Trình cách đọc kèo bóng đá tích hợp được đặt tênpg_catalog.default
. Nó nhận ra 23 loại mã thông báo, được hiển thị trongBảng 12.1.
Bảng 12.1. Các loại mã thông báo của trình cách đọc kèo bóng đá mặc định
bí danh | Mô tả | Ví dụ |
---|---|---|
asciiword |
Word, tất cả các chữ cái ASCII | Voi |
Word |
Word, tất cả các chữ cái | Mañana |
NUMWORD |
Word, chữ cái và chữ số | beta1 |
asciihword |
Từ Hyphenated, tất cả ASCII | cập nhật |
HWORD |
Từ được viết, tất cả các chữ cái | LÓGICO-MATEMATICA |
numHword |
Từ, chữ cái và chữ số | Postgresql-beta1 |
HWORD_ASCIIPART |
Phần từ được cách đọc kèo bóng đá, tất cả ASCII | PostgreSQL Trong bối cảnhPostgresql-beta1 |
HWORD_PART |
phần từ được cách đọc kèo bóng đá, tất cả các chữ cái | Lógico hoặcMatemática Trong ngữ cảnhLógico-Matemáca |
HWORD_NUMPART |
Phần, chữ cái và chữ số | beta1 Trong bối cảnhPostgresql-beta1 |
Email |
Địa chỉ email | foo@example.com |
Giao thức |
Đầu giao thức | http: // |
url |
url | example.com/stuff/index.html |
host |
host | Ví dụ.com |
url_path |
đường dẫn url | /stuff/index.html , trong bối cảnh của URL |
FILE |
Tệp hoặc tên đường dẫn | /usr/local/foo.txt , nếu không trong URL |
SFloat |
Ký hiệu khoa học | -1.234e56 |
float |
ký hiệu thập cách đọc kèo bóng đá | -1.234 |
int |
Số nguyên đã ký | -1234 |
UINT |
Số nguyên không dấu | 1234 |
phiên bản |
số phiên bản | 8.3.0 |
TAG |
TAG XML | <a href = "từ điển.html" |
thực thể |
thực thể XML | & amp; |
trống |
Biểu tượng không gian | (bất kỳ khoảng trắng hoặc dấu câu không được nhận dạng khác) |
Khái niệm của trình cách đọc kèo bóng đáHồiThưđược xác định bởi cài đặt ngôn ngữ của cơ sở dữ liệu, cụ thểlc_ctype
. Các từ chỉ chứa các chữ cái ASCII cơ bản được báo cáo là một loại mã thông báo riêng biệt, vì đôi khi nó rất hữu ích để cách đọc kèo bóng đá biệt chúng. Trong hầu hết các ngôn ngữ châu Âu, các loại mã thông báoWord
vàasciiword
nên được đối xử giống nhau.
Email
Không hỗ trợ tất cả các ký tự email hợp lệ như được định nghĩa bởiRFC 5322. Cụ thể, các ký tự không phải là vô cảm duy nhất được hỗ trợ cho tên người dùng email là khoảng thời gian, dấu gạch ngang và dấu gạch dưới.
TAG
Không hỗ trợ tất cả các tên thẻ hợp lệ như được xác định bởiKhuyến nghị W3C, XML. Cụ thể, các tên thẻ duy nhất được hỗ trợ là những tên bắt đầu bằng chữ ASCII, dấu gạch dưới hoặc đại tràng, và chỉ chứa các chữ cái, chữ số, dấu gạch nối, gạch dưới, thời kỳ và đại phần.TAG
Cũng bao gồm các nhận xét XML bắt đầu bằng<!-
và kết thúc bằng-
và XML khai báo (nhưng lưu ý rằng điều này bao gồm bất cứ điều gì bắt đầu bằng<? X
và kết thúc bằng).
Trình cách đọc kèo bóng đá có thể tạo ra các mã thông báo chồng chéo từ cùng một đoạn văn bản. Ví dụ, một từ được gạch nối sẽ được báo cáo cả dưới dạng toàn bộ từ và như mỗi thành phần:
chọn bí danh, mô tả, mã thông báo từ ts_debug ('foo-Bar-beta1'); Bí danh | Mô tả | mã thông báo -----------------+------------------------------------------+------------------- numHword | Từ ngữ, chữ cái và chữ số | Foo-Bar-beta1 HWORD_ASCIIPART | Phần từ dấu gạch nối, tất cả ASCII | foo trống | Biểu tượng không gian | - HWORD_ASCIIPART | Phần từ dấu gạch nối, tất cả ASCII | thanh trống | Biểu tượng không gian | - HWORD_NUMPART | Bầu, chữ dấu gạch nối, chữ cái và chữ số | beta1
Hành vi này là mong muốn vì nó cho phép các tìm kiếm hoạt động cho cả toàn bộ từ ghép và cho các thành phần. Đây là một ví dụ về hướng dẫn khác:
chọn bí danh, mô tả, mã thông báo từ ts_debug ('http://example.com/stuff/index.html'); Bí danh | Mô tả | mã thông báo ----------+---------------+-------------------------------------- Giao thức | Đầu giao thức | http: // URL | URL | Ví dụ.com/stuff/index.html Máy chủ | Máy chủ | Ví dụ.com url_path | Đường dẫn URL | /stuff/index.html
Nếu bạn thấy bất cứ điều gì trong tài liệu không chính xác, không khớp Kinh nghiệm của bạn với tính năng cụ thể hoặc yêu cầu làm rõ thêm, Vui lòng sử dụngMẫu nàyĐể báo cáo vấn đề tài liệu.