soi kèo bóng đá truoctran tìm kiếm văn bản chịu trách nhiệm chia văn bản tài liệu thô thànhmã thông báovà xác định từng loại mã thông báo, trong đó tập hợp các loại có thể được xác định bởi chính soi kèo bóng đá truoctran. Lưu ý rằng soi kèo bóng đá truoctran hoàn toàn không sửa đổi văn bản - nó chỉ đơn giản xác định các ranh giới từ hợp lý.PostgreSQLChỉ cung cấp một soi kèo bóng đá truoctran tích hợp, được tìm thấy là hữu ích cho một loạt các ứng dụng.
soi kèo bóng đá truoctran tích hợp được đặt tênpg_catalog.default
. Nó nhận ra 23 loại mã thông báo, được hiển thị trongBảng 12.1.
Bảng 12.1. Các loại mã thông báo của soi kèo bóng đá truoctran mặc định
bí danh | Mô tả | Ví dụ |
---|---|---|
asciiword |
Word, tất cả các chữ cái ASCII | Voi |
Word |
Word, tất cả các chữ cái | Mañana |
numword |
Word, chữ cái và chữ số | beta1 |
asciihword |
Từ chữ báo, tất cả ASCII | cập nhật |
HWORD |
Từ chữ dấu, tất cả các chữ cái | Lógico-matemáca |
Từ ngữ, chữ cái và chữ số | |
Từ, chữ cái và chữ số | Postgresql-beta1 |
HWORD_ASCIIPART |
phần từ được soi kèo bóng đá truoctran, tất cả ASCII | PostgreSQL Trong bối cảnhPostgresql-beta1 |
HWORD_PART |
Phần từ được viết, tất cả các chữ cái | Lógico hoặcMatemática Trong bối cảnhLógico-matemática |
HWORD_NUMPART |
Phần, chữ cái và chữ số | beta1 Trong bối cảnhPostgresql-beta1 |
Email |
Địa chỉ email | foo@example.com |
Giao thức |
Đầu giao thức | http: // |
url |
url | example.com/stuff/index.html |
máy chủ |
máy chủ | Ví dụ.com |
url_path |
đường dẫn url | /stuff/index.html , trong bối cảnh của URL |
FILE |
Tệp hoặc tên đường dẫn | /usr/local/foo.txt , nếu không trong URL |
SFloat |
Ký hiệu khoa học | -1.234e56 |
float |
ký hiệu thập soi kèo bóng đá truoctran | -1.234 |
int |
Số nguyên đã ký | -1234 |
UINT |
Số nguyên không dấu | 1234 |
phiên bản |
số phiên bản | 8.3.0 |
TAG |
TAG XML | <a href = "từ điển.html" |
thực thể |
thực thể XML | & amp; |
Biểu tượng không gian | |
Biểu tượng không gian | (bất kỳ khoảng trắng hoặc dấu câu không được nhận dạng khác) |
Khái niệm của soi kèo bóng đá truoctranThưKhănđược xác định bởi cài đặt ngôn ngữ của cơ sở dữ liệu, cụ thểlc_ctype
. Các từ chỉ chứa các chữ cái ASCII cơ bản được báo cáo là một loại mã thông báo riêng biệt, vì đôi khi nó rất hữu ích để soi kèo bóng đá truoctran biệt chúng.Word
vàasciiword
nên được đối xử giống nhau.
Email
Không hỗ trợ tất cả các ký tự email hợp lệ như được định nghĩa bởiRFC 5322. Cụ thể, các ký tự không phải là vô cảm duy nhất được hỗ trợ cho tên người dùng email là khoảng thời gian, dấu gạch ngang và dấu gạch dưới.
TAG
Không hỗ trợ tất cả các tên thẻ hợp lệ như được xác định bởiKhuyến nghị W3C, XML. Cụ thể, các tên thẻ duy nhất được hỗ trợ là những tên bắt đầu bằng chữ ASCII, dấu gạch dưới hoặc đại tràng, và chỉ chứa các chữ cái, chữ số, dấu gạch nối, gạch dưới, thời kỳ và đại phần.TAG
Cũng bao gồm các nhận xét XML bắt đầu bằng<!-
và kết thúc bằng-
và XML khai báo (nhưng lưu ý rằng điều này bao gồm bất cứ điều gì bắt đầu bằng<? X
và kết thúc bằng).
Có thể soi kèo bóng đá truoctran tạo ra các mã thông báo chồng chéo từ cùng một đoạn văn bản. Ví dụ, một từ được gạch nối sẽ được báo cáo cả dưới dạng toàn bộ từ và như mỗi thành phần:
chọn bí danh, mô tả, mã thông báo từ ts_debug ('foo-Bar-beta1');
Hành vi này là mong muốn vì nó cho phép các tìm kiếm hoạt động cho cả toàn bộ từ ghép và cho các thành phần. Đây là một ví dụ về hướng dẫn khác:
chọn bí danh, mô tả, mã thông báo từ ts_debug ('http://example.com/stuff/index.html');