kèo bóng đá cúp c2 được sử dụng để loại bỏ các từ không nên xem xét trong tìm kiếm (Dừng từ) và đếnbình thườngCác từ sao cho các dạng dẫn xuất khác nhau của cùng kèo bóng đá cúp c2 từ sẽ khớp. kèo bóng đá cúp c2 từ được chuẩn hóa thành công được gọi làLexeme. Ngoài việc cải thiện chất lượng tìm kiếm, bình thường hóa và loại bỏ các từ dừng, giảm kích thước củatsVector
Đại diện của kèo bóng đá cúp c2 tài liệu, từ đó cải thiện hiệu suất. Bình thường hóa không phải lúc nào cũng có ý nghĩa ngôn ngữ và thường phụ thuộc vào ngữ nghĩa ứng dụng.
kèo bóng đá cúp c2 số ví dụ về chuẩn hóa:
Ti ngôn ngữ - từ kèo bóng đá cúp c2 ISPELL cố gắng giảm các từ đầu vào xuống dạng chuẩn hóa; từ kèo bóng đá cúp c2 thân cây loại bỏ kết thúc từ
urlVị trí có thể được Canonical hóa để làm cho các URL tương đương phù hợp:
http: //www.pgsql.ru/db/mw/index.html
http: //www.pgsql.ru/db/mw/
http: //www.pgsql.ru/db/../db/mw/index.html
tên màu có thể được thay thế bằng các giá trị thập lục phân của chúng, ví dụ:Đỏ, xanh lá cây, xanh dương, Magenta - FF0000, 00FF00, 0000FF, FF00FF
Nếu số lượng lập chỉ mục, chúng ta có thể xóa kèo bóng đá cúp c2 số chữ số phân số để giảm phạm vi số có thể, vì vậy ví dụ3.14159265359,3.1415926,3.14sẽ giống nhau sau khi bình thường hóa nếu chỉ có hai chữ số được giữ sau điểm thập phân.
từ vựng là kèo bóng đá cúp c2 chương trình chấp nhận từ vựng | làm đầu vào và trả về:
Một mảng từ vựng nếu mã thông báo đầu vào được biết đến với kèo bóng đá cúp c2 (lưu ý rằng một mã thông báo có thể tạo ra nhiều hơn một từ vựng)
kèo bóng đá cúp c2 từ vựng duy nhất vớiTSL_Filter
13392_13533Bộ lọc kèo bóng đá cúp c2)
Một mảng trống nếu kèo bóng đá cúp c2 biết từ vựng |, nhưng đó là một từ dừng
null
Nếu kèo bóng đá cúp c2 không nhận ra từ vựng | đầu vào
POSTGRESQLcung cấp kèo bóng đá cúp c2 được xác định trước cho nhiều ngôn ngữ. Ngoài ra còn có một số mẫu được xác định trước có thể được sử dụng để tạo kèo bóng đá cúp c2 mới với các tham số tùy chỉnh.PREDT/
Vùng củaPostgreSQLPhân phối cho các ví dụ.
Cấu hình tìm kiếm văn bản liên kết một trình phân tích cú pháp cùng với một bộ kèo bóng đá cúp c2 để xử lý mã thông báo đầu ra của trình phân tích cú pháp. Đối với mỗi loại mã thông báo mà trình phân tích cú pháp có thể trả về, một danh sách kèo bóng đá cúp c2 riêng biệt được chỉ định bởi cấu hình.null
Đầu ra xác định kết quả và bất kỳ kèo bóng đá cúp c2 còn lại nào không được tư vấn; Nhưng một kèo bóng đá cúp c2 lọc có thể thay thế từ đã cho bằng một từ đã được sửa đổi, sau đó được truyền đến các kèo bóng đá cúp c2 tiếp theo.
Quy tắc chung để định cấu hình danh sách kèo bóng đá cúp c2 là đặt đầu tiên là kèo bóng đá cúp c2 hẹp nhất, cụ thể nhất, sau đó là kèo bóng đá cúp c2 chung hơn, kết thúc với một kèo bóng đá cúp c2 rất chung, nhưSnowballStemmer hoặcđơn giản
, nhận ra mọi thứ. Ví dụ: cho kèo bóng đá cúp c2 tìm kiếm dành riêng cho thiên văn học (Astro_en
Cấu hình) Người ta có thể liên kết loại từ kèo bóng đá cúp c2 |asciiword
(ASCII Word) đến một kèo bóng đá cúp c2 đồng nghĩa với thuật ngữ thiên văn, kèo bóng đá cúp c2 tiếng Anh chung và ASnowballEnglish Stemmer:
Thay đổi cấu hình tìm kiếm văn bản astro_en
Một kèo bóng đá cúp c2 lọc có thể được đặt ở bất cứ đâu trong danh sách, ngoại trừ ở cuối nơi nó sẽ vô dụng. Lọc kèo bóng đá cúp c2 rất hữu ích để bình thường hóa một phần các từ để đơn giản hóa nhiệm vụ của các kèo bóng đá cúp c2 sau này.UnaccentMô -đun.
Dừng từ là những từ rất phổ biến, xuất hiện trong hầu hết mọi tài liệu và không có giá trị phân biệt đối xử. Do đó, chúng có thể bị bỏ qua trong bối cảnh tìm kiếm toàn văn.A
vàThe
, vì vậy việc lưu trữ chúng là vô ích. Tuy nhiên, các từ dừng lại ảnh hưởng đến các vị trí trongTSVECTOR
, từ đó ảnh hưởng đến xếp hạng:
chọn to_tsvector ('tiếng Anh', 'trong danh sách các từ dừng');
Vị trí bị thiếu 1,2,4 là do các từ dừng. Xếp hạng được tính toán cho các tài liệu có và không có từ dừng hoàn toàn khác:
17559_17835
Tùy thuộc vào kèo bóng đá cúp c2 cụ thể về cách nó đối xử với các từ dừng. Ví dụ,ISPELL
từ kèo bóng đá cúp c2 đầu tiên bình thường hóa các từ và sau đó nhìn vào danh sách các từ dừng, trong khiSnowball
Đầu tiên kiểm tra danh sách các từ dừng. Lý do cho các hành vi khác nhau là kèo bóng đá cúp c2 nỗ lực để giảm tiếng ồn.
Theđơn giản
Mẫu kèo bóng đá cúp c2 hoạt động bằng cách chuyển đổi từ vựng | đầu vào sang chữ thường và kiểm tra nó với một tệp các từ dừng. Nếu nó được tìm thấy trong tệp thì một mảng trống sẽ được trả về, khiến từ vựng | bị loại bỏ.
Đây là một ví dụ về định nghĩa kèo bóng đá cúp c2 bằng cách sử dụngđơn giản
Mẫu:
Tạo kèo bóng đá cúp c2 tìm kiếm văn bản công khai.simple_dict (
ở đây,tiếng Anh
là tên cơ sở của kèo bóng đá cúp c2 tập tin của các từ dừng. Tên đầy đủ của tệp sẽ là$ sharedir/tsearch_data/English.stop
, trong đó$ sharedir
có nghĩa làPostgreSQLThư mục dữ liệu chia sẻ của cài đặt, thường là/USR/Local/Share/PostgreSQL
(Sử dụngpg_config --Sharedir
Để xác định nó nếu bạn không chắc chắn). Định dạng tệp chỉ đơn giản là kèo bóng đá cúp c2 danh sách các từ, kèo bóng đá cúp c2 từ trên mỗi dòng.
Bây giờ chúng ta có thể kiểm tra kèo bóng đá cúp c2 của chúng ta:
chọn TS_LEXIZE ('public.simple_dict', 'có');
Chúng ta cũng có thể chọn trả lạinull
, thay vì từ có chữ thấp hơn, nếu nó không được tìm thấy trong tệp từ dừng. Hành vi này được chọn bằng cách đặt kèo bóng đá cúp c2Chấp nhận
tham số đếnSai
. Tiếp tục ví dụ:
thay đổi kèo bóng đá cúp c2 tìm kiếm văn bản công khai.simple_dict (Accept = false);
Với cài đặt mặc định củaChấp nhận
=True
, Chỉ hữu ích khi đặt Ađơn giản
từ vựng ở cuối danh sách các kèo bóng đá cúp c2, vì nó sẽ không bao giờ chuyển bất kỳ từ vựng | nào cho một kèo bóng đá cúp c2 sau. Ngược lại,Chấp nhận
=Sai
chỉ hữu ích khi có ít nhất một kèo bóng đá cúp c2 sau.
Hầu hết các loại kèo bóng đá cúp c2 đều dựa vào các tệp cấu hình, chẳng hạn như các tệp của các từ dừng. Những tệp nàyphảiđược lưu trữ trong mã hóa UTF-8. Chúng sẽ được dịch sang mã hóa cơ sở dữ liệu thực tế, nếu điều đó khác, khi chúng được đọc vào máy chủ.
Thông thường, một phiên cơ sở dữ liệu sẽ chỉ đọc một tệp cấu hình kèo bóng đá cúp c2 chỉ một lần, khi nó được sử dụng lần đầu tiên trong phiên. Nếu bạn sửa đổi tệp cấu hình và muốn buộc các phiên hiện có để chọn nội dung mới, hãy phát hành mộtThay đổi kèo bóng đá cúp c2 tìm kiếm văn bản
Lệnh trên kèo bóng đá cúp c2. Đây có thể là mộtgiảHồiCập nhật không thực sự thay đổi bất kỳ giá trị tham số nào.
Mẫu kèo bóng đá cúp c2 này được sử dụng để tạo kèo bóng đá cúp c2 thay thế một từ bằng một từ đồng nghĩa. Các cụm từ không được hỗ trợ (sử dụng mẫu Thesaurus (Phần 12.6.4) cho điều đó). Một kèo bóng đá cúp c2 đồng nghĩa có thể được sử dụng để khắc phục các vấn đề ngôn ngữ, ví dụ, để ngăn chặn một kèo bóng đá cúp c2 gốc tiếng Anh giảm từMạnhParisHồiđếnHồipariKhăn. Nó đủ để có kèo bóng đá cúp c2Paris Paris
dòng trong từ kèo bóng đá cúp c2 đồng nghĩa và đặt nó trướctừ kèo bóng đá cúp c2. Ví dụ:
Chọn * từ ts_debug ('tiếng Anh', 'paris');
Tham số duy nhất theo yêu cầu củaTừ đồng nghĩa
Mẫu làTừ đồng nghĩa
, là tên cơ sở của tệp cấu hình của nó -my_synonymouss
Trong ví dụ trên. Tên đầy đủ của tệp sẽ là$ sharedir/tsearch_data/my_syn từ.syn
(trong đó$ sharedir
có nghĩa làPOSTGRESQLThư mục dữ liệu chia sẻ của cài đặt). Định dạng tệp chỉ là kèo bóng đá cúp c2 dòng cho mỗi từ được thay thế, với từ theo sau là từ đồng nghĩa của nó, được phân tách bằng không gian trắng.
TheTừ đồng nghĩa
Mẫu cũng có tham số tùy chọncaseSensitive
, mặc định làSai
. KhiCaseSensitive
làSai
, Các từ trong tệp đồng nghĩa được gấp lại thành chữ thường, như là từ kèo bóng đá cúp c2 | đầu vào. Khi nó làTRUE
, Các từ và từ kèo bóng đá cúp c2 | không được gấp lại thành chữ thường, nhưng được so sánh AS-IS.
A Asterisk (*
) có thể được đặt ở cuối kèo bóng đá cúp c2 từ đồng nghĩa trong tệp cấu hình. Điều này chỉ ra rằng từ đồng nghĩa là tiền tố.to_tsVector ()
, nhưng khi nó được sử dụng trongto_tsquery ()
, Kết quả sẽ là mục truy vấn với điểm đánh dấu khớp tiền tố (xemPhần 12.3.2). Ví dụ: giả sử chúng ta có các mục này trong$ sharedir/tsearch_data/từ đồng nghĩa_sample.syn
:
Postgres PGSQL
Sau đó chúng ta sẽ nhận được các kết quả sau:
25914_26673
Một kèo bóng đá cúp c2 kèo bóng đá cúp c2 (đôi khi viết tắt làTZ) là kèo bóng đá cúp c2 tập hợp các từ bao gồm thông tin về các mối quan hệ của các từ và cụm từ, tức là, các thuật ngữ rộng hơn (bt), Các thuật ngữ hẹp hơn (nt), Điều khoản ưa thích, Điều khoản không được ưu tiên, Điều khoản liên quan, v.v.
Về cơ bản, kèo bóng đá cúp c2 kèo bóng đá cúp c2 thay thế tất cả các thuật ngữ không được ưu tiên theo một thuật ngữ ưa thích và, tùy chọn, bảo tồn các thuật ngữ gốc để lập chỉ mục.PostgreSQLThực hiện hiện tại của kèo bóng đá cúp c2 kèo bóng đá cúp c2 là một phần mở rộng của kèo bóng đá cúp c2 đồng nghĩa với được thêmcụm từHỗ trợ. Một kèo bóng đá cúp c2 kèo bóng đá cúp c2 yêu cầu một tệp cấu hình của định dạng sau:
# Đây là kèo bóng đá cúp c2 bình luận
trong đó đại tràng (:
) Biểu tượng hoạt động như kèo bóng đá cúp c2 dấu phân cách giữa kèo bóng đá cúp c2 cụm từ và sự thay thế của nó.
Một kèo bóng đá cúp c2 kèo bóng đá cúp c2 sử dụng ASubdictionary(được chỉ định trong cấu hình của kèo bóng đá cúp c2) để bình thường hóa văn bản đầu vào trước khi kiểm tra các kết quả phù hợp cụm từ. Chỉ có thể chọn một bộ phụ.*
28482_28585phảiĐược biết đến Subdiced.
28669_28821
Các từ dừng cụ thể được nhận ra bởi Subdicedary không thể được chỉ định; Thay vào đó sử dụng?
Để đánh dấu vị trí có bất kỳ từ dừng nào cũng có thể xuất hiện. Ví dụ: giả sử rằngA
vàThe
là các từ dừng theo phân nhóm:
? kèo bóng đá cúp c2 ?
khớpA One the Two
vàThe A hai
; Cả hai sẽ được thay thế bằngSWSW
.
Vì một kèo bóng đá cúp c2 kèo bóng đá cúp c2 có khả năng nhận biết các cụm từ, nó phải nhớ trạng thái của nó và tương tác với trình phân tích cú pháp. Một kèo bóng đá cúp c2 kèo bóng đá cúp c2 sử dụng các bài tập này để kiểm tra xem nó có nên xử lý từ tiếp theo hay dừng tích lũy không.asciiword
Mã thông báo, sau đó là một định nghĩa kèo bóng đá cúp c2 kèo bóng đá cúp c2 nhưkèo bóng đá cúp c2 7
Sẽ không hoạt động vì loại từ kèo bóng đá cúp c2 |UINT
không được gán cho kèo bóng đá cúp c2 kèo bóng đá cúp c2 đồng nghĩa.
Thesaurus được sử dụng trong quá trình lập chỉ mục để bất kỳ thay đổi nào trong các tham số của kèo bóng đá cúp c2 kèo bóng đá cúp c2Yêu cầuReindexing. Đối với hầu hết các loại kèo bóng đá cúp c2 khác, các thay đổi nhỏ như thêm hoặc xóa các nút dừng không buộc phải tái lập.
Để xác định kèo bóng đá cúp c2 kèo bóng đá cúp c2 mới, sử dụngThesaurus
Mẫu. Ví dụ:
Tạo kèo bóng đá cúp c2 tìm kiếm văn bản thesaurus_simple (
ở đây:
thesaurus_simple
là tên kèo bóng đá cúp c2 mới
Mythesaurus
là tên cơ sở của tệp cấu hình thesaurus. (Tên đầy đủ của nó sẽ là$ sharedir/tsearch_data/hingthesaurus.ths
, trong đó$ sharedir
có nghĩa là thư mục dữ liệu chia sẻ cài đặt.)
pg_catalog.english_stem
là sự phụ thuộc (ở đây, một bản gốc tiếng Anh Snowball) để sử dụng cho bình thường hóa kèo bóng đá cúp c2 đồng nghĩa. Lưu ý rằng Subdipedy sẽ có cấu hình riêng (ví dụ: các từ dừng), không được hiển thị ở đây.
Bây giờ có thể liên kết kèo bóng đá cúp c2 kèo bóng đá cúp c2thesaurus_simple
Đối với các loại từ vựng | mong muốn trong kèo bóng đá cúp c2 cấu hình, ví dụ:
Thay đổi cấu hình tìm kiếm văn bản Nga
Hãy xem xét một kèo bóng đá cúp c2 thiên văn đơn giảnthesaurus_astro
, chứa kèo bóng đá cúp c2 số kết hợp từ thiên văn:
Supernovae Stars: SN
32894_33000
Tạo kèo bóng đá cúp c2 tìm kiếm văn bản kèo bóng đá cúp c2 thesaurus_astro (
Bây giờ chúng ta có thể thấy cách thức hoạt động.ts_lexize
không hữu ích cho việc kiểm tra một kèo bóng đá cúp c2 đồng nghĩa, vì nó coi đầu vào của nó là một từ vựng | duy nhất. Thay vào đó chúng ta có thể sử dụngPlainto_tsquery
vàTO_TSVECTOR
sẽ chia các chuỗi đầu vào của chúng thành nhiều từ kèo bóng đá cúp c2 |:
Chọn PlainTo_TSQuery ('Supernova Star');
Về nguyên tắc, người ta có thể sử dụngTO_TSQUERY
Nếu bạn trích dẫn đối số:
chọn to_tsquery ('' 'Supernova Star' '');
Thông báo rằngSupernova Star
khớpSupernovae Stars
inthesaurus_astro
Vì chúng tôi đã chỉ địnhSTEMMER trong định nghĩa kèo bóng đá cúp c2 đồng nghĩa. Thân máy đã loại bỏ
E
vàS
.
Để lập chỉ mục cụm từ gốc cũng như thay thế, chỉ bao gồm nó trong phần bên phải của định nghĩa:
Supernovae Stars: SN Supernovae Stars
TheISPELLMẫu kèo bóng đá cúp c2 hỗ trợtừ kèo bóng đá cúp c2 hình thái, có thể bình thường hóa nhiều hình thức ngôn ngữ khác nhau của kèo bóng đá cúp c2 từ vào cùng kèo bóng đá cúp c2 từ vựng. Ví dụ: kèo bóng đá cúp c2 tiếng AnhISPELLtừ kèo bóng đá cúp c2 có thể phù hợp với tất cả các khoản thanh toán và liên hợp của thuật ngữ tìm kiếmBank
, ví dụ:Ngân hàng
, Ngăn xác
, Ngân hàng
, Ngân hàng '
vàNgân hàng
.
tiêu chuẩnPOSTGRESQLPhân phối không bao gồm bất kỳ nàoISPELLTệp cấu hình. từ vựng cho kèo bóng đá cúp c2 số lượng lớn ngôn ngữ có sẵn từISPELL. Ngoài ra, một số định dạng tệp kèo bóng đá cúp c2 hiện đại hơn được hỗ trợ -MySpell(oo <2.0.1) vàHunspell(oo = 2.0.2). Một danh sách lớn các kèo bóng đá cúp c2 có sẵn trênWiki OpenOffice.
để tạo kèo bóng đá cúp c2ISPELLtừ kèo bóng đá cúp c2 thực hiện các bước sau:
Tải xuống các tệp cấu hình kèo bóng đá cúp c2.OpenOfficeTệp mở rộng có.OXT
Phần mở rộng. Nó là cần thiết để trích xuất.AFF
và.dic
Tệp, thay đổi tiện ích mở rộng thành.AFFIX
và.dict
. Đối với một số tệp kèo bóng đá cúp c2, cũng cần phải chuyển đổi các ký tự thành mã hóa UTF-8 với các lệnh (ví dụ: cho kèo bóng đá cúp c2 ngôn ngữ Na Uy):
ICONV -F ISO_8859-1 -T UTF -8 -O NN_NO.AFFIX NN_NO.AFF
Sao chép tệp vào$ sharedir/tsearch_data
Thư mục
Tải tệp vào PostgreSQL với lệnh sau:
Tạo kèo bóng đá cúp c2 tìm kiếm văn bản English_hunspell (
ở đây,dictfile
, Afffile
vàstopwords
Chỉ định tên cơ sở của các tệp kèo bóng đá cúp c2, phụ đề và các tệp dừng. Tệp điểm dừng có cùng định dạng được giải thích ở trên chođơn giản
Loại kèo bóng đá cúp c2. Định dạng của các tệp khác không được chỉ định ở đây nhưng có sẵn từ các trang web đã đề cập ở trên.
từ vựng ISPELL thường nhận ra một bộ từ giới hạn, vì vậy chúng nên được theo sau bởi một kèo bóng đá cúp c2 rộng hơn khác; Ví dụ, một kèo bóng đá cúp c2 bóng tuyết, nhận ra mọi thứ.
The.AFFIX
Tệp củaISPELLCó cấu trúc sau:
Tiền tố
và.dict
Tệp có cấu trúc sau:
Lapse/ADGRS
Định dạng của.dict
Tệp là:
basic_form/bệp
trong.AFFIX
Tệp Mỗi cờ phụ được mô tả ở định dạng sau:
Điều kiện [-Stripping_letters,] Thêm_affix
Ở đây, điều kiện có định dạng tương tự như định dạng của các biểu thức chính quy. Nó có thể sử dụng các nhóm[...]
và[^...]
. Ví dụ,[AEIOU] y
có nghĩa là chữ cái cuối cùng của từ là"Y"
Và thư áp chót là"A"
, "E"
, "I"
, "O"
hoặc"U"
. [^EY]
có nghĩa là chữ cái cuối cùng không"E"
cũng không"Y"
.
kèo bóng đá cúp c2 ISPELL hỗ trợ phân tách các từ ghép; một tính năng hữu ích.Từ hợp chất được kiểm soát
Tuyên bố đánh dấu các từ kèo bóng đá cúp c2 có thể tham gia vào sự hình thành hợp chất:
từ hợp chất được kiểm soát z
Đây là kèo bóng đá cúp c2 số ví dụ cho ngôn ngữ Na Uy:
40658_40886
MySpellĐịnh dạng là kèo bóng đá cúp c2 tập hợp con củaHunspell. The.affix
Tệp củaHunspellCó cấu trúc sau:
PFX A Y 1
Dòng đầu tiên của lớp phụ là tiêu đề. Các trường của kèo bóng đá cúp c2 quy tắc phụ được liệt kê sau tiêu đề:
Tên tham số (PFX hoặc SFX)
cờ (tên của lớp phụ)
Dải các ký tự từ đầu (tại tiền tố) hoặc kết thúc (tại hậu tố) của từ
Thêm phụ
Điều kiện có định dạng tương tự như định dạng của các biểu thức chính quy.
The.dict
Tệp trông giống như.dict
Tệp củaISPELL:
Larder/m
MySpellKhông hỗ trợ các từ ghép.Hunspellcó hỗ trợ tinh vi cho các từ ghép. Hiện tại,PostgreSQLChỉ thực hiện các hoạt động từ hợp chất cơ bản của Hunspell.
TheSnowballMẫu kèo bóng đá cúp c2 dựa trên một dự án của Martin Porter, người phát minh ra thuật toán gốc của Porter phổ biến cho ngôn ngữ tiếng Anh. Snowball hiện cung cấp các thuật toán thân cây cho nhiều ngôn ngữ (xemTrang web bóng tuyếtĐể biết thêm thông tin). Mỗi thuật toán hiểu cách giảm các dạng từ biến thể phổ biến thành kèo bóng đá cúp c2 cơ sở, hoặc gốc, đánh vần trong ngôn ngữ của nó.Ngôn ngữ
Tham số để xác định sử dụng thân cây nào và tùy chọn có thể chỉ định Astopword
Tên tệp đưa ra danh sách các từ để loại bỏ. (PostgreSQL43952_44082
Tạo kèo bóng đá cúp c2 tìm kiếm văn bản (
Định dạng tệp stopword giống như đã giải thích.
ASnowballtừ vựng nhận ra mọi thứ, cho dù nó có thể đơn giản hóa từ này hay không, vì vậy nó nên được đặt ở cuối danh sách kèo bóng đá cúp c2. Thật vô ích khi có nó trước bất kỳ kèo bóng đá cúp c2 nào khác vì một từ vựng | sẽ không bao giờ chuyển qua nó đến kèo bóng đá cúp c2 tiếp theo.
Nếu bạn thấy bất cứ điều gì trong tài liệu không chính xác, không phù hợpMẫu nàyĐể báo cáo vấn đề tài liệu.