soi kèo bóng đá truoctran được sử dụng để loại bỏ các từ không nên xem xét trong tìm kiếm (Dừng từ) và đếnbình thườngCác từ sao cho các dạng dẫn xuất khác nhau của cùng soi kèo bóng đá truoctran từ sẽ khớp. soi kèo bóng đá truoctran từ được chuẩn hóa thành công được gọi làLexeme. Ngoài việc cải thiện chất lượng tìm kiếm, bình thường hóa và loại bỏ soi kèo bóng đá truoctran từ dừng, giảm kích thước củatsVector
Đại diện của soi kèo bóng đá truoctran tài liệu, do đó cải thiện hiệu suất. Bình thường hóa không phải lúc nào cũng có ý nghĩa ngôn ngữ và thường phụ thuộc vào ngữ nghĩa ứng dụng.
soi kèo bóng đá truoctran số ví dụ về chuẩn hóa:
Ti ngôn ngữ - soi kèo bóng đá truoctran ISPELL cố gắng giảm các từ đầu vào xuống dạng chuẩn hóa; soi kèo bóng đá truoctran thân cây loại bỏ kết thúc từ
urlVị trí có thể được Canonical hóa để làm cho soi kèo bóng đá truoctran URL tương đương phù hợp:
http: //www.pgsql.ru/db/mw/index.html
http: //www.pgsql.ru/db/mw/
http: //www.pgsql.ru/db/../db/mw/index.html
tên màu có thể được thay thế bằng soi kèo bóng đá truoctran giá trị thập lục phân của chúng, ví dụ:12686_12750
Nếu số lượng lập chỉ mục, chúng ta có thể xóa soi kèo bóng đá truoctran số chữ số phân số để giảm phạm vi số có thể, vì vậy ví dụ3.14159265359,3.1415926,3.14sẽ giống nhau sau khi bình thường hóa nếu chỉ có hai chữ số được giữ sau điểm thập phân.
soi kèo bóng đá truoctran là một chương trình chấp nhận mã thông báo làm đầu vào và trả về:
Một mảng từ vựng nếu mã thông báo đầu vào được biết đến soi kèo bóng đá truoctran (lưu ý rằng một mã thông báo có thể tạo ra nhiều hơn một từ vựng)
soi kèo bóng đá truoctran từ vựng duy nhất vớiTSL_Filter
Bộ cờ, để thay thế mã thông báo gốc bằng một mã thông báo mới sẽ được chuyển cho các soi kèo bóng đá truoctran tiếp theo (một soi kèo bóng đá truoctran không được gọi làBộ lọc soi kèo bóng đá truoctran)
Một mảng trống nếu soi kèo bóng đá truoctran biết mã thông báo, nhưng đó là một từ dừng
null
Nếu soi kèo bóng đá truoctran không nhận ra mã thông báo đầu vào
PostgreSQLcung cấp soi kèo bóng đá truoctran được xác định trước cho nhiều ngôn ngữ. Ngoài ra còn có một số mẫu được xác định trước có thể được sử dụng để tạo soi kèo bóng đá truoctran mới với các tham số tùy chỉnh. Mỗi mẫu soi kèo bóng đá truoctran được xác định trước được mô tả dưới đây. Nếu không có mẫu hiện có phù hợp, có thể tạo ra các mẫu mới; XemPREDT/
khu vực củaPostgreSQLPhân phối cho soi kèo bóng đá truoctran ví dụ.
Cấu hình tìm kiếm văn bản liên kết một trình phân tích cú pháp cùng với một bộ soi kèo bóng đá truoctran để xử lý mã thông báo đầu ra của trình phân tích cú pháp. Đối với mỗi loại mã thông báo mà trình phân tích cú pháp có thể trả về, một danh sách soi kèo bóng đá truoctran riêng biệt được chỉ định bởi cấu hình. Khi một mã thông báo thuộc loại đó được tìm thấy bởi trình phân tích cú pháp, mỗi soi kèo bóng đá truoctran trong danh sách được tư vấn lần lượt, cho đến khi một số soi kèo bóng đá truoctran nhận ra nó là một từ đã biết. Nếu nó được xác định là một từ dừng hoặc nếu không có soi kèo bóng đá truoctran nhận ra mã thông báo, nó sẽ bị loại bỏ và không được lập chỉ mục hoặc tìm kiếm. Thông thường, soi kèo bóng đá truoctran đầu tiên trả về khôngnull
Đầu ra xác định kết quả và bất kỳ soi kèo bóng đá truoctran còn lại nào không được tư vấn; Nhưng một soi kèo bóng đá truoctran lọc có thể thay thế từ đã cho bằng một từ đã được sửa đổi, sau đó được truyền đến các soi kèo bóng đá truoctran tiếp theo.
Quy tắc chung để định cấu hình danh sách soi kèo bóng đá truoctran là đặt đầu tiên là soi kèo bóng đá truoctran hẹp nhất, cụ thể nhất, sau đó các soi kèo bóng đá truoctran chung hơn, kết thúc với một soi kèo bóng đá truoctran rất chungSnowballStemmer hoặcđơn giản
, nhận ra mọi thứ. Ví dụ: cho soi kèo bóng đá truoctran tìm kiếm dành riêng cho thiên văn học (Astro_en
Cấu hình) Người ta có thể liên kết loại mã thông báoasciiword
(ASCII Word) đến một soi kèo bóng đá truoctran đồng nghĩa với thuật ngữ thiên văn, soi kèo bóng đá truoctran tiếng Anh chung và ASnowballEnglish Stemmer:
thay đổi cấu hình tìm kiếm văn bản astro_en Thêm ánh xạ cho asciiword bằng astrosyn, english_ispell, English_stem;
Một soi kèo bóng đá truoctran lọc có thể được đặt ở bất cứ đâu trong danh sách, ngoại trừ ở cuối nơi nó sẽ vô dụng. Lọc soi kèo bóng đá truoctran rất hữu ích để bình thường hóa một phần các từ để đơn giản hóa nhiệm vụ của các soi kèo bóng đá truoctran sau này. Ví dụ: soi kèo bóng đá truoctran lọc có thể được sử dụng để loại bỏ các điểm nhấn khỏi các chữ cái có dấu, như được thực hiện bởiUnaccentMô -đun.
soi kèo bóng đá truoctran từ dừng là những từ rất phổ biến, xuất hiện trong hầu hết mọi tài liệu và không có giá trị phân biệt đối xử. Do đó, chúng có thể bị bỏ qua trong bối cảnh tìm kiếm toàn văn. Ví dụ: mọi văn bản tiếng Anh đều chứa soi kèo bóng đá truoctran từ nhưA
vàThe
, vì vậy việc lưu trữ chúng trong soi kèo bóng đá truoctran chỉ mục là vô ích. Tuy nhiên, các từ dừng lại ảnh hưởng đến các vị trí trongtsVector
, từ đó ảnh hưởng đến xếp hạng:
chọn to_tsvector ('tiếng Anh', 'trong danh sách soi kèo bóng đá truoctran từ dừng'); to_tsVector -------------------------------- 'Danh sách': 3 'Dừng': 5 'Word': 6
Vị trí bị thiếu 1,2,4 là do soi kèo bóng đá truoctran từ dừng. Xếp hạng được tính toán cho soi kèo bóng đá truoctran tài liệu có và không có từ dừng hoàn toàn khác:
17808_18084
Nó tùy thuộc vào soi kèo bóng đá truoctran cụ thể cách nó đối xử với các từ dừng. Ví dụ,ISPELL
soi kèo bóng đá truoctran đầu tiên bình thường hóa các từ và sau đó nhìn vào danh sách các từ dừng, trong khiSnowball
Đầu tiên kiểm tra danh sách các từ dừng. Lý do cho các hành vi khác nhau là soi kèo bóng đá truoctran nỗ lực để giảm tiếng ồn.
Theđơn giản
Mẫu soi kèo bóng đá truoctran hoạt động bằng cách chuyển đổi mã thông báo đầu vào sang chữ thường và kiểm tra nó với một tệp các từ dừng. Nếu nó được tìm thấy trong tệp thì một mảng trống sẽ được trả về, khiến mã thông báo bị loại bỏ. Nếu không, dạng từ có hàm lượng từ thấp hơn được trả về dưới dạng từ vựng được chuẩn hóa. Ngoài ra, soi kèo bóng đá truoctran có thể được cấu hình để báo cáo các từ không ngừng là không được nhận ra, cho phép chúng được chuyển sang soi kèo bóng đá truoctran tiếp theo trong danh sách.
Đây là một ví dụ về định nghĩa soi kèo bóng đá truoctran bằng cách sử dụngđơn giản
Mẫu:
Tạo soi kèo bóng đá truoctran tìm kiếm văn bản công khai.simple_dict ( Mẫu = pg_catalog.simple, Stopwords = tiếng Anh );
ở đây,Tiếng Anh
là tên cơ sở của soi kèo bóng đá truoctran tập tin của các từ dừng. Tên đầy đủ của tệp sẽ là$ Sharedir/Tsearch_data/English.stop
, trong đó$ sharedir
có nghĩa làPostgreSQLThư mục dữ liệu chia sẻ của cài đặt, thường là/usr/local/Share/postgreSQL
(Sử dụngpg_config --Sharedir
Để xác định nó nếu bạn không chắc chắn). Định dạng tệp chỉ đơn giản là soi kèo bóng đá truoctran danh sách các từ, soi kèo bóng đá truoctran từ trên mỗi dòng. Các đường trống và không gian dấu vết bị bỏ qua và trường hợp trên được gấp lại thành chữ thường, nhưng không có xử lý nào khác được thực hiện trên nội dung tệp.
Bây giờ chúng ta có thể kiểm tra soi kèo bóng đá truoctran của mình:
chọn ts_lexize ('public.simple_dict', 'có'); ts_lexize ----------- Đúng Chọn ts_lexize ('public.simple_dict', 'the'); ts_lexize -----------
Chúng ta cũng có thể chọn trả lạinull
, thay vì từ có chữ thấp hơn, nếu nó không được tìm thấy trong tệp từ dừng. Hành vi này được chọn bằng cách đặt soi kèo bóng đá truoctranChấp nhận
tham số đếnSai
. Tiếp tục ví dụ:
thay đổi soi kèo bóng đá truoctran tìm kiếm văn bản công khai.simple_dict (Accept = false); Chọn ts_lexize ('public.simple_dict', 'có'); ts_lexize ----------- Chọn ts_lexize ('public.simple_dict', 'the'); ts_lexize -----------
Với cài đặt mặc định củaChấp nhận
=TRUE
, nó chỉ hữu ích khi đặt soi kèo bóng đá truoctranđơn giản
soi kèo bóng đá truoctran ở cuối danh sách các soi kèo bóng đá truoctran, vì nó sẽ không bao giờ chuyển bất kỳ mã thông báo nào cho một soi kèo bóng đá truoctran sau. Ngược lại,Chấp nhận
=false
chỉ hữu ích khi có ít nhất một soi kèo bóng đá truoctran sau.
Hầu hết các loại soi kèo bóng đá truoctran đều dựa vào các tệp cấu hình, chẳng hạn như các tệp của các từ dừng. Những tệp nàyphảiĐược lưu trữ trong mã hóa UTF-8. Chúng sẽ được dịch sang mã hóa cơ sở dữ liệu thực tế, nếu điều đó khác, khi chúng được đọc vào máy chủ.
Thông thường, một phiên cơ sở dữ liệu sẽ chỉ đọc một tệp cấu hình soi kèo bóng đá truoctran một lần, khi nó được sử dụng lần đầu tiên trong phiên. Nếu bạn sửa đổi tệp cấu hình và muốn buộc các phiên hiện có để chọn nội dung mới, hãy phát hành mộtThay đổi soi kèo bóng đá truoctran tìm kiếm văn bản
Lệnh trên soi kèo bóng đá truoctran. Đây có thể là mộtHồigiảHàngCập nhật không thực sự thay đổi bất kỳ giá trị tham số nào.
Mẫu soi kèo bóng đá truoctran này được sử dụng để tạo soi kèo bóng đá truoctran thay thế một từ bằng một từ đồng nghĩa. Các cụm từ không được hỗ trợ (sử dụng mẫu Thesaurus (Phần 12.6.4) cho điều đó). Một soi kèo bóng đá truoctran đồng nghĩa có thể được sử dụng để khắc phục các vấn đề ngôn ngữ, ví dụ, để ngăn chặn một soi kèo bóng đá truoctran gốc tiếng Anh giảm từParisđếnMạnhpariHồi. Nó đủ để có soi kèo bóng đá truoctranParis Paris
dòng trong soi kèo bóng đá truoctran đồng nghĩa và đặt nó trướcEnglish_stem
soi kèo bóng đá truoctran. Ví dụ:
Chọn * từ ts_debug ('tiếng Anh', 'paris'); Bí danh | Mô tả | mã thông báo | soi kèo bóng đá truoctran | soi kèo bóng đá truoctran | từ vựng -----------+------------------+-------+----------------+--------------+------------- asciiword | Từ, tất cả ASCII | Paris | English_stem | Tiếng Anh_stem | pari Tạo soi kèo bóng đá truoctran tìm kiếm văn bản my_synonymy ( Template = từ đồng nghĩa, Từ đồng nghĩa = my_syn từ ); Thay đổi cấu hình tìm kiếm văn bản tiếng Anh Thay đổi ánh xạ cho asciiword Với my_synonymy, English_stem; Chọn * từ ts_debug ('tiếng Anh', 'paris'); Bí danh | Mô tả | mã thông báo | soi kèo bóng đá truoctran | soi kèo bóng đá truoctran | từ vựng -----------+------------------+-------+-------------------------------+------------+------------- asciiword | Từ, tất cả ASCII | Paris | my_synonymy, English_stem | my_synonymy | Paris
Tham số duy nhất theo yêu cầu củaTừ đồng nghĩa
Mẫu làTừ đồng nghĩa
, là tên cơ sở của tệp cấu hình của nó -my_synonymouss
Trong ví dụ trên. Tên đầy đủ của tệp sẽ là$ sharedir/tsearch_data/my_syn từ.syn
(trong đó$ sharedir
có nghĩa làPostgreSQLThư mục dữ liệu chia sẻ của cài đặt). Định dạng tệp chỉ là soi kèo bóng đá truoctran dòng cho mỗi từ được thay thế, với từ theo sau là từ đồng nghĩa của nó, được phân tách bằng không gian trắng. Các đường trống và không gian dấu vết bị bỏ qua.
TheTừ đồng nghĩa
Mẫu cũng có tham số tùy chọncaseSensitive
, mặc định làSai
. KhicaseSensitive
làSai
, soi kèo bóng đá truoctran từ trong tệp đồng nghĩa được gấp lại thành chữ thường, như là mã thông báo đầu vào. Khi nó làTrue
, soi kèo bóng đá truoctran từ và mã thông báo không được gấp lại thành chữ thường, nhưng được so sánh As-is.
A Asterisk (*
) có thể được đặt ở cuối soi kèo bóng đá truoctran từ đồng nghĩa trong tệp cấu hình. Điều này chỉ ra rằng từ đồng nghĩa là tiền tố. Dấu hoa thị bị bỏ qua khi mục được sử dụng trongto_tsVector ()
, nhưng khi nó được sử dụng trongto_tsquery ()
, Kết quả sẽ là mục truy vấn với điểm đánh dấu khớp tiền tố (xemPhần 12.3.2). Ví dụ: giả sử chúng ta có soi kèo bóng đá truoctran mục này trong$ sharedir/tsearch_data/từ đồng nghĩa_sample.syn
:
Postgres PGSQL Postgresql PGSQL Postgre PGSQL Gogle Googl Chỉ số chỉ mục*
Sau đó, chúng tôi sẽ nhận được soi kèo bóng đá truoctran kết quả sau:
26040_26812
Một soi kèo bóng đá truoctran soi kèo bóng đá truoctran (đôi khi viết tắt làTZ) là soi kèo bóng đá truoctran tập hợp các từ bao gồm thông tin về các mối quan hệ của các từ và cụm từ, tức là, các thuật ngữ rộng hơn (bt), soi kèo bóng đá truoctran thuật ngữ hẹp hơn (nt), Điều khoản ưa thích, Điều khoản không được ưu tiên, Điều khoản liên quan, v.v.
Về cơ bản, soi kèo bóng đá truoctran soi kèo bóng đá truoctran thay thế tất cả các thuật ngữ không được ưu tiên bằng một thuật ngữ ưa thích và, tùy chọn, bảo tồn các thuật ngữ gốc để lập chỉ mục.PostgreSQL27611_27720cụm từHỗ trợ. Một soi kèo bóng đá truoctran soi kèo bóng đá truoctran yêu cầu một tệp cấu hình của định dạng sau:
# Đây là soi kèo bóng đá truoctran bình luận Từ mẫu: từ được lập chỉ mục (các) từ Thêm (các) từ mẫu: từ được lập chỉ mục nhiều hơn ...
trong đó đại tràng (:
) Biểu tượng hoạt động như soi kèo bóng đá truoctran dấu phân cách giữa soi kèo bóng đá truoctran cụm từ và sự thay thế của nó.
Một soi kèo bóng đá truoctran soi kèo bóng đá truoctran sử dụng ASubdictionary(được chỉ định trong cấu hình của soi kèo bóng đá truoctran) để bình thường hóa văn bản đầu vào trước khi kiểm tra các kết quả phù hợp cụm từ. Chỉ có thể chọn một bộ phụ. Một lỗi được báo cáo nếu sự phụ không thể nhận ra một từ. Trong trường hợp đó, bạn nên loại bỏ việc sử dụng từ hoặc dạy cho phụ về nó. Bạn có thể đặt dấu hoa thị (*
28567_28670phảiĐược biết đến Subdiced.
soi kèo bóng đá truoctran Thesaurus chọn trận đấu dài nhất nếu có nhiều cụm từ phù hợp với đầu vào và các mối quan hệ bị phá vỡ bằng cách sử dụng định nghĩa cuối cùng.
soi kèo bóng đá truoctran từ dừng cụ thể được nhận ra bởi Subdicedary không thể được chỉ định; Thay vào đó sử dụng?
Để đánh dấu vị trí nơi có thể xuất hiện từ nào. Ví dụ: giả sử rằngA
vàThe
là soi kèo bóng đá truoctran từ dừng theo phân nhóm:
? soi kèo bóng đá truoctran ? Hai: SWSW
MatchesA One the Two
vàThe A hai
; Cả hai sẽ được thay thế bằngSWSW
.
Vì soi kèo bóng đá truoctran soi kèo bóng đá truoctran có khả năng nhận biết các cụm từ, nó phải nhớ trạng thái của nó và tương tác với trình phân tích cú pháp. Một soi kèo bóng đá truoctran soi kèo bóng đá truoctran sử dụng các bài tập này để kiểm tra xem nó có nên xử lý từ tiếp theo hay dừng tích lũy không. soi kèo bóng đá truoctran Thesaurus phải được cấu hình cẩn thận. Ví dụ: nếu soi kèo bóng đá truoctran soi kèo bóng đá truoctran được gán để chỉ xử lýasciiword
mã thông báo, sau đó là một định nghĩa soi kèo bóng đá truoctran soi kèo bóng đá truoctran nhưsoi kèo bóng đá truoctran 7
sẽ không hoạt động vì loại mã thông báoUINT
không được gán cho soi kèo bóng đá truoctran soi kèo bóng đá truoctran.
Thesaurus được sử dụng trong quá trình lập chỉ mục để bất kỳ thay đổi nào trong các tham số của soi kèo bóng đá truoctran soi kèo bóng đá truoctranYêu cầuReindexing. Đối với hầu hết các loại soi kèo bóng đá truoctran khác, các thay đổi nhỏ như thêm hoặc xóa các nút dừng không buộc phải tái lập.
Để xác định soi kèo bóng đá truoctran soi kèo bóng đá truoctran mới, sử dụngThesaurus
Mẫu. Ví dụ:
Tạo soi kèo bóng đá truoctran tìm kiếm văn bản soi kèo bóng đá truoctran thesaurus_simple ( Mẫu = Thesaurus, Dictfile = Mythesaurus, soi kèo bóng đá truoctran = pg_catalog.english_stem );
ở đây:
thesaurus_simple
là tên của soi kèo bóng đá truoctran mới
Mythesaurus
là tên cơ sở của tệp cấu hình thesaurus. (Tên đầy đủ của nó sẽ là$ sharedir/tsearch_data/mythesaurus.ths
, trong đó$ sharedir
có nghĩa là thư mục dữ liệu chia sẻ cài đặt.)
pg_catalog.english_stem
là sự phụ thuộc (ở đây, một bản gốc tiếng Anh Snowball) để sử dụng cho bình thường hóa soi kèo bóng đá truoctran đồng nghĩa. Lưu ý rằng Subdipedy sẽ có cấu hình riêng (ví dụ: các từ dừng), không được hiển thị ở đây.
Bây giờ có thể liên kết soi kèo bóng đá truoctran soi kèo bóng đá truoctranthesaurus_simple
với các loại mã thông báo mong muốn trong soi kèo bóng đá truoctran cấu hình, ví dụ:
Thay đổi cấu hình tìm kiếm văn bản tiếng Nga Thay đổi ánh xạ cho asciiword, asciihword, hword_asciipart Với thesaurus_simple;
Hãy xem xét một soi kèo bóng đá truoctran thiên văn đơn giảnthesaurus_astro
, chứa soi kèo bóng đá truoctran số kết hợp từ thiên văn:
Supernovae Stars: SN Nebulae cua: cua
32855_32961
Tạo soi kèo bóng đá truoctran tìm kiếm văn bản soi kèo bóng đá truoctran thesaurus_astro ( Mẫu = Thesaurus, Dictfile = thesaurus_astro, soi kèo bóng đá truoctran = English_stem ); Thay đổi cấu hình tìm kiếm văn bản Nga Thay đổi ánh xạ cho asciiword, asciihword, hword_asciipart Với thesaurus_astro, English_stem;
Bây giờ chúng ta có thể thấy cách thức hoạt động.ts_lexize
không hữu ích cho việc kiểm tra một soi kèo bóng đá truoctran đồng nghĩa, vì nó coi đầu vào của nó là một mã thông báo duy nhất. Thay vào đó chúng ta có thể sử dụngPlainto_tsquery
vàto_tsVector
sẽ chia chuỗi đầu vào của chúng thành nhiều mã thông báo:
Chọn PlainTo_TSQuery ('Supernova Star'); Plainto_tsquery ----------------- 'Sn' Chọn to_tsvector ('Supernova Star'); to_tsVector ------------- 'Sn': 1
Về nguyên tắc, người ta có thể sử dụngto_tsquery
Nếu bạn trích dẫn đối số:
chọn to_tsquery ('' 'Supernova Star' ''); to_tsquery ------------ 'Sn'
Thông báo rằngSupernova Star
MatchesSupernovae Stars
inthesaurus_astro
Vì chúng tôi đã chỉ địnhEnglish_stem
STEMMER trong định nghĩa soi kèo bóng đá truoctran đồng nghĩa. Thân máy đã loại bỏE
vàS
.
Để lập chỉ mục cụm từ gốc cũng như sự thay thế, chỉ cần đưa nó vào phần bên phải của định nghĩa:
Supernovae Stars: SN Supernovae Stars Chọn PlainTo_TSQuery ('Supernova Star'); Plainto_tsquery --------------------------------- 'Sn' & 'Supernova' & 'Star'
TheISPELLMẫu soi kèo bóng đá truoctran hỗ trợsoi kèo bóng đá truoctran hình thái, có thể bình thường hóa nhiều hình thức ngôn ngữ khác nhau của soi kèo bóng đá truoctran từ vào cùng soi kèo bóng đá truoctran từ vựng. Ví dụ: soi kèo bóng đá truoctran tiếng AnhISPELLsoi kèo bóng đá truoctran có thể phù hợp với tất cả các khoản thanh toán và liên hợp của thuật ngữ tìm kiếmBank
, ví dụ:Ngân hàng
, Chance
, Ngân hàng
, Ngân hàng '
vàNgân hàng
.
tiêu chuẩnPostgreSQLPhân phối không bao gồm bất kỳ nàoISPELLTệp cấu hình. soi kèo bóng đá truoctran cho một số lượng lớn ngôn ngữ có sẵn từISPELL. Ngoài ra, một số định dạng tệp soi kèo bóng đá truoctran hiện đại hơn được hỗ trợ -MySpell(oo <2.0.1) vàHunspell(oo = 2.0.2). Một danh sách lớn các soi kèo bóng đá truoctran có sẵn trênWiki OpenOffice.
Để tạoISPELLsoi kèo bóng đá truoctran thực hiện các bước sau:
Tải xuống các tệp cấu hình soi kèo bóng đá truoctran.OpenOfficeTệp mở rộng có.OXT
Mở rộng. Nó là cần thiết để trích xuất.AFF
và.dic
Tệp, thay đổi tiện ích mở rộng thành.AFFIX
và.dict
. Đối với một số tệp soi kèo bóng đá truoctran, cũng cần phải chuyển đổi các ký tự thành mã hóa UTF-8 với các lệnh (ví dụ: cho soi kèo bóng đá truoctran ngôn ngữ Na Uy):
ICONV -F ISO_8859-1 -T UTF -8 -O NN_NO.AFFIX NN_NO.AFF iconv -f iso_8859-1 -t utf -8 -o nn_no.dict nn_no.dic
Sao chép tệp vào$ sharedir/tsearch_data
Thư mục
Tải tệp vào PostgreSQL với lệnh sau:
Tạo soi kèo bóng đá truoctran tìm kiếm văn bản English_hunspell ( Template = ispell, Dictfile = en_us, Afffile = en_us, Stopwords = English);
ở đây,dictfile
, Afffile
vàstopwords
Chỉ định tên cơ sở của các tệp soi kèo bóng đá truoctran, phụ đề và các tệp dừng. Tệp điểm dừng có cùng định dạng được giải thích ở trên chođơn giản
Loại soi kèo bóng đá truoctran. Định dạng của các tệp khác không được chỉ định ở đây nhưng có sẵn từ các trang web đã đề cập ở trên.
soi kèo bóng đá truoctran ISPELL thường nhận ra một bộ từ giới hạn, vì vậy chúng nên được theo sau bởi một soi kèo bóng đá truoctran rộng hơn khác; Ví dụ, một soi kèo bóng đá truoctran bóng tuyết, nhận ra mọi thứ.
The.AFFIX
Tệp củaISPELLCó cấu trúc sau:
Tiền tố cờ *a: . Re # as in enter reenter hậu tố cờ T: E st # như vào muộn mới nhất [^Aeiou] y -y, iest # như trong bẩn bẩn nhất [Aeiou] y est # như màu xám màu xám nhất [^Ey] est # như trong nhỏ nhỏ nhất
và.dict
Tệp có cấu trúc sau:
Lapse/ADGRS Lard/dgrs lớn/prty Lark/Mrs
Định dạng của.dict
Tệp là:
basic_form/bệp
trong.AFFIX
Tệp Mỗi cờ phụ được mô tả ở định dạng sau:
điều kiện [-Stripping_letters,] adding_affix
Ở đây, điều kiện có định dạng tương tự như định dạng của soi kèo bóng đá truoctran biểu thức chính quy. Nó có thể sử dụng soi kèo bóng đá truoctran nhóm[...]
và[^...]
. Ví dụ,[AEIOU] y
có nghĩa là chữ cái cuối cùng của từ là"Y"
Và chữ áp chót là"A"
, "E"
, "I"
, "O"
hoặc"U"
. [^EY]
có nghĩa là chữ cái cuối cùng không"E"
cũng không"Y"
.
soi kèo bóng đá truoctran ISPELL hỗ trợ phân tách các từ ghép; một tính năng hữu ích. Lưu ý rằng tệp dán sẽ chỉ định cờ đặc biệt bằng cách sử dụngTừ hợp chất được kiểm soát
Tuyên bố đánh dấu các từ soi kèo bóng đá truoctran có thể tham gia vào sự hình thành hợp chất:
Từ hợp chất được kiểm soát z
Đây là soi kèo bóng đá truoctran số ví dụ cho ngôn ngữ Na Uy:
40557_40785
MySpellĐịnh dạng là soi kèo bóng đá truoctran tập hợp con củaHunspell. The.AFFIX
Tệp củaHunspellCó cấu trúc sau:
PFX A Y 1 Pfx a 0 re. Sfx t n 4 Sfx t 0 st e Sfx t y iest [^aeiou] y Sfx t 0 est [aeiou] y Sfx t 0 est [^ey]
Dòng đầu tiên của lớp phụ là tiêu đề. Các trường của soi kèo bóng đá truoctran quy tắc phụ được liệt kê sau tiêu đề:
Tên tham số (PFX hoặc SFX)
cờ (tên của lớp phụ)
Dải soi kèo bóng đá truoctran ký tự từ đầu (tại tiền tố) hoặc kết thúc (tại hậu tố) của từ
Thêm phụ
Điều kiện có định dạng tương tự như định dạng của soi kèo bóng đá truoctran biểu thức chính quy.
The.dict
Tệp trông giống như.dict
Tệp củaISPELL:
Larder/m Lardy/rt lớn/rspmyt Larget đã
MySpellKhông hỗ trợ soi kèo bóng đá truoctran từ ghép.Hunspellcó hỗ trợ tinh vi cho soi kèo bóng đá truoctran từ ghép. Hiện tại,PostgreSQLChỉ thực hiện soi kèo bóng đá truoctran hoạt động từ hợp chất cơ bản của HunSpell.
TheSnowballMẫu soi kèo bóng đá truoctran dựa trên một dự án của Martin Porter, người phát minh ra thuật toán gốc của Porter phổ biến cho ngôn ngữ tiếng Anh. Snowball hiện cung cấp các thuật toán thân cây cho nhiều ngôn ngữ (xemTrang web SnowballĐể biết thêm thông tin). Mỗi thuật toán hiểu cách giảm các dạng từ biến thể phổ biến thành một cơ sở, hoặc gốc, đánh vần trong ngôn ngữ của nó. Một soi kèo bóng đá truoctran bóng tuyết yêu cầuNgôn ngữ
tham số để xác định sử dụng thân cây nào và tùy chọn có thể chỉ định Astopword
Tên tệp đưa ra danh sách soi kèo bóng đá truoctran từ để loại bỏ. (POSTGRESQL43787_43917
Tạo soi kèo bóng đá truoctran tìm kiếm văn bản English_stem ( Template = Snowball, Ngôn ngữ = tiếng Anh, Stopwords = tiếng Anh );
Định dạng tệp dừng giống như đã giải thích.
ASnowballsoi kèo bóng đá truoctran nhận ra mọi thứ, cho dù nó có thể đơn giản hóa từ này hay không, vì vậy nó nên được đặt ở cuối danh sách soi kèo bóng đá truoctran. Thật vô ích khi có nó trước bất kỳ soi kèo bóng đá truoctran nào khác vì một mã thông báo sẽ không bao giờ chuyển qua nó đến soi kèo bóng đá truoctran tiếp theo.