Asas Elasticsearch

Elasticsearch ialah enjin carian dengan API JSON REST, menggunakan Lucene dan ditulis dalam Java. Penerangan tentang semua faedah enjin ini boleh didapati di laman web rasmiMulai sekarang, kami akan merujuk kepada Elasticsearch sebagai ES.

Enjin sedemikian digunakan untuk carian pangkalan data dokumen yang kompleks, seperti carian berdasarkan morfologi bahasa atau carian mengikut koordinat geografi.

Dalam artikel ini, saya akan membincangkan asas ES menggunakan contoh mengindeks catatan blog. Saya akan menunjukkan kepada anda cara menapis, mengisih dan mencari dokumen.

Untuk bebas daripada sistem pengendalian, saya akan membuat semua permintaan ES saya menggunakan CURL. Terdapat juga pemalam untuk Google Chrome yang dipanggil rasa.

Pautan kepada dokumentasi dan sumber lain disediakan di seluruh teks. Pautan akses pantas kepada dokumentasi disediakan pada penghujungnya. Takrif istilah yang tidak dikenali boleh didapati di glosari.

Memasang ES

Untuk ini kita memerlukan Java terlebih dahulu. pemaju Mengesyorkan Pasang versi Java yang lebih baharu daripada kemas kini Java 8 20 atau kemas kini Java 7 55.

Pengedaran ES tersedia pada laman web pembangunSelepas membongkar arkib, anda perlu menjalankan bin/elasticsearch. Juga tersedia pakej untuk apt dan yum... terdapat imej rasmi untuk Docker. Lebih lanjut mengenai pemasangan.

Selepas pemasangan dan pelancaran, mari semak fungsi:

# для удобства Π·Π°ΠΏΠΎΠΌΠ½ΠΈΠΌ адрСс Π² ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΡƒΡŽ
#export ES_URL=$(docker-machine ip dev):9200
export ES_URL=localhost:9200

curl -X GET $ES_URL

Kami akan menerima respons yang kelihatan seperti ini:

{
  "name" : "Heimdall",
  "cluster_name" : "elasticsearch",
  "version" : {
    "number" : "2.2.1",
    "build_hash" : "d045fc29d1932bce18b2e65ab8b297fbf6cd41a1",
    "build_timestamp" : "2016-03-09T09:38:54Z",
    "build_snapshot" : false,
    "lucene_version" : "5.4.1"
  },
  "tagline" : "You Know, for Search"
}

Pengindeksan

Mari tambahkan siaran pada ES:

# Π”ΠΎΠ±Π°Π²ΠΈΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ c id 1 Ρ‚ΠΈΠΏΠ° post Π² индСкс blog.
# ?pretty ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π²ΠΎΠ΄ Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎ-Ρ‡ΠΈΡ‚Π°Π΅ΠΌΡ‹ΠΌ.

curl -XPUT "$ES_URL/blog/post/1?pretty" -d'
{
  "title": "ВСсСлыС котята",
  "content": "<p>БмСшная история ΠΏΡ€ΠΎ котят<p>",
  "tags": [
    "котята",
    "смСшная история"
  ],
  "published_at": "2014-09-12T20:44:42+00:00"
}'

respons pelayan:

{
  "_index" : "blog",
  "_type" : "post",
  "_id" : "1",
  "_version" : 1,
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "created" : false
}

ES dibuat secara automatik indeks blog dan Taipkan jawatan. Analogi kasar boleh dibuat: indeks ialah pangkalan data, dan jenis ialah jadual dalam pangkalan data itu. Setiap jenis mempunyai skema sendiri- pemetaan, sama seperti jadual hubungan. Pemetaan dijana secara automatik apabila dokumen diindeks:

# ΠŸΠΎΠ»ΡƒΡ‡ΠΈΠΌ mapping всСх Ρ‚ΠΈΠΏΠΎΠ² индСкса blog
curl -XGET "$ES_URL/blog/_mapping?pretty"

Dalam respons pelayan, saya menambah nilai medan dokumen yang diindeks dalam ulasan:

{
  "blog" : {
    "mappings" : {
      "post" : {
        "properties" : {
          /* "content": "<p>БмСшная история ΠΏΡ€ΠΎ котят<p>", */ 
          "content" : {
            "type" : "string"
          },
          /* "published_at": "2014-09-12T20:44:42+00:00" */
          "published_at" : {
            "type" : "date",
            "format" : "strict_date_optional_time||epoch_millis"
          },
          /* "tags": ["котята", "смСшная история"] */
          "tags" : {
            "type" : "string"
          },
          /*  "title": "ВСсСлыС котята" */
          "title" : {
            "type" : "string"
          }
        }
      }
    }
  }
}

Perlu diingat bahawa ES tidak membezakan antara nilai tunggal dan tatasusunan nilai. Sebagai contoh, medan tajuk mengandungi hanya tajuk, manakala medan tag mengandungi tatasusunan rentetan, walaupun ia diwakili secara sama dalam pemetaan.
Kita akan bercakap tentang pemetaan dengan lebih terperinci kemudian.

permintaan

Mengekstrak dokumen dengan IDnya:

# ΠΈΠ·Π²Π»Π΅Ρ‡Π΅ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ с id 1 Ρ‚ΠΈΠΏΠ° post ΠΈΠ· индСкса blog
curl -XGET "$ES_URL/blog/post/1?pretty"
{
  "_index" : "blog",
  "_type" : "post",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "title" : "ВСсСлыС котята",
    "content" : "<p>БмСшная история ΠΏΡ€ΠΎ котят<p>",
    "tags" : [ "котята", "смСшная история" ],
    "published_at" : "2014-09-12T20:44:42+00:00"
  }
}

Kekunci baharu muncul dalam jawapan: _version ΠΈ _sourceSecara umum, semua kunci yang bermula dengan _ dikelaskan sebagai item perkhidmatan.

Kunci _version Menunjukkan versi dokumen. Ini adalah perlu untuk mekanisme penguncian optimistik berfungsi. Sebagai contoh, kami ingin menukar dokumen dengan versi 1. Kami menyerahkan dokumen yang diubah suai dan menunjukkan bahawa ini adalah semakan kepada dokumen dengan versi 1. Jika orang lain turut mengedit dokumen dengan versi 1 dan menyerahkan perubahan sebelum kami, ES tidak akan menerima perubahan kami, kerana ia menyimpan dokumen dengan versi 2.

Kunci _source Mengandungi dokumen yang kami indeks. ES tidak menggunakan nilai ini untuk operasi carian, kerana indeks digunakan untuk carian. Untuk menjimatkan ruang, ES menyimpan versi mampat dokumen asal. Jika kami hanya memerlukan ID dan bukan keseluruhan dokumen asal, kami boleh melumpuhkan penyimpanan dokumen asal.

Jika kami tidak memerlukan sebarang maklumat tambahan, kami hanya boleh mendapatkan kandungan _source:

curl -XGET "$ES_URL/blog/post/1/_source?pretty"
{
  "title" : "ВСсСлыС котята",
  "content" : "<p>БмСшная история ΠΏΡ€ΠΎ котят<p>",
  "tags" : [ "котята", "смСшная история" ],
  "published_at" : "2014-09-12T20:44:42+00:00"
}

Anda juga boleh memilih medan tertentu sahaja:

# ΠΈΠ·Π²Π»Π΅Ρ‡Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎΠ»Π΅ title
curl -XGET "$ES_URL/blog/post/1?_source=title&pretty"
{
  "_index" : "blog",
  "_type" : "post",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "title" : "ВСсСлыС котята"
  }
}

Mari kita indeks beberapa lagi siaran dan jalankan pertanyaan yang lebih kompleks.

curl -XPUT "$ES_URL/blog/post/2" -d'
{
  "title": "ВСсСлыС Ρ‰Π΅Π½ΠΊΠΈ",
  "content": "<p>БмСшная история ΠΏΡ€ΠΎ Ρ‰Π΅Π½ΠΊΠΎΠ²<p>",
  "tags": [
    "Ρ‰Π΅Π½ΠΊΠΈ",
    "смСшная история"
  ],
  "published_at": "2014-08-12T20:44:42+00:00"
}'
curl -XPUT "$ES_URL/blog/post/3" -d'
{
  "title": "Как Ρƒ мСня появился ΠΊΠΎΡ‚Π΅Π½ΠΎΠΊ",
  "content": "<p>Π”ΡƒΡˆΠ΅Ρ€Π°Π·Π΄ΠΈΡ€Π°ΡŽΡ‰Π°Ρ история ΠΏΡ€ΠΎ Π±Π΅Π΄Π½ΠΎΠ³ΠΎ ΠΊΠΎΡ‚Π΅Π½ΠΊΠ° с ΡƒΠ»ΠΈΡ†Ρ‹<p>",
  "tags": [
    "котята"
  ],
  "published_at": "2014-07-21T20:44:42+00:00"
}'

Π‘ΠΎΡ€Ρ‚ΠΈΡ€ΠΎΠ²ΠΊΠ°

# Π½Π°ΠΉΠ΄Π΅ΠΌ послСдний пост ΠΏΠΎ Π΄Π°Ρ‚Π΅ ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΈ ΠΈΠ·Π²Π»Π΅Ρ‡Π΅ΠΌ поля title ΠΈ published_at
curl -XGET "$ES_URL/blog/post/_search?pretty" -d'
{
  "size": 1,
  "_source": ["title", "published_at"],
  "sort": [{"published_at": "desc"}]
}'
{
  "took" : 8,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 3,
    "max_score" : null,
    "hits" : [ {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "1",
      "_score" : null,
      "_source" : {
        "title" : "ВСсСлыС котята",
        "published_at" : "2014-09-12T20:44:42+00:00"
      },
      "sort" : [ 1410554682000 ]
    } ]
  }
}

Kami telah memilih jawatan terakhir. size mengehadkan bilangan dokumen yang dikeluarkan. total menunjukkan jumlah bilangan dokumen yang sepadan dengan pertanyaan. sort Output mengandungi tatasusunan integer yang mana pengisihan dilakukan. Iaitu, tarikh telah ditukar kepada integer. Anda boleh membaca lebih lanjut tentang menyusun masuk dokumentasi.

Penapis dan pertanyaan

ES sejak versi 2 tidak membezakan antara penapis dan pertanyaan, sebaliknya konsep konteks diperkenalkan.
Konteks pertanyaan berbeza daripada konteks penapis kerana pertanyaan menjana _skor dan tidak dicache. Saya akan menerangkan apa itu _skor kemudian.

Tapis mengikut tarikh

Menggunakan pertanyaan pelbagai dalam konteks penapis:

# ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ посты, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π½Ρ‹Π΅ 1ΠΎΠ³ΠΎ сСнтября ΠΈΠ»ΠΈ ΠΏΠΎΠ·ΠΆΠ΅
curl -XGET "$ES_URL/blog/post/_search?pretty" -d'
{
  "filter": {
    "range": {
      "published_at": { "gte": "2014-09-01" }
    }
  }
}'

Tapis mengikut tag

Kami guna pertanyaan istilah Untuk mencari ID dokumen yang mengandungi perkataan tertentu:

# Π½Π°ΠΉΠ΄Π΅ΠΌ всС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, Π² ΠΏΠΎΠ»Π΅ tags ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΅ΡΡ‚ΡŒ элСмСнт 'котята'
curl -XGET "$ES_URL/blog/post/_search?pretty" -d'
{
  "_source": [
    "title",
    "tags"
  ],
  "filter": {
    "term": {
      "tags": "котята"
    }
  }
}'
{
  "took" : 9,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "1",
      "_score" : 1.0,
      "_source" : {
        "title" : "ВСсСлыС котята",
        "tags" : [ "котята", "смСшная история" ]
      }
    }, {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "3",
      "_score" : 1.0,
      "_source" : {
        "title" : "Как Ρƒ мСня появился ΠΊΠΎΡ‚Π΅Π½ΠΎΠΊ",
        "tags" : [ "котята" ]
      }
    } ]
  }
}

Carian teks penuh

Tiga dokumen kami mengandungi perkara berikut dalam medan kandungan:

  • <p>БмСшная история ΠΏΡ€ΠΎ котят<p>
  • <p>БмСшная история ΠΏΡ€ΠΎ Ρ‰Π΅Π½ΠΊΠΎΠ²<p>
  • <p>Π”ΡƒΡˆΠ΅Ρ€Π°Π·Π΄ΠΈΡ€Π°ΡŽΡ‰Π°Ρ история ΠΏΡ€ΠΎ Π±Π΅Π΄Π½ΠΎΠ³ΠΎ ΠΊΠΎΡ‚Π΅Π½ΠΊΠ° с ΡƒΠ»ΠΈΡ†Ρ‹<p>

Kami guna pertanyaan padanan Untuk mencari ID dokumen yang mengandungi perkataan tertentu:

# source: false ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π½Π΅ Π½ΡƒΠΆΠ½ΠΎ ΠΈΠ·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒ _source Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²
curl -XGET "$ES_URL/blog/post/_search?pretty" -d'
{
  "_source": false,
  "query": {
    "match": {
      "content": "история"
    }
  }
}'
{
  "took" : 13,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 3,
    "max_score" : 0.11506981,
    "hits" : [ {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "2",
      "_score" : 0.11506981
    }, {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "1",
      "_score" : 0.11506981
    }, {
      "_index" : "blog",
      "_type" : "post",
      "_id" : "3",
      "_score" : 0.095891505
    } ]
  }
}

Walau bagaimanapun, jika kami mencari "cerita" dalam medan kandungan, kami tidak akan menemui apa-apa, kerana indeks hanya mengandungi perkataan asal, bukan batangnya. Untuk melakukan carian yang berkualiti, kita perlu mengkonfigurasi penganalisis.

Bidang _score menunjukkan perkaitanJika pertanyaan dilaksanakan dalam konteks penapis, nilai _skor akan sentiasa 1, yang bermaksud penapis dipadankan sepenuhnya.

Penganalisis

Penganalisis diperlukan untuk mengubah teks sumber menjadi satu set token.
Penganalisis terdiri daripada satu Tokenizer dan beberapa pilihan TokenFiltersTokenizer mungkin mendahului beberapa CharFiltersTokenizer memecahkan rentetan sumber kepada token, contohnya, dengan ruang dan aksara tanda baca. TokenFilters boleh mengubah suai token, mengalih keluarnya atau menambah yang baharu, contohnya, dengan meninggalkan hanya batang perkataan, mengalih keluar preposisi atau menambah sinonim. CharFilters mengubah suai rentetan sumber sepenuhnya, contohnya, dengan menanggalkan tag HTML.

Terdapat beberapa dalam ES penganalisis standardSebagai contoh, penganalisis russian.

Jom guna api dan mari lihat bagaimana penghurai standard dan Rusia mengubah rentetan "Kisah lucu tentang anak kucing":

# ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€ standard       
# ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π½ΡƒΠΆΠ½ΠΎ ΠΏΠ΅Ρ€Π΅ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ ASCII символы
curl -XGET "$ES_URL/_analyze?pretty&analyzer=standard&text=%D0%92%D0%B5%D1%81%D0%B5%D0%BB%D1%8B%D0%B5%20%D0%B8%D1%81%D1%82%D0%BE%D1%80%D0%B8%D0%B8%20%D0%BF%D1%80%D0%BE%20%D0%BA%D0%BE%D1%82%D1%8F%D1%82"
{
  "tokens" : [ {
    "token" : "вСсСлыС",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "<ALPHANUM>",
    "position" : 0
  }, {
    "token" : "истории",
    "start_offset" : 8,
    "end_offset" : 15,
    "type" : "<ALPHANUM>",
    "position" : 1
  }, {
    "token" : "ΠΏΡ€ΠΎ",
    "start_offset" : 16,
    "end_offset" : 19,
    "type" : "<ALPHANUM>",
    "position" : 2
  }, {
    "token" : "котят",
    "start_offset" : 20,
    "end_offset" : 25,
    "type" : "<ALPHANUM>",
    "position" : 3
  } ]
}
# ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€ russian
curl -XGET "$ES_URL/_analyze?pretty&analyzer=russian&text=%D0%92%D0%B5%D1%81%D0%B5%D0%BB%D1%8B%D0%B5%20%D0%B8%D1%81%D1%82%D0%BE%D1%80%D0%B8%D0%B8%20%D0%BF%D1%80%D0%BE%20%D0%BA%D0%BE%D1%82%D1%8F%D1%82"
{
  "tokens" : [ {
    "token" : "вСсСл",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "<ALPHANUM>",
    "position" : 0
  }, {
    "token" : "истор",
    "start_offset" : 8,
    "end_offset" : 15,
    "type" : "<ALPHANUM>",
    "position" : 1
  }, {
    "token" : "ΠΊΠΎΡ‚",
    "start_offset" : 20,
    "end_offset" : 25,
    "type" : "<ALPHANUM>",
    "position" : 3
  } ]
}

Penganalisis standard membelah rentetan pada ruang dan menukar semuanya kepada huruf kecil, penganalisis Rusia mengeluarkan perkataan yang tidak penting, menukarnya kepada huruf kecil dan meninggalkan perkataan itu.

Mari lihat Tokenizer, TokenFilters dan CharFilters yang digunakan oleh penganalisis Rusia:

{
  "filter": {
    "russian_stop": {
      "type":       "stop",
      "stopwords":  "_russian_"
    },
    "russian_keywords": {
      "type":       "keyword_marker",
      "keywords":   []
    },
    "russian_stemmer": {
      "type":       "stemmer",
      "language":   "russian"
    }
  },
  "analyzer": {
    "russian": {
      "tokenizer":  "standard",
      /* TokenFilters */
      "filter": [
        "lowercase",
        "russian_stop",
        "russian_keywords",
        "russian_stemmer"
      ]
      /* CharFilters ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ */
    }
  }
}

Mari kita terangkan penganalisis berasaskan Rusia kita sendiri yang akan menanggalkan tag HTML. Kami akan memanggilnya lalai, kerana ini akan menjadi penganalisis lalai.

{
  "filter": {
    "ru_stop": {
      "type":       "stop",
      "stopwords":  "_russian_"
    },
    "ru_stemmer": {
      "type":       "stemmer",
      "language":   "russian"
    }
  },
  "analyzer": {
    "default": {
      /* добавляСм ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ html Ρ‚Π΅Π³ΠΎΠ² */
      "char_filter": ["html_strip"],
      "tokenizer":  "standard",
      "filter": [
        "lowercase",
        "ru_stop",
        "ru_stemmer"
      ]
    }
  }
}

Pertama, semua teg HTML akan dialih keluar daripada rentetan sumber, kemudian ia akan dibahagikan kepada token mengikut piawaian tokenizer, token yang terhasil akan ditukar kepada huruf kecil, perkataan yang tidak penting akan dialih keluar, dan token yang selebihnya akan menjadi akar perkataan.

Mencipta indeks

Di atas, kami menerangkan penganalisis lalai. Ia akan digunakan pada semua medan rentetan. Siaran kami mengandungi pelbagai teg, jadi teg juga akan diproses oleh penganalisis. Memandangkan kami sedang mencari siaran yang sepadan dengan teg yang tepat, kami perlu melumpuhkan analisis untuk medan "teg".

Mari buat indeks blog2 dengan penganalisis dan pemetaan, di mana analisis medan teg dilumpuhkan:

curl -XPOST "$ES_URL/blog2" -d'
{
  "settings": {
    "analysis": {
      "filter": {
        "ru_stop": {
          "type": "stop",
          "stopwords": "_russian_"
        },
        "ru_stemmer": {
          "type": "stemmer",
          "language": "russian"
        }
      },
      "analyzer": {
        "default": {
          "char_filter": [
            "html_strip"
          ],
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "ru_stop",
            "ru_stemmer"
          ]
        }
      }
    }
  },
  "mappings": {
    "post": {
      "properties": {
        "content": {
          "type": "string"
        },
        "published_at": {
          "type": "date"
        },
        "tags": {
          "type": "string",
          "index": "not_analyzed"
        },
        "title": {
          "type": "string"
        }
      }
    }
  }
}'

Mari tambah tiga catatan yang sama pada indeks ini (blog2). Saya akan melangkau proses ini, kerana ia serupa dengan menambah dokumen pada indeks blog.

Carian teks penuh dengan sokongan ekspresi

Mari kita berkenalan dengan jenis pertanyaan lain:

# Π½Π°ΠΉΠ΄Π΅ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… встрСчаСтся слово 'истории'
# query -> simple_query_string -> query содСрТит поисковый запрос
# ΠΏΠΎΠ»Π΅ title ΠΈΠΌΠ΅Π΅Ρ‚ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ 3
# ΠΏΠΎΠ»Π΅ tags ΠΈΠΌΠ΅Π΅Ρ‚ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ 2
# ΠΏΠΎΠ»Π΅ content ΠΈΠΌΠ΅Π΅Ρ‚ ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ 1
# ΠΏΡ€ΠΈΠΎΡ€ΠΈΡ‚Π΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€ΠΈ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ²
curl -XPOST "$ES_URL/blog2/post/_search?pretty" -d'
{
  "query": {
    "simple_query_string": {
      "query": "истории",
      "fields": [
        "title^3",
        "tags^2",
        "content"
      ]
    }
  }
}'

Memandangkan kami menggunakan penganalisis dengan berpunca bahasa Rusia, pertanyaan ini akan mengembalikan semua dokumen, walaupun ia hanya mengandungi perkataan 'sejarah'.

Pertanyaan mungkin mengandungi aksara khas, contohnya:

""fried eggs" +(eggplant | potato) -frittata"

Sintaks pertanyaan:

+ signifies AND operation
| signifies OR operation
- negates a single token
" wraps a number of tokens to signify a phrase for searching
* at the end of a term signifies a prefix query
( and ) signify precedence
~N after a word signifies edit distance (fuzziness)
~N after a phrase signifies slop amount
# Π½Π°ΠΉΠ΄Π΅ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π±Π΅Π· слова 'Ρ‰Π΅Π½ΠΊΠΈ'
curl -XPOST "$ES_URL/blog2/post/_search?pretty" -d'
{
  "query": {
    "simple_query_string": {
      "query": "-Ρ‰Π΅Π½ΠΊΠΈ",
      "fields": [
        "title^3",
        "tags^2",
        "content"
      ]
    }
  }
}'

# ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ 2 поста ΠΏΡ€ΠΎ ΠΊΠΎΡ‚ΠΈΠΊΠΎΠ²

rujukan

PS

Jika anda berminat dengan artikel tutorial yang serupa, mempunyai idea untuk artikel baharu atau mempunyai sebarang cadangan kerjasama, saya berbesar hati untuk mendengar daripada anda melalui mesej peribadi atau e-mel di m.kuzmin+habr@darkleaf.ru.

Sumber: www.habr.com

Beli pengehosan yang boleh dipercayai untuk tapak dengan perlindungan DDoS, pelayan VPS VDS πŸ”₯ Beli pengehosan laman web yang boleh dipercayai dengan perlindungan DDoS, pelayan VPS VDS | ProHoster