一、内置分析器

前面说过,每个被分析字段经过一系列的处理步骤:

1)字符过滤:使用字符过滤器转变字符。

2)文本切分为分词:将文本切分为单个或多个分词。

3)分词过滤:使用分词过滤器转变每个分词。

每个分析器基本上都要包含上面三个步骤至少一个。其中字符过滤器可以为0个,也可以为多个,分词器则必须,但是也只能有一个,分词过滤器可以为0个或者多个。Elasticsearch已经为我们内置了很多的字符过滤器、分词器和分词过滤器以及分析器。不过常用的就是那么几个。

1、字符过滤器Character filters

字符过滤器种类不多。elasticearch只提供了三种字符过滤器:

1.1、HTML字符过滤器HTML Strip Char Filter

从文本中去除HTML元素:

POST _analyze

{

  "tokenizer": "keyword",

  "char_filter": [

    "html_strip"

  ],

  "text": "<p>I'm so <b>happy</b>!</p>"

}

执行结果如下:

{

  "tokens" : [

    {

      "token" : """I'm so happy!""",

      "start_offset" : 0,

      "end_offset" : 27,

      "type" : "word",

      "position" : 0

    }

  ]

}

1.2、映射字符过滤器Mapping Char Filter

接收键值的映射,每当遇到与键相同的字符串时,它就用该键关联的值替换它们。

PUT pattern_test4

{

  "settings": {

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "tokenizer": "keyword",

          "char_filter": [

            "my_char_filter"

          ]

        }

      },

      "char_filter": {

        "my_char_filter": {

          "type": "mapping",

          "mappings": [

            "hankin => 666",

            "chj => 888"

          ]

        }

      }

    }

  }

}

上例中,我们自定义了一个分析器,其内的分词器使用关键字分词器,字符过滤器则是自定制的,将字符中的hankin替换为666,chj替换为888。进行测试:

POST pattern_test4/_analyze

{

  "analyzer": "my_analyzer",

  "text": " hankin就是chj,hankin只是英文名称!"

}

执行结果:

{

  "tokens" : [

    {

      "token" : " 666就是888,666只是英文名称!",

      "start_offset" : 0,

      "end_offset" : 26,

      "type" : "word",

      "position" : 0

    }

  ]

}

1.3、模式替换过滤器Pattern Replace Char Filter

使用正则表达式匹配并替换字符串中的字符。但要小心你写的糟糕的正则表达式,因为这可能导致性能变慢。比如:

POST _analyze

{

"analyzer": "standard",

"text": "My credit card is 123-456-789"

}

这样分词,会导致123-456-789被分为123、456、789,但是我们希望123-456-789 是一个整体,可以使用模式替换过滤器,替换掉“-”。

PUT pattern_test5

{

  "settings": {

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "tokenizer": "standard",

          "char_filter": [

            "my_char_filter"

          ]

        }

      },

      "char_filter": {

        "my_char_filter": {

          "type": "pattern_replace",

          "pattern": """(\d+)-(?=\d)""",

          "replacement": "$1_"

        }

      }

    }

  }

}

再次测试:

POST pattern_test5/_analyze

{

  "analyzer": "my_analyzer",

  "text": "My credit card is 123-456-789"

}

把数字中间的“-”替换为下划线“_”,这样的话可以让“123-456-789”作为一个整体,而不至于被分成123 456 789三部分。

2、分词器Tokenizer

2.1、标准分词器(standard)

标准分词器( standard tokenizer)是一个基于语法的分词器,对于大多数欧洲语言来说是不错的。它还处理了Unicode文本的切分。它也移除了逗号和句号这样的标点符号。

“I have, potatoes.”切分后的分词分别是” I” 、” have” 和” potatoes”。

2.2、关键词分词器(keyword)

关键词分词器( keyword tokenizer )是一种简单的分词器,将整个文本作为单个的分词,提供给分词过滤器。只想应用分词过滤器,而不做任何分词操作时,它可能非常有用。'Hi, there.' 唯一的分词是Hi, there。

2.3、字母分词器(letter)

字母分词器根据非字母的符号,将文本切分成分词。例如,对于句子“Hi,there."分词是Hi和there,因为逗号、空格和句号都不是字母。

2.4、小写分词器(lowercase)

小写分词器( lowercase tokenizer)结合了常规的字母分词器和小写分词过滤器(如你所想,它将整个分词转化为小写)的行为。通过1个单独的分词器来实现的主要原因是,2次进行两项操作会获得更好的性能。

'Hi, there.'分词是hi和 there。

2.5、空白分词器(whitespace)

空白分词器( whitespace tokenizer )通过空白来分隔不同的分词,空白包括空格、制表符、换行等。请注意,这种分词器不会删除任何标点符号,所以文本“Hi, there."的分词是Hi,和there.

2.6、模式分词器(pattern)

模式分词器( patterm tokenizer)允许指定一个任意的模式,将文本切分为分词。被指定的模式应该匹配间隔符号。例如,可以创建一个定制分析器,它在出现文本“. -.”的地方将分词断开。

2.7UAX URL电子邮件分词器(uax_url_email)

在处理英语单词的时候,标准分词器是非常好的选择。但是,当下存在不少以网站地址和电子邮件地址结束的文本。标准分析器可能在你未注意的地方对其进行了切分。例如,有一个电子邮件地址的样本 john.smith@example.com,用标准分词器分析它,切分后: 'john.smith@example.com'分词是john.smithexample.com

它同样将URL切分为不同的部分: 'http://example. com?q=foo'分词是 http、example.com、q和foo。UAX URL电子邮件分词器( UAX URL email tokenizer )将电子邮件和URL都作为单独的分词进行保留。

2.8、路径层次分词器(path_hierarchy)

路径层次分词器( path hierarchy tokenizer )允许以特定的方式索引文件系统的路径,这样在搜索时,共享同样路径的文件将被作为结果返回。例如,假设有一个文件名想要索引,看上去是这样的(/var/log/elasticsearch.log。路径层次分词器将其切分为: ' /usr/local/var/1og/elasticsearch. log' 分词是/usr、/usr/local、/usr/local/var、/usr/local/var/ log 和/usr/local/var/log/elasticsearch.1og。

这意味着,一个用户查询时,和上述文件共享同样路径层次(名字也是如此)的文件也会被匹配上。查询“/usr/local/var/log/es.log" 时,它和“/usr/local/var/log/elasticsearch.log" 拥有同样的分词,因此它也会被作为结果返回。

3、分词过滤器(Token filters

3.1、标准分词过滤器(standard

不要认为标准分词过滤器( standard token filter )进行了什么复杂的计算,实际上它什么事情也没做。

3.2、小写分词过滤器(lowercase

小写分词过滤器( lowercase token filter)只是做了这件事:将任何经过的分词转换为小写。这应该非常简单也易于理解。 

3.3、长度分词过滤器(length

长度分词过滤器(length token filter)将长度超出最短和最长限制范围的单词过滤掉。举个例子,如果将min设置为2,并将max设置为8,任何小于2个字符和任何大于8个字符的分词将会被移除。

3.4、停用词分词过滤器(stop

停用词分词过滤器(stop token fite)将停用词从分词流中移除。对于英文而言,这意味着停用词列表中的所有分词都将会被完全移除。用户也可以为这个过滤器指定一个待移除单词的列表。

什么是停用词?

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。

停用词(Stop Words)大致可分为如下两类: 

1)使用十分广泛,甚至是过于频繁的一些单词。

比如英文的“i”、“is”、“what”,中文的“我”、“就”之类词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率。因此,在真正的工作中,Google和百度等搜索引擎会忽略掉特定的常用词,在搜索的时候,如果我们使用了太多的停用词,也同样有可能无法得到非常精确的结果,甚至是可能大量毫不相关的搜索结果。

2)文本中出现频率很高,但实际意义又不大的词。

这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类。

下面是英文的默认停用词列表:

a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or;

such, that, the, their; then,there, these, they, this, to, was, will, with

系统内置的停止词如下: 

种语言中常见的停止词。这些内置的停止词如下:

_arabic_, - armenian_,_ basque,_ bengali 1,_ brazilian,_ bulgarian_,_ catalan _,_czech_,_ danish_,_dutch_,english_,finnish_, french_,_galician_,german_,_greek._hindi_,_ hungarian_,_ indonesian_,_ irish_,_ _italian_,_ latvian_,_norwegian_,_ persian_,_portuguese_,_ romanian_,_ russian_,-sorani_,- spanish_,_swedish_,_thai_,_turkish_等。

3.5、截断分词过滤器、修剪分词过滤器和限制分词数量过滤器

下面3个分词过滤器,通过某种方式限制分词流。

截断分词过滤器( truncate token filter )允许你通过定制配置中的length参数,截断超过一定长度的分词。默认截断多于10个字符的部分。

修剪分词过滤器( trim token filter )删除1个分词中的所有空白部分。例如,分词" foo "将被转变为分词foo。

限制分词数量分词过滤器(limit token count token filter)限制了某个字段可包含分词的最大数量。例如,如果创建了一个定制的分词数量过滤器,限制是8,那么分词流中只有前8个分词会被索引。这个设置使用max_ token_ count参数,默认是1 (只有1个分词会被索引)

4、常用内置分析器

4.1、标准分析器

当没有指定分析器的时候,标准分析器( standardanalyzer)是文本的默认分析器。它综合了对大多欧洲语言来说合理的默认模块,它没有字符过滤器,包括标准分词器、小写转换分词过滤器和停用词分词过滤器(默认为_none_,也就是不去除停止词)。这里只需要记住,如果不为某个字段指定分析器,那么该字段就会使用标准分析器。可配置的参数如下:

max_token_length:默认值255,表示词项最大长度,超过这个长度将按该长度分为多个词项。

Stopwords:默认值_none_,表示分析器使用的停止词数组,可使用内置停止词列表,比如_english_等。

stopwords_path:停止词文件路径。

4.2、简单分析器

简单分析器( simple analyzer)就是那么简单!它只使用了小写转换分词器,这意味着在非字母处进行分词,并将分词自动转变为小写。这个分析器对于亚洲语言来说效果不佳,因为亚洲语言不是根据空白来分词,所以请仅仅针对欧洲语言使用它。

4.3、空白分析器

空白分析器( whitespace analyzer )什么事情都不做,只是根据空白将文本切分为若干分词。 

4.4、停用词分析器

停用词分析器( stop analyzer )和简单分析器的行为很相像,只是在分词流中额外地过滤了停用词。 

4.5、关键词分析器

关键词分析器( keyword analyzer )将整个字段当作一个单独的分词。

4.6、模式分析器

模板分析器( pattern analyzer )允许你指定一个分词切分的模式。但是,由于可能无论如何都要指定模式,通常更有意义的做法是使用定制分析器,组合现有的模式分词器和所需的分词过滤器。 

4.7、雪球分析器

雪球分析器( snowball analyzer )除了使用标准的分词器和分词过滤器(和标准分析器一样),也使用了小写分词过滤器和停用词过滤器,它还使用了雪球词干器对文本进行词干提取。

5、自定义分析器

5.1、业务需求如下

去除所有的HTML标签&替换成and,使用一个自定义的mapping字符过滤器使用standard分词器分割单词,使用lowercase分词过滤器将词转为小写,用stop分词过滤器去除一些自定义停用词。

PUT pattern_custom

{

  "settings": {

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "char_filter": [

            "html_strip",

            "&_to_and"

          ],

          "filter": [

            "lowercase",

            "my_stopwords"

          ],

          "tokenizer": "standard",

          "type": "custom"

        }

      },

      "char_filter": {

        "&_to_and": {

          "mappings": [

            "&=>and"

          ],

          "type": "mapping"

        }

      },

      "filter": {

        "my_stopwords": {

          "stopwords": [

            "hankin",

            "Jason"

          ],

          "type": "stop"

        }

      }

    }

  }

}

5.2、测试验证:

POST pattern_custom/_analyze

{

  "analyzer": "my_analyzer",

  "text": "<br> I & Zacker & hankin & Jason are handsome<br>"

}

查询结果如下所示:

{

  "tokens" : [

    {

      "token" : "i",

      "start_offset" : 5,

      "end_offset" : 6,

      "type" : "<ALPHANUM>",

      "position" : 0

    },

    {

      "token" : "and",

      "start_offset" : 7,

      "end_offset" : 8,

      "type" : "<ALPHANUM>",

      "position" : 1

    },

    {

      "token" : "zacker",

      "start_offset" : 9,

      "end_offset" : 15,

      "type" : "<ALPHANUM>",

      "position" : 2

    },

    {

      "token" : "and",

      "start_offset" : 16,

      "end_offset" : 17,

      "type" : "<ALPHANUM>",

      "position" : 3

    },

    {

      "token" : "and",

      "start_offset" : 25,

      "end_offset" : 26,

      "type" : "<ALPHANUM>",

      "position" : 5

    },

    {

      "token" : "are",

      "start_offset" : 33,

      "end_offset" : 36,

      "type" : "<ALPHANUM>",

      "position" : 7

    },

    {

      "token" : "handsome",

      "start_offset" : 37,

      "end_offset" : 45,

      "type" : "<ALPHANUM>",

      "position" : 8

    }

  ]

}

不难发现,HTML标签没了,大写I变为了小写i,停用词hankin、Jason过滤掉了。

6、中文分析器

上面的分析器基本都是针对英文的,对中文的处理不是太好,比如:

POST _analyze

{

  "analyzer": "standard",

  "text": "我爱北京天安门!"

}

分析后的结果是:

{

  "tokens" : [

    {

      "token" : "我",

      "start_offset" : 0,

      "end_offset" : 1,

      "type" : "<IDEOGRAPHIC>",

      "position" : 0

    },

    {

      "token" : "爱",

      "start_offset" : 1,

      "end_offset" : 2,

      "type" : "<IDEOGRAPHIC>",

      "position" : 1

    },

    {

      "token" : "北",

      "start_offset" : 2,

      "end_offset" : 3,

      "type" : "<IDEOGRAPHIC>",

      "position" : 2

    },

    {

      "token" : "京",

      "start_offset" : 3,

      "end_offset" : 4,

      "type" : "<IDEOGRAPHIC>",

      "position" : 3

    },

    {

      "token" : "天",

      "start_offset" : 4,

      "end_offset" : 5,

      "type" : "<IDEOGRAPHIC>",

      "position" : 4

    },

    {

      "token" : "安",

      "start_offset" : 5,

      "end_offset" : 6,

      "type" : "<IDEOGRAPHIC>",

      "position" : 5

    },

    {

      "token" : "门",

      "start_offset" : 6,

      "end_offset" : 7,

      "type" : "<IDEOGRAPHIC>",

      "position" : 6

    }

  ]

}

Standard 分析器把中文语句拆分为一个个的汉字,并不是太适合。这时候,就需要中文分析器。

中文分析器有很多,例如cjk,ik等等,我们选用比较有名的ik作为我们的中文分析器。

6.1、安装中文分析器

1)下载elasticsearch-analysis-ik7.7.0

下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

2)在elasticsearch的plugins中新建文件夹ik,在ik文件夹中解压缩下载的压缩包,

mkdir ik

unzip elasticsearch-analysis-ik-7.7.0.zip

3)重启elasticsearch,成功

4)若发现报错,如下图所示,则请查看文件夹的权限不够,可通过chmod 777 –R 文件夹路径,赋予所有权限。另外elasticsearch版本和分词器的版本一定要一致

注意:如果是gz包方式部署的ES则可以使用下面这种方式安装:

进入elasticsearch目录下的plugins目录,并执行:

./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.7.0/elasticsearch-analysis-ik-7.7.0.zip

如果询问你Continue with installation?,当然继续进行,安装完成后,必须重启elasticsearch。

6.2、中文分析器的使用

IK分词器有两种分词效果,一种是ik_max_word(最大分词)和ik_smart(最小分词)。

6.2.1、ik_max_word最细粒度分词:

会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合。

POST _analyze

{

  "analyzer": "ik_max_word",

  "text": "中华人民共和国国歌"

}

分词效果如下:

{

  "tokens" : [

    {

      "token" : "中华人民共和国",

      "start_offset" : 0,

      "end_offset" : 7,

      "type" : "CN_WORD",

      "position" : 0

    },

    {

      "token" : "中华人民",

      "start_offset" : 0,

      "end_offset" : 4,

      "type" : "CN_WORD",

      "position" : 1

    },

    {

      "token" : "中华",

      "start_offset" : 0,

      "end_offset" : 2,

      "type" : "CN_WORD",

      "position" : 2

    },

    {

      "token" : "华人",

      "start_offset" : 1,

      "end_offset" : 3,

      "type" : "CN_WORD",

      "position" : 3

    },

    {

      "token" : "人民共和国",

      "start_offset" : 2,

      "end_offset" : 7,

      "type" : "CN_WORD",

      "position" : 4

    },

    {

      "token" : "人民",

      "start_offset" : 2,

      "end_offset" : 4,

      "type" : "CN_WORD",

      "position" : 5

    },

    {

      "token" : "共和国",

      "start_offset" : 4,

      "end_offset" : 7,

      "type" : "CN_WORD",

      "position" : 6

    },

    {

      "token" : "共和",

      "start_offset" : 4,

      "end_offset" : 6,

      "type" : "CN_WORD",

      "position" : 7

    },

    {

      "token" : "国",

      "start_offset" : 6,

      "end_offset" : 7,

      "type" : "CN_CHAR",

      "position" : 8

    },

    {

      "token" : "国歌",

      "start_offset" : 7,

      "end_offset" : 9,

      "type" : "CN_WORD",

      "position" : 9

    }

  ]

}

6.2.2、ik_smart粗粒度分词:

会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,使用方式和一般的分析器没有什么差别。

POST _analyze

{

  "analyzer": "ik_smart",

  "text": "中华人民共和国国歌"

}

分词结果:

{

  "tokens" : [

    {

      "token" : "中华人民共和国",

      "start_offset" : 0,

      "end_offset" : 7,

      "type" : "CN_WORD",

      "position" : 0

    },

    {

      "token" : "国歌",

      "start_offset" : 7,

      "end_offset" : 9,

      "type" : "CN_WORD",

      "position" : 1

    }

  ]

}

二、基于全文(match)的搜索

了解了文本分析以后,就可以学习基于全文的搜索了,这里就需要用到match系列查询。

 

1、match查询

比如说:

GET my_index/_search

{

  "query": {

    "match": {

      "message": {

        "elk": "Elasticsearch LogStash Kibana",

        "analyzer": "stop"

      }

    }

  }

}

查询字符串是“Elasticsearch LogStash Kibana”,被分析器分词之后,产生三个小写的单词:elasticsearch logstash kibana,然后根据分析的结果构造一个布尔查询,默认情况下,引擎内部执行的查询逻辑是:只要 elk字段值中包含有任意一个关键字elasticsearchlogStashkibana,那么返回该文档,相对于的伪代码是:if( doc. elk.contains(elasticsearch) ||doc. elk.contains(logstash) ||doc. elk.contains (kibana) ) return doc ;

匹配查询的行为受到两个参数的控制: 

operator表示单个字段如何匹配查询条件的分词。

minimum_should_match表示字段匹配的数量通过调整operator和minimum_should_match属性值,控制匹配查询的逻辑条件,进而控制引擎返回的结果。默认情况下operator的值是or,在构造查询时设置分词之间的逻辑运算符,如果设置为and,那么引擎内部执行的查询逻辑是:

if( doc. elk.contains(elasticsearch) &&doc. elk.contains(logstash) &&doc. elk.contains (kibana) ) return doc ;

对于minimum_should_match属性值,默认值是1,如果设置其值为2,表示分词必须匹配查询条件的数量为2,这意味着,只要文档的elk 字段包含任意两个关键字,就满足查询条件,但是如果文档中只有1个关键字,这个文档就不满足条件。注意先将logs日志样例数据添加到ES中。

 

比如:

POST /kibana_sample_data_logs/_search

{

  "query": {

    "match": {

      "message": "firefox chrome"

    }

  }

}

检索包含firefox或chrome的文档,如果改为:

POST /kibana_sample_data_logs/_search

{

  "query": {

    "match": {

      "message": {

        "query": "firefox chrome",

        "operator": "and"

      }

    }

  }

}

则不会有任何文档返回,因为没有文档的message字段既包含firefox又包含chrome。同样:

POST /kibana_sample_data_logs/_search

{

  "query": {

    "match": {

      "message": {

        "query": "firefox chrome",

        "minimum_should_match": 2

      }

    }

  }

}

也不会任何文档返回,原因也是一样的,因为没有文档的message字段既包含firefox又包含chrome。

2、multi_match查询

多个字段上执行匹配相同的查询,叫做"multi_match"查询。比如:

POST /kibana_sample_data_flights/_search

{

  "query": {

    "multi_match": {

      "query": "AT",

      "fields": [

        "DestCountry",

        "OriginCountry"

      ]

    }

  }

}

请求将同时检索文档中DestCountry和OriginCountry这两个字段,只要有一个字段包含AT词项该文档就满足查询条件。

3、match_phrase查询

当你希望寻找邻近的单词时,match_phrase查询可以帮你达到目的。比如:

假设我们要找到title字段包含这么一段文本“quick brown fox”的文档,然后我们用

GET /my_index/_doc/1

{

  "query": {

    "match_phrase": {

      "title": "quick brown fox"

    }

  }

}

match_phrase查询首先解析查询字符串来产生一个词条列表。然后会搜索所有的词条,但只保留包含了所有搜索词条的文档,并且词条的位置要邻接。但是对于

GET /my_index/_doc/1

{

  "query": {

    "match_phrase": {

      "title": "quick fox"

    }

  }

}

这个查询查询不会匹配我们的任何文档,因为没有文档含有邻接在一起的quick和fox词条。也就是说,匹配的文档必须满足:

1)quick、brown和fox必须全部出现在title字段中。

2)brown的位置必须比quick的位置大1。

3)fox的位置必须比quick的位置大2。

如果以上的任何一个条件没有被满足,那么文档就不能被匹配。

精确短语(Exact-phrase)匹配也许太过于严格了。也许我们希望含有"quick brown fox"的文档也能够匹配"quick fox"查询,即使位置并不是完全相等的。我们可以在短语匹配使用 slop 参数来引入一些灵活性:

GET /my_index/_doc/1

{

  "query": {

    "match_phrase": {

      "title": {

        "query": "quick fox",

        "slop": 1

      }

    }

  }

}

slop参数缺省为0,它告诉 match_phrase查询词条能够最远相隔多远时仍然将文档视为匹配。相隔多远的意思是,你需要移动一个词条多少次来让查询和文档匹配?比如这样一段文本:hello world, java is very good, spark is also very good.

使用match_phrase搜索java spark搜不到如果我们指定了slop,那么就允许java spark进行移动,来尝试与doc进行匹配

java is very good spark is java spark java

--> spark java

--> sparkjava

--> spark

上面展示了,当固定第一个term的时候,后面的teram经过移动直到匹配上搜索词的经过这个移动的次数就是slop,实际例子如下:

POST /kibana_sample_data_logs/_search

{

  "query": {

    "match_phrase": {

      "message": "firefox 6.0a1"

    }

  }

}

4、match_phrase_prefix查询

被称为基于前缀的短语匹配,比如:

{

"match_phrase_prefix" : {

"brand" : "johnnie walker bl"

}

}

这种查询的行为与match_phrase查询一致,不同的是它将查询字符串的最后一个词作为前缀使用,换句话说,可以将之前的例子看成如下这样:johnnie跟着walker跟着以bl开始的词或者可以干脆理解为:"johnnie walker bl*"与match_phrase一样,它也可以接受slop参数(参照slop)让相对词序位置不那么严格:

{

"match_phrase_prefix" : {

"brand" : {

"query": "walker johnnie bl",

"slop": 10 

}

}

}

prefix查询存在严重的资源消耗问题,短语查询的这种方式也同样如此。前缀a可能会匹配成千上万的词,这不仅会消耗很多系统资源,而且结果的用处也不大。可以通过设置max_expansions参数来限制前缀扩展的影响,一个合理的值是是50 ,这也是系统默认的值:

{

"match_phrase_prefix" : {

"brand" : {

"query":

"johnnie walker bl",

"max_expansions": 50

}

}

}

实际例子:

POST /kibana_sample_data_logs/_search

{

  "query": {

    "match_phrase_prefix": {

      "message": "firefox 6.0"

    }

  }

}

5、模糊查询、纠错与提示器

5.1、编辑距离算法

在Elasticsearch基于全文的查询中,除了与短语相关的查询以外,其余查询都包含有一个名为fuzziness的参数用于支持模糊查询。Elasticsearch支持的模糊查询与SQL语言中模糊查询还不一样,SQL的模糊查询使用“% keyword%"的形式,效果是查询字段值中包含keyword的记录。

Elaticsearch支持的模糊查询比这个要强大得多,它可以根据一个拼写错误的词项匹配正确的结果,例如根据firefix匹配firefox。在自然语言处理领域,两个词项之间的差异通常称为距离或编辑距离,距离的大小用于说明两个词项之间差异的大小。计算词项编辑距离的算法有多种,在Elasticsearch中主要使用LevenshteinNGram两种。其他与此相关的算法也都是在这两种算法基础上进行的改造,基本思想都是一致的。所以理解这两个算法的核心思想是学习这部分内容的关键。

5.2、编辑距离算法Levenshtein与NGram

5.2.1、Levenshein算法

Levenshein算法是前苏联数学家Vladimir Levenshein在1965年开发的一套算法, 这个算法可以对两个字符串的差异程度做量化。量化结果是一个正整数,反映的是一个字符申变成另一个字符串最少需要多少次的处理。由于Levenshtein算法是最为普遍接受的编辑距离算法,所以在很多文献中如果没有特殊说明编辑距离算法就是指Levenshtein算法。在Levenshtein算法中定义了三种字符操作,即替换、插人和删除,后来又由其他科学家补充了一个换位操作。在转换过程中,每执行次操作编辑距离就加1, 编辑距离越大越能说明两个字符串之间的差距大。

比如从firefix到firefox需要将“i"替换成“o”,所以编辑距离为1;而从fax到fair则需要将“x”替换为“i"并在结尾处插人“r”,所以编辑距离为2。显然在编辑距离相同的情况下,单词越长错误与正确就越接近。比如编辑距离同样为2的情况下,从fax到fair与从elascsearxh到elasticsearch,后者elastesearsh是由拼写错误引起的可能性就更大些。所以编辑距离这种量化标准一般还需要与单词长度结合起来考虑,在一些极端情况下编辑距离还应该设置为0,比如像at、on这类长度只有2的短单词。

5.2.2、NGram算法

NGram一般是指N个连续的字符,具体的字符个数被定义为NGram的size。size为1的NGram称为Unigram,size为2时称为Bigram,而size为3时则称为Trigram。如果NGram处理的单元不是字符而是单词,一般称之为Shingle。使用NGram 计算编辑距离的基本思路是让字符串分解为NGram,然后比较分解后共有NGram的数量。

假设有a、b两个字符申,则NGram距离的具体运算公式为:ngram( a )+ngram(b) -2 * ngram(a)∩ngram( b),公式中ngram(a)和 ngram(b)代表 a、b 两个字符串NGram的数量,ngram(a)∩ngram(b)则是两者共有NGram的数量。

例如按Bigram处理firefix和firefox两个单词,分别为“fi,ir,re, ef, fi,ix”和“fi,ir, re, ef, fi, ox"。那么两个字符申的Bigram个数都为6,而共有Bigram为4,则最终NGram距离为6+6-2x4=4。

在应用上,Levenshtein算法更多地应用于对单个词项的模糊查询上,而NGram则应用于多词项匹配中。Elasticseareh同时应用了两种算法。

5.3、模糊查询fuzzy

返回包含与搜索字词相似的字词文档;为了找到相似的术语,fuzzy查询将在指定的编辑距离内创建一组搜索词的所有可能的变体或扩展。查询然后返回每个扩展的完全匹配。

比如:

GET kibana_sample_data_logs/_search

{

  "query": {

    "fuzzy": {

      "message": {

        "value": "firefix",

        "fuzziness": "1"

      }

    }

  }

}

我们想找到文档中message字段包含firefox,而查询条件中给出的是firefix,因为两者的编辑距离为1,所以包含firefox的文档依然可以找到,但是,如果使用firefit,因为编辑距离为2,则不会找到任何文档。

相关的参数有:

  • value必填项,希望在 field 中找到的术语。
  • fuzziness选填项,匹配允许的最大编辑距离;可以被设置为0、1、2或auto。auto是推荐的选项,它会根据查询词的长度定义距离。
  • max_expansions选填项,创建的最大变体项,默认为50。应该避免使用较大的值,尤其是当prefix_length参数值为0时,如果过多会影响查找性能。
  • prefix_length选填项,创建扩展时保留不变的开始字符数。默认为0
  • transpositions选填项,指示编辑是否包括两个相邻字符串的转置(ab→ba),默认为true。

5.4、纠错与提示器

纠错是在用户提交了错误的词项时给出正确词项的提示,而输人提示则是在用户输人关键字时给出智能提示,甚至可以将用户未输人完的内容自动补全。大多数互联网搜索引擎都同时支持纠错和提示的功能,比如在用户提交了错误的搜索关键字时会提示:“你是不是想查找....”。而在用户输人搜索关键字时还能自动弹出提示框将用户可能要输人的内容全都列出来供用户选择。

Elasticsearch也同时支持纠错与提示功能,由于这两个功能从实现的角度来说并没有本质区别,所以它们都由一种被称为提示器或建议器( Suggester)的特殊检索实现。由于输人提示需要在用户输人的同时给出提示词,所以这种功能要求速度必须快,否则就失去了提示的意义。在实现上,输人提示是由单独的提示器完成。而在使用上,提示器则是通过检索接口_search的一个参数设置,例如:

POST /kibana_sample_data_logs/_search?filter_path=suggest

{

  "suggest": {

    "msg-suggest": {

      "text": "firefit chrom",

      "term": {

        "field": "message"

      }

    }

  }

}

在示例中,search接口的suggest参数中定义了一个提示msg- suggest,并通过text参数给出需要提示的内容。另一个参数term实际上是一种提示器的名称,它会分析text参数中的字符串并提取词项,再根据Levenshtein算法找到满足编辑距离的提示词项。所以在返回结果中会包含一个suguggest字段,其中列举了依照term提示器找到的提示词项:

 

Elaticearch提供了三种提示器,它们在本质上都是基于编辑距离算法,下面就来看看这此提示器如何使用。

5.5、term提示器

在示例中使用的提示器就是term提示器,这种提示器默认使用的算法是称为internal的编辑距离算法。intermal算法本质上就是Levenshtein算法,但根据Elasticsearch索引特征做了一些优化而效率更高,可以通过string _distance参数更改算法。

term提示器使用的编辑距离可通过max_ edits参数设置,默认值为2。

5.6、phrase提示器

terms会将需要提示的文本拆分成词项,然后对每一个词项做单独的提示,而phrase提示器则会使用整个文本内容做提示。所以在phrase提示器的返回结果中,不会看到一个词项一个词项的提示,而是针对整个短语的提示。但从使用的角度来看几乎是一样的,例如

POST /kibana_sample_data_logs/_search

{

  "suggest": {

    "msg-suggest": {

      "text": "firefix with chrime",

      "phrase": {

        "field": "message"

      }

    }

  }

}

展示结果:

 

但不要被phrase提示器返回结果欺骗,这个提示器在执行时也会对需要提示的文本内容做词项分析,然后再通过NGram算法计算整个短语的编辑距离。所以本质上来说,phrase提示是基于term提示器的提示器,同时使用了Levenshtein和NGram算法。

5.7、completion提示器

completion提示器一般应用于输入提示和自动补全,也就是在用户输入的同时给出提示或补全未输入内容。这就要求completion提示器必须在用户输人结束前快速地给出提示,所以这个提示器在性能上做了优化以达到快速检索的目的。

首先要求提示词产生的字段为completion类型,这是一种专门为completion提示器而设计的字段类型,它会在内存中创建特殊的数据结构以满足快速生成提示词的要求。例如在示例中创建了aricles索引,并向其中添加了1份文档:

PUT articles

{

  "mappings": {

    "properties": {

      "author": {

        "type": "keyword"

      },

      "content": {

        "type": "text"

      },

      "suggestions": {

        "type": "completion"

      }

    }

  }

}

POST articles/_doc/

{

  "author": "taylor",

  "content": "an introduction of elastic stack and elasticsearch",

  "suggestions": {

    "input": [

      "elastic stack",

      "elasticsearch"

    ],

    "weight": 10

  }

}

POST articles/_doc/

{

  "author": "taylor",

  "content": "an introduction of elastic stack and elasticsearch",

  "suggestions": [

    {

      "input": "elasticsearch",

      "weight": 30

    },

    {

      "input": "elastic stack",

      "weight": 1

    }

  ]

}

在向completion类型的字段添加内容时可以使用两个参数,input参数设置字段实际保存的提示词;而 weight参数则设置了这些提示词的权重,权重越高它在返回的提示词中越靠前。在示例5.7中给出了两种设置提示词权重的方式,第一种是将一组提示词的权重设置为统一值,另一种则是分开设置它们的权重值,需要注意的是,completion类型字段保存的提示词是不会分析词项的,比如示例5.7中的“elastic stack”并不会拆分成两个提示词,而是以整体出现在提示词列表中。

completion提示器专门用于输人提示或补全,它根据用户已经输人的内容提示完整词项,所以在completion提示器中没有text参数而是使用prefix参数。例如:

POST articles/_search

{

  "_source": "suggest",

  "suggest": {

    "article_suggestion": {

      "prefix": "ela",

      "completion": {

        "field": "suggestions"

      }

    }

  }

}

总结一下,term和phrase提示器主要用于纠错,term提示器用于对单个词项的纠错;而phrase提示器则主要针对短语做纠错。completion提示器是专门用于输入提示和自动补全的提示器,在使用上依赖前缀产生提示并且速度更快。

查看全文
如若内容造成侵权/违法违规/事实不符,请联系编程学习网邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

相关文章

  1. Percolation System

    小记: 此为普林斯顿大学在Coursera上开的算法课的第一周编程作业,主要是用Union-Find(并查集)来仿真渗透系统(Percolation System) 主要内容是写两个class:第一个class用来设计渗透系统,添加和描述系统的状态(open, isOpen, isFull, percolate),难点主要在open方法的的…...

    2024/4/17 1:44:15
  2. 数字图像处理学习一

    什么是数字图像处理 首先对于图像的定义,一副图像可以定义为一个二维函数f(x,y),其中x,y是对应坐标。而在这个值上面的幅值就是图像在这个点的强度或者灰度。而当这几个都是有限的离散数值时,称图像是数字图像。而其中,像素就是代表数字图像元素的术语。 数字图像处理的基本…...

    2024/4/23 23:27:13
  3. Java生鲜电商平台-API接口设计之token、timestamp、sign 具体设计与实现

    来源 |巨人大哥 说明:在实际的业务中,难免会跟第三方系统进行数据的交互与传递,那么如何保证数据在传输过程中的安全呢(防窃取)?除了https的协议之外,能不能加上通用的一套算法以及规范来保证传输的安全性呢?下面我们就来讨论下常用的一些API设计的安全方法,可能不一定…...

    2024/4/15 17:02:19
  4. 设计模式专题

    今天使用设计模式了吗1.请列举出在 JDK 中几个常用的设计模式?2.什么是设计模式?你是否在你的代码里面使用过任何设计模式?3.请用 Java 写出线程安全的单例模式4.在 Java 中,什么叫观察者设计模式(observer design pattern)?5.使用工厂模式最主要的好处是什么?在哪里使…...

    2024/5/4 20:57:45
  5. 【算法题】非负 int 型数据,二进制格式最高位 1 的位置

    比如对于 6,输出应该是 3(6 的二进制表示是 110);对于 1956,输出应该是 11(1956 的二进制表示是 11110100100)。1、O(n) 复杂度func IdxOfHighestOne(value int) int {var res = 0for value != 0 {res++value = value >> 1}return res }2、O(logn) 复杂度func Idx…...

    2024/4/22 17:48:19
  6. 算法练习——双指针解法

    两数之和 II - 输入有序数组 给定一个已按照升序排列的有序数组,找到两个数使得它们相加之和等于目标数。 函数应该返回这两个下标值 index1 和 index2,其中 index1 必须小于 index2。 说明: 返回的下标值(index1 和 index2)不是从零开始的。 你可以假设每个输入只对应唯一…...

    2024/4/19 2:59:12
  7. sizeof形参数组

    如下代码中,把数组作为函数参数时,函数中需要计算数组大小:void copy(int a[],int b[]) {memcpy(b,a,sizeof(a)); }这段代码的本意是将a中的所有字符拷贝到B中,但运行时会发现不能得到正确结果。因为当数组作为形参时,在函数内退化为指针,因此sizeof(a)返回的是指针的大…...

    2024/4/22 1:33:26
  8. C++学习之路----00

    在学习C++前,我们必须了解C++的一些基础概念: 1.C++跟大多数语言一样,区分大小写。 2.文件扩展名为cpp。 3.一般的程序大概包括以下元素: ①注解,一般由前缀//标识 ②预处理器编译指令#include ③函数头:int main() ④函数体,用{}括起来的部分 ⑤结束main()函数的ret…...

    2024/4/15 20:49:32
  9. html回到顶部

    代码如下:<body><div><img id="test" src="img/up.png"><script>test.onclick = function(){scrollTo(0,0);}</script></div></body>结果图:...

    2024/4/22 6:12:43
  10. Xamarin 相机总结 踩了一周坑,网上全都是copy无所适从,终于解决了。

    前一篇文章说过的部分就不重复了,前一篇文章说到,先申请权限,后能弹出系统相机,然后能看到个缩略图。接下来说重点。安卓6之后目录弹出软件不能直接使用指定路径,需要使用 FileProvider进行文件路径共享,网上的文章都说要在Mainfxxx.set里面加一段fileProvider相关的<…...

    2024/4/25 10:08:08
  11. 剑指 Offer 14- II. 剪绳子 II

    剑指 Offer 14- II. 剪绳子 II 难度:中等 题目描述解题思路 这道题和1的区别在于最后要取模,数字很大的时候求幂会溢出,直接取模结果就不对了。1里n的范围2 <= n <= 58,而这里最大会到1000 数字很大的时候求幂和取模都问题很大,解决方法一是把int型变量改成long,而…...

    2024/5/4 23:39:46
  12. Lua的闭包详解

    当一个函数内嵌套另一个函数的时候,内部的函数可以访问外部函数的局部变量,这种特征叫做词法定界。 lua当中函数是一个值,他可以存在变量中,可以作为其他函数的参数,可以作为返回值 function test()local i=0return function()i++...endend//这里的函数作为返回值,这里的i…...

    2024/4/8 3:27:00
  13. HBase1.2 RegionServer莫名其妙挂掉 (CDH5.16.1)

    前言: HBase 是CDH5.16.1 自带的 HBase1.2 的版本1 问题点:regionServer运行几个小时就莫名挂掉 最近刚在CDH中安装完HBase,一切配置都使用默认,但是regionServer 总是跑几个小时就挂掉,并且没什么规律,随机挂,任何日志都没有记录明显错误,最终参考一个博客之后,解决 …...

    2024/4/28 21:29:52
  14. Spring 工厂方法

    学习自 https://www.bilibili.com/video/BV1Gt411N7HF 真的很适合初学者,强推 静态工场方法 entity类 public class Car {private long id;private String name;public long getId() {return id;}public void setId(long id) {this.id = id;}public String getName() {return …...

    2024/4/20 6:20:21
  15. 国内Centos镜像网站

    阿里云:http://mirrors.aliyun.com/centos/ 北京电子电信工程:http://mirrors.pubyun.com/centos/ 盛大云 :http://mirrors.hust.edu.cn/centos/ 华中科技:http://mirror.neu.edu.cn/centos/ 网易:http://mirrors.163.com/centos/ 腾讯:https://mirrors.cloud.tencent.co…...

    2024/4/9 0:56:48
  16. [网络安全学习篇1]:windowsxp、windows2003、windows7、windows2008系统部署(千峰网络安全视频笔记)

    https://blog.csdn.net/weixin_43252204/article/details/105338224#%E9%83%A8%E7%BD%B2windows2003%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%B3%BB%E7%BB%9F...

    2024/4/24 3:30:56
  17. 2020 TwoSum

    - 题目描述 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 来源:LeetCode(https://leetcode-cn.com/problems/two-sum) - 示例…...

    2024/5/4 14:19:54
  18. 杰里之PR2口待机电压多大以及部分芯片会被击穿 怎么修改

    PR2 待机电压只有2.0V TRCVDD电压 待机为2.0V...

    2024/4/26 10:25:22
  19. Redis Desktop Manager中出现\xAC\xED\x00\x05t\x00乱码问题

    问题 最近在使用Redis Tmeplate保存到Redis过程中出现了,以\xAC\xED\x00\x05t\x00\x12开头的乱码问题,具体如下图:原因 其实就是,下面两个Redis配置注解不在主包名下面,导致Redis Template初始化设置没有生效,还有一个原因就是使用了默认的序列化方式。 @EnableCaching @…...

    2024/5/3 6:45:43
  20. 直播系统源码fresco webp动图只播放一次

    概述 本文适合类似于以下这些需求: 1.要求webp动图播放一遍后就暂停 2.要求webp动图播放一遍后就消失 3.要求webp动图播放一遍后做其他逻辑 具体实现 1.在ControllerListener中将Animatable对象转化成AnimatedDrawable2 2.通过AnimatedDrawable2获取到webp的总帧数 3.每执行一…...

    2024/4/9 0:56:44

最新文章

  1. 基于改进暗原色先验和颜色校正的水下图像增强,Matlab实现

    博主简介&#xff1a; 专注、专一于Matlab图像处理学习、交流&#xff0c;matlab图像代码代做/项目合作可以联系&#xff08;QQ:3249726188&#xff09; 个人主页&#xff1a;Matlab_ImagePro-CSDN博客 原则&#xff1a;代码均由本人编写完成&#xff0c;非中介&#xff0c;提供…...

    2024/5/5 2:54:31
  2. 梯度消失和梯度爆炸的一些处理方法

    在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言&#xff0c;在此感激不尽。 权重和梯度的更新公式如下&#xff1a; w w − η ⋅ ∇ w w w - \eta \cdot \nabla w ww−η⋅∇w 个人通俗的理解梯度消失就是网络模型在反向求导的时候出…...

    2024/3/20 10:50:27
  3. [C++][算法基础]模拟队列(数组)

    实现一个队列&#xff0c;队列初始为空&#xff0c;支持四种操作&#xff1a; push x – 向队尾插入一个数 x&#xff1b;pop – 从队头弹出一个数&#xff1b;empty – 判断队列是否为空&#xff1b;query – 查询队头元素。 现在要对队列进行 M 个操作&#xff0c;其中的每…...

    2024/5/5 0:14:29
  4. JVM学习笔记

    文章目录 一、内存模型1. 程序计数器2. 栈3. 本地方法栈4. 堆5. 方法区方法区位置字符串常量池位置 6. 直接内存 二、虚拟机参数设置三、类的生命周期1. 加载2. 连接1&#xff09;验证2&#xff09;准备3&#xff09;解析 3. 初始化4. 卸载 四、类加载器1. 启动类加载器2. 扩展…...

    2024/5/1 13:33:02
  5. 416. 分割等和子集问题(动态规划)

    题目 题解 class Solution:def canPartition(self, nums: List[int]) -> bool:# badcaseif not nums:return True# 不能被2整除if sum(nums) % 2 ! 0:return False# 状态定义&#xff1a;dp[i][j]表示当背包容量为j&#xff0c;用前i个物品是否正好可以将背包填满&#xff…...

    2024/5/4 12:05:22
  6. 【Java】ExcelWriter自适应宽度工具类(支持中文)

    工具类 import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.ss.usermodel.CellType; import org.apache.poi.ss.usermodel.Row; import org.apache.poi.ss.usermodel.Sheet;/*** Excel工具类** author xiaoming* date 2023/11/17 10:40*/ public class ExcelUti…...

    2024/5/4 11:23:32
  7. Spring cloud负载均衡@LoadBalanced LoadBalancerClient

    LoadBalance vs Ribbon 由于Spring cloud2020之后移除了Ribbon&#xff0c;直接使用Spring Cloud LoadBalancer作为客户端负载均衡组件&#xff0c;我们讨论Spring负载均衡以Spring Cloud2020之后版本为主&#xff0c;学习Spring Cloud LoadBalance&#xff0c;暂不讨论Ribbon…...

    2024/5/4 14:46:16
  8. TSINGSEE青犀AI智能分析+视频监控工业园区周界安全防范方案

    一、背景需求分析 在工业产业园、化工园或生产制造园区中&#xff0c;周界防范意义重大&#xff0c;对园区的安全起到重要的作用。常规的安防方式是采用人员巡查&#xff0c;人力投入成本大而且效率低。周界一旦被破坏或入侵&#xff0c;会影响园区人员和资产安全&#xff0c;…...

    2024/5/4 23:54:44
  9. VB.net WebBrowser网页元素抓取分析方法

    在用WebBrowser编程实现网页操作自动化时&#xff0c;常要分析网页Html&#xff0c;例如网页在加载数据时&#xff0c;常会显示“系统处理中&#xff0c;请稍候..”&#xff0c;我们需要在数据加载完成后才能继续下一步操作&#xff0c;如何抓取这个信息的网页html元素变化&…...

    2024/5/4 12:10:13
  10. 【Objective-C】Objective-C汇总

    方法定义 参考&#xff1a;https://www.yiibai.com/objective_c/objective_c_functions.html Objective-C编程语言中方法定义的一般形式如下 - (return_type) method_name:( argumentType1 )argumentName1 joiningArgument2:( argumentType2 )argumentName2 ... joiningArgu…...

    2024/5/4 23:54:49
  11. 【洛谷算法题】P5713-洛谷团队系统【入门2分支结构】

    &#x1f468;‍&#x1f4bb;博客主页&#xff1a;花无缺 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 花无缺 原创 收录于专栏 【洛谷算法题】 文章目录 【洛谷算法题】P5713-洛谷团队系统【入门2分支结构】&#x1f30f;题目描述&#x1f30f;输入格…...

    2024/5/4 23:54:44
  12. 【ES6.0】- 扩展运算符(...)

    【ES6.0】- 扩展运算符... 文章目录 【ES6.0】- 扩展运算符...一、概述二、拷贝数组对象三、合并操作四、参数传递五、数组去重六、字符串转字符数组七、NodeList转数组八、解构变量九、打印日志十、总结 一、概述 **扩展运算符(...)**允许一个表达式在期望多个参数&#xff0…...

    2024/5/4 14:46:12
  13. 摩根看好的前智能硬件头部品牌双11交易数据极度异常!——是模式创新还是饮鸩止渴?

    文 | 螳螂观察 作者 | 李燃 双11狂欢已落下帷幕&#xff0c;各大品牌纷纷晒出优异的成绩单&#xff0c;摩根士丹利投资的智能硬件头部品牌凯迪仕也不例外。然而有爆料称&#xff0c;在自媒体平台发布霸榜各大榜单喜讯的凯迪仕智能锁&#xff0c;多个平台数据都表现出极度异常…...

    2024/5/4 14:46:11
  14. Go语言常用命令详解(二)

    文章目录 前言常用命令go bug示例参数说明 go doc示例参数说明 go env示例 go fix示例 go fmt示例 go generate示例 总结写在最后 前言 接着上一篇继续介绍Go语言的常用命令 常用命令 以下是一些常用的Go命令&#xff0c;这些命令可以帮助您在Go开发中进行编译、测试、运行和…...

    2024/5/4 14:46:11
  15. 用欧拉路径判断图同构推出reverse合法性:1116T4

    http://cplusoj.com/d/senior/p/SS231116D 假设我们要把 a a a 变成 b b b&#xff0c;我们在 a i a_i ai​ 和 a i 1 a_{i1} ai1​ 之间连边&#xff0c; b b b 同理&#xff0c;则 a a a 能变成 b b b 的充要条件是两图 A , B A,B A,B 同构。 必要性显然&#xff0…...

    2024/5/5 2:25:33
  16. 【NGINX--1】基础知识

    1、在 Debian/Ubuntu 上安装 NGINX 在 Debian 或 Ubuntu 机器上安装 NGINX 开源版。 更新已配置源的软件包信息&#xff0c;并安装一些有助于配置官方 NGINX 软件包仓库的软件包&#xff1a; apt-get update apt install -y curl gnupg2 ca-certificates lsb-release debian-…...

    2024/5/4 21:24:42
  17. Hive默认分割符、存储格式与数据压缩

    目录 1、Hive默认分割符2、Hive存储格式3、Hive数据压缩 1、Hive默认分割符 Hive创建表时指定的行受限&#xff08;ROW FORMAT&#xff09;配置标准HQL为&#xff1a; ... ROW FORMAT DELIMITED FIELDS TERMINATED BY \u0001 COLLECTION ITEMS TERMINATED BY , MAP KEYS TERMI…...

    2024/5/4 12:39:12
  18. 【论文阅读】MAG:一种用于航天器遥测数据中有效异常检测的新方法

    文章目录 摘要1 引言2 问题描述3 拟议框架4 所提出方法的细节A.数据预处理B.变量相关分析C.MAG模型D.异常分数 5 实验A.数据集和性能指标B.实验设置与平台C.结果和比较 6 结论 摘要 异常检测是保证航天器稳定性的关键。在航天器运行过程中&#xff0c;传感器和控制器产生大量周…...

    2024/5/4 13:16:06
  19. --max-old-space-size=8192报错

    vue项目运行时&#xff0c;如果经常运行慢&#xff0c;崩溃停止服务&#xff0c;报如下错误 FATAL ERROR: CALL_AND_RETRY_LAST Allocation failed - JavaScript heap out of memory 因为在 Node 中&#xff0c;通过JavaScript使用内存时只能使用部分内存&#xff08;64位系统&…...

    2024/5/4 16:48:41
  20. 基于深度学习的恶意软件检测

    恶意软件是指恶意软件犯罪者用来感染个人计算机或整个组织的网络的软件。 它利用目标系统漏洞&#xff0c;例如可以被劫持的合法软件&#xff08;例如浏览器或 Web 应用程序插件&#xff09;中的错误。 恶意软件渗透可能会造成灾难性的后果&#xff0c;包括数据被盗、勒索或网…...

    2024/5/4 14:46:05
  21. JS原型对象prototype

    让我简单的为大家介绍一下原型对象prototype吧&#xff01; 使用原型实现方法共享 1.构造函数通过原型分配的函数是所有对象所 共享的。 2.JavaScript 规定&#xff0c;每一个构造函数都有一个 prototype 属性&#xff0c;指向另一个对象&#xff0c;所以我们也称为原型对象…...

    2024/5/4 2:00:16
  22. C++中只能有一个实例的单例类

    C中只能有一个实例的单例类 前面讨论的 President 类很不错&#xff0c;但存在一个缺陷&#xff1a;无法禁止通过实例化多个对象来创建多名总统&#xff1a; President One, Two, Three; 由于复制构造函数是私有的&#xff0c;其中每个对象都是不可复制的&#xff0c;但您的目…...

    2024/5/4 23:54:30
  23. python django 小程序图书借阅源码

    开发工具&#xff1a; PyCharm&#xff0c;mysql5.7&#xff0c;微信开发者工具 技术说明&#xff1a; python django html 小程序 功能介绍&#xff1a; 用户端&#xff1a; 登录注册&#xff08;含授权登录&#xff09; 首页显示搜索图书&#xff0c;轮播图&#xff0…...

    2024/5/4 9:07:39
  24. 电子学会C/C++编程等级考试2022年03月(一级)真题解析

    C/C++等级考试(1~8级)全部真题・点这里 第1题:双精度浮点数的输入输出 输入一个双精度浮点数,保留8位小数,输出这个浮点数。 时间限制:1000 内存限制:65536输入 只有一行,一个双精度浮点数。输出 一行,保留8位小数的浮点数。样例输入 3.1415926535798932样例输出 3.1…...

    2024/5/4 14:46:02
  25. 配置失败还原请勿关闭计算机,电脑开机屏幕上面显示,配置失败还原更改 请勿关闭计算机 开不了机 这个问题怎么办...

    解析如下&#xff1a;1、长按电脑电源键直至关机&#xff0c;然后再按一次电源健重启电脑&#xff0c;按F8健进入安全模式2、安全模式下进入Windows系统桌面后&#xff0c;按住“winR”打开运行窗口&#xff0c;输入“services.msc”打开服务设置3、在服务界面&#xff0c;选中…...

    2022/11/19 21:17:18
  26. 错误使用 reshape要执行 RESHAPE,请勿更改元素数目。

    %读入6幅图像&#xff08;每一幅图像的大小是564*564&#xff09; f1 imread(WashingtonDC_Band1_564.tif); subplot(3,2,1),imshow(f1); f2 imread(WashingtonDC_Band2_564.tif); subplot(3,2,2),imshow(f2); f3 imread(WashingtonDC_Band3_564.tif); subplot(3,2,3),imsho…...

    2022/11/19 21:17:16
  27. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机...

    win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”问题的解决方法在win7系统关机时如果有升级系统的或者其他需要会直接进入一个 等待界面&#xff0c;在等待界面中我们需要等待操作结束才能关机&#xff0c;虽然这比较麻烦&#xff0c;但是对系统进行配置和升级…...

    2022/11/19 21:17:15
  28. 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...

    有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows&#xff0c;请勿关闭计算机”的提示&#xff0c;要过很久才能进入系统&#xff0c;有的用户甚至几个小时也无法进入&#xff0c;下面就教大家这个问题的解决方法。第一种方法&#xff1a;我们首先在左下角的“开始…...

    2022/11/19 21:17:14
  29. win7 正在配置 请勿关闭计算机,怎么办Win7开机显示正在配置Windows Update请勿关机...

    置信有很多用户都跟小编一样遇到过这样的问题&#xff0c;电脑时发现开机屏幕显现“正在配置Windows Update&#xff0c;请勿关机”(如下图所示)&#xff0c;而且还需求等大约5分钟才干进入系统。这是怎样回事呢&#xff1f;一切都是正常操作的&#xff0c;为什么开时机呈现“正…...

    2022/11/19 21:17:13
  30. 准备配置windows 请勿关闭计算机 蓝屏,Win7开机总是出现提示“配置Windows请勿关机”...

    Win7系统开机启动时总是出现“配置Windows请勿关机”的提示&#xff0c;没过几秒后电脑自动重启&#xff0c;每次开机都这样无法进入系统&#xff0c;此时碰到这种现象的用户就可以使用以下5种方法解决问题。方法一&#xff1a;开机按下F8&#xff0c;在出现的Windows高级启动选…...

    2022/11/19 21:17:12
  31. 准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...

    有不少windows10系统用户反映说碰到这样一个情况&#xff0c;就是电脑提示正在准备windows请勿关闭计算机&#xff0c;碰到这样的问题该怎么解决呢&#xff0c;现在小编就给大家分享一下windows10系统提示正在准备windows请勿关闭计算机的具体第一种方法&#xff1a;1、2、依次…...

    2022/11/19 21:17:11
  32. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”的解决方法...

    今天和大家分享一下win7系统重装了Win7旗舰版系统后&#xff0c;每次关机的时候桌面上都会显示一个“配置Windows Update的界面&#xff0c;提示请勿关闭计算机”&#xff0c;每次停留好几分钟才能正常关机&#xff0c;导致什么情况引起的呢&#xff1f;出现配置Windows Update…...

    2022/11/19 21:17:10
  33. 电脑桌面一直是清理请关闭计算机,windows7一直卡在清理 请勿关闭计算机-win7清理请勿关机,win7配置更新35%不动...

    只能是等着&#xff0c;别无他法。说是卡着如果你看硬盘灯应该在读写。如果从 Win 10 无法正常回滚&#xff0c;只能是考虑备份数据后重装系统了。解决来方案一&#xff1a;管理员运行cmd&#xff1a;net stop WuAuServcd %windir%ren SoftwareDistribution SDoldnet start WuA…...

    2022/11/19 21:17:09
  34. 计算机配置更新不起,电脑提示“配置Windows Update请勿关闭计算机”怎么办?

    原标题&#xff1a;电脑提示“配置Windows Update请勿关闭计算机”怎么办&#xff1f;win7系统中在开机与关闭的时候总是显示“配置windows update请勿关闭计算机”相信有不少朋友都曾遇到过一次两次还能忍但经常遇到就叫人感到心烦了遇到这种问题怎么办呢&#xff1f;一般的方…...

    2022/11/19 21:17:08
  35. 计算机正在配置无法关机,关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机...

    关机提示 windows7 正在配置windows 请勿关闭计算机 &#xff0c;然后等了一晚上也没有关掉。现在电脑无法正常关机以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;关机提示 windows7 正在配…...

    2022/11/19 21:17:05
  36. 钉钉提示请勿通过开发者调试模式_钉钉请勿通过开发者调试模式是真的吗好不好用...

    钉钉请勿通过开发者调试模式是真的吗好不好用 更新时间:2020-04-20 22:24:19 浏览次数:729次 区域: 南阳 > 卧龙 列举网提醒您:为保障您的权益,请不要提前支付任何费用! 虚拟位置外设器!!轨迹模拟&虚拟位置外设神器 专业用于:钉钉,外勤365,红圈通,企业微信和…...

    2022/11/19 21:17:05
  37. 配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”,长时间没反应,无法进入系统的解决方案...

    前几天班里有位学生电脑(windows 7系统)出问题了&#xff0c;具体表现是开机时一直停留在“配置windows update失败 还原更改 请勿关闭计算机”这个界面&#xff0c;长时间没反应&#xff0c;无法进入系统。这个问题原来帮其他同学也解决过&#xff0c;网上搜了不少资料&#x…...

    2022/11/19 21:17:04
  38. 一个电脑无法关闭计算机你应该怎么办,电脑显示“清理请勿关闭计算机”怎么办?...

    本文为你提供了3个有效解决电脑显示“清理请勿关闭计算机”问题的方法&#xff0c;并在最后教给你1种保护系统安全的好方法&#xff0c;一起来看看&#xff01;电脑出现“清理请勿关闭计算机”在Windows 7(SP1)和Windows Server 2008 R2 SP1中&#xff0c;添加了1个新功能在“磁…...

    2022/11/19 21:17:03
  39. 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...

    许多用户在长期不使用电脑的时候&#xff0c;开启电脑发现电脑显示&#xff1a;配置windows更新失败&#xff0c;正在还原更改&#xff0c;请勿关闭计算机。。.这要怎么办呢&#xff1f;下面小编就带着大家一起看看吧&#xff01;如果能够正常进入系统&#xff0c;建议您暂时移…...

    2022/11/19 21:17:02
  40. 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...

    配置windows update失败 还原更改 请勿关闭计算机&#xff0c;电脑开机后一直显示以以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;配置windows update失败 还原更改 请勿关闭计算机&#x…...

    2022/11/19 21:17:01
  41. 电脑配置中请勿关闭计算机怎么办,准备配置windows请勿关闭计算机一直显示怎么办【图解】...

    不知道大家有没有遇到过这样的一个问题&#xff0c;就是我们的win7系统在关机的时候&#xff0c;总是喜欢显示“准备配置windows&#xff0c;请勿关机”这样的一个页面&#xff0c;没有什么大碍&#xff0c;但是如果一直等着的话就要两个小时甚至更久都关不了机&#xff0c;非常…...

    2022/11/19 21:17:00
  42. 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...

    当电脑出现正在准备配置windows请勿关闭计算机时&#xff0c;一般是您正对windows进行升级&#xff0c;但是这个要是长时间没有反应&#xff0c;我们不能再傻等下去了。可能是电脑出了别的问题了&#xff0c;来看看教程的说法。正在准备配置windows请勿关闭计算机时间长了方法一…...

    2022/11/19 21:16:59
  43. 配置失败还原请勿关闭计算机,配置Windows Update失败,还原更改请勿关闭计算机...

    我们使用电脑的过程中有时会遇到这种情况&#xff0c;当我们打开电脑之后&#xff0c;发现一直停留在一个界面&#xff1a;“配置Windows Update失败&#xff0c;还原更改请勿关闭计算机”&#xff0c;等了许久还是无法进入系统。如果我们遇到此类问题应该如何解决呢&#xff0…...

    2022/11/19 21:16:58
  44. 如何在iPhone上关闭“请勿打扰”

    Apple’s “Do Not Disturb While Driving” is a potentially lifesaving iPhone feature, but it doesn’t always turn on automatically at the appropriate time. For example, you might be a passenger in a moving car, but your iPhone may think you’re the one dri…...

    2022/11/19 21:16:57