Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

キーワードに関する質問 #246

Closed
johiroshi opened this issue Jan 14, 2016 · 9 comments
Closed

キーワードに関する質問 #246

johiroshi opened this issue Jan 14, 2016 · 9 comments

Comments

@johiroshi
Copy link
Contributor

キーワードで検索した際に、語句が勝手に分割されてしまうのは、検索のライブラリか何かの仕様なのでしょうか。

「日本国憲法」で検索したが、「日本国」という記事もヒットしてしまっている(2件目)

keyword_test

よろしくお願いします。

@koda-masaru
Copy link
Contributor

上記の結果は、検索の仕様です。

詳細に書くと以下のようになると思います。

検索は、日本語の形態素解析という技術でキーワードを抽出して、そのキーワードで検索します。
上記の例ですと、「日本国」と「憲法」というキーワードになるかと思います。

検索はこのような「形態素解析」を使った検索と、「N-gram」を使った検索のどちらかを選択できます。
それで、今のところはKnowledgeでは「形態素解析」の検索を採用しています。

ちなみに、「日本国憲法」で検索した場合、「日本国」が入らないようにしたい場合、「N-gram」方式を使うか、キーワード辞書に「日本国憲法」を登録するかどちらかになります。

検索について、以下のサイトが参考になります。

http://gihyo.jp/dev/serial/01/make-findspot/0006

わたしとしては、形態素解析を使った検索の方が良いと思っていたのですが、N-gram方式の方が良いでしょうか?どちらの一長一短なんですよね。。。

ちなみに、Google検索も形態素解析方式だと思います。
例えば、Googleで「オープンソースの情報共有ツールで良いものない?」と入力して検索できます。この場合、「オープンソース」「情報共有」「ツール」「良い」「もの」あたりがキーワードになるかと思います。

@johiroshi
Copy link
Contributor Author

御返事ありがとうございます。
やっぱり仕様ですよね。

うーん、個人的には形態素解析で良いと思います。形態素解析の方が、取りこぼしも無さそうですし。

この件に限定すれば、たとえばGoogle検索のオプション機能のように、ダブル・クォーテーションで囲えばそのキーワードで検索できる、みたいな機能が提供できれば、良いですよね。

ダブル・クォーテーションで検索

double_quotation_search

とは言え、この件も求めすぎかもしれません。。。

@koda-masaru
Copy link
Contributor

たしかに、「ダブル・クォーテーションで囲えばそのキーワードで検索できる」と良いですね。
利用している検索エンジンのLuceneでそのような事は、たぶんできると思うので、後で調べてみますね。

https://lucene.apache.org/core/

@johiroshi
Copy link
Contributor Author

@koda-masaru お返事大変遅れてしまい、ごめんなさい。お手すきの際にお願いします。

@koda-masaru
Copy link
Contributor

非常に遅くなってしまったのですが、以下が対応済です。

  • 検索で「日本国憲法」と入力すると「日本国」と「憲法」の2つにヒットする
  • 検索で「"日本国憲法"」と入力すると、「日本国憲法」の文字に完全一致しないとヒットしない

すでに、「ダブル・クォーテーションで囲えばそのキーワードで検索できる」になっています。
(デモサイトで、「日本国憲法」と「"日本国憲法"」で検索して結果を確認できます。)

@koda-masaru koda-masaru added this to the v1.5 milestone Jul 21, 2016
@johiroshi
Copy link
Contributor Author

お世話になっております。

時期をみてアップデートして確かめてみます。どうもありがとうございます!

Issueは確認後にCloseしますね。

@koda-masaru
Copy link
Contributor

Release v1.5.0 にてリリース済

@johiroshi
Copy link
Contributor Author

@koda-masaru さん

ありがとうございます。
ローカルと、デモサイトの2箇所で確認したのですが、少々気になる挙動がありましたのでご報告します。

キーワードの間に「/」などを入れると、適切な順序で表示されない

キーワード検索->"日本国憲法"

タイトルを「日本国/憲法」として、検索キーワードに「"日本国憲法"」とした時、本文に「日本国憲法」とある記事よりもタイトルに「日本国/憲法」とある記事の方が上に来てしまう。

私の環境下では「貸出/返却」という語句を用いている際に気がつきました。

一般的に、タイトルの方が記事本文より重要度が高いという傾向を考えたときに、タイトルに「日本国/憲法」とある記事が上位に来るのは自然だと思うのですが、少し気になったので報告しておきます。

default

@koda-masaru koda-masaru modified the milestones: v1.7, v1.5 Oct 5, 2016
@koda-masaru koda-masaru modified the milestones: Candidate, v1.7 Dec 11, 2016
@koda-masaru
Copy link
Contributor

↑の問題は、検索エンジンの仕様になっています。
利用している検索エンジン(Apache Lucene)のバージョンが古くなっているのでバージョンアップしてみて、動作を確認しようと思います。

#925 を登録し、そちれで様子をみようと思います。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants