Skip to content

My Text_Search project for data processing using Java

Notifications You must be signed in to change notification settings

ArturAntonov/TextSearch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TextSearch

My Text_Search project for data processing using Java

My first serious app for text searching, fuzzy search. Моя проба пера в боласти поисковых систем и fuzzy search. Данное приложение работает пока что только в консоли. В этом приложении я постарался реализовать полученные мной знания в области поисковых технологий. Создание индекса, токенизация, поиск по ключевым запросам, ранжирование, ведение диалога с оператором для более лучших результатов.

Данная система была разработана для реальной обработки данных в нашей команде. На вход пустали опросники от сотрудников компании, где мы ведем проект. Из этих опросников необходимо было получить информацию об установленном программном обеспечении, сверить с нашей базой ивзестного ПО, выделить лица, у которых есть неизвестное ПО. Движок поисковой системы я делал сам.

В некоторой мере система работает. Производится поиск, учтены "незначащие" слова из опросника, выдается результат поиска довольно таки правильный. Косяки в том, что сотрудники в опроснике записывают зачастую названия ПО так, как им захочется. Что-то я смог учесть. Что-то нет.

Созданное мной решение не идеальное. Не хватает прямой работы с экселевскими файлами. Сейчас я работаю с .csv файлами как с текстовыми. На хватает обновления словаря "на лету". Не хватает точности в определении названий.

Однако, если учесть объемы опросников, и время обработки этим скриптом, то даже при таком уровне точности выигрыш по времени обработки очевиден.

В планах изменить это приложение на работу с apache Lucene.

About

My Text_Search project for data processing using Java

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages