Add SpacyTagger class and usage in NameDetector

hellohaptik · ashutoshsingh0223 · Dec 8, 2020 · Nov 4, 2020 · Nov 5, 2020 · Nov 5, 2020
commit f28d8fd2db64522c8d7752bd3a1c9c3cc90204ac
diff --git a/language_utilities/constant.py b/language_utilities/constant.py
@@ -12,5 +12,10 @@
 MALAYALAM_LANG = 'ml'
 PUNJABI_LANG = 'pa'
 
+SPANISH_LANG = 'es'
+DUTCH_LANG = 'nl'
+FRENCH_LANG = 'fr'
+GERMAN_LANG = 'de'
+
 # language translation status
 TRANSLATED_TEXT = 'translated_text'
diff --git a/lib/nlp/spacy_utils.py b/lib/nlp/spacy_utils.py
@@ -0,0 +1,28 @@
+import six
+from lib.singleton import Singleton
+from language_utilities.constant import ENGLISH_LANG, SPANISH_LANG, DUTCH_LANG, GERMAN_LANG, FRENCH_LANG
+
+# import spacy
+
+
+# class SpacyTagger(six.with_metaclass(Singleton, object)):
+#     def __init__(self):
+#         self.spacy_language_to_model = {
+#             ENGLISH_LANG: {'name': 'en_core_web_sm', 'model': None},
+#             GERMAN_LANG: {'name': 'de_core_news_sm', 'model': None},
+#             FRENCH_LANG: {'name': 'fr_core_news_sm', 'model': None},
+#             DUTCH_LANG: {'name': 'nl_core_news_sm', 'model': None},
+#             SPANISH_LANG: {'name': 'es_core_news_sm', 'model': None}
+#         }
+#
+#     def tag(self, text, language):
+#         spacy_model_name = self.spacy_language_to_model[language]['name']
+#         nlp = self.spacy_language_to_model[language]['model']
+#         if not nlp:
+#             nlp = spacy.load(spacy_model_name, disable=['parser', 'ner'])
+#         spacy_doc = nlp(text)
+#         tokens = []
+#         for spacy_token in spacy_doc:
+#             token = (spacy_token.text, spacy_token.tag)
+#             tokens.append(token)
+#         return tokens
diff --git a/ner_v1/detectors/textual/name/name_detection.py b/ner_v1/detectors/textual/name/name_detection.py
@@ -5,7 +5,7 @@
 
 from language_utilities.constant import ENGLISH_LANG, HINDI_LANG
 from lib.nlp.const import nltk_tokenizer
-from lib.nlp.pos import POS
+from lib.nlp.pos import POS #,SpacyTagger
 from ner_v1.constant import DATASTORE_VERIFIED, MODEL_VERIFIED
 from ner_v1.constant import EMOJI_RANGES, FIRST_NAME, MIDDLE_NAME, LAST_NAME
 from ner_v1.detectors.textual.name.hindi_const import (INDIC_BADWORDS, INDIC_QUESTIONWORDS,
@@ -110,17 +110,26 @@ def get_name_using_pos_tagger(self, text):
         """
 
         entity_value, original_text = [], []
-        pos_tagger_object = POS()
-        name_tokens = text.split()
-        # Passing empty tokens to tag will cause IndexError
-        tagged_names = pos_tagger_object.tag(name_tokens)
+
+        if self.language == ENGLISH_LANG:
+            pos_tagger_object = POS()
+            name_tokens = text.split()
+            # Passing empty tokens to tag will cause IndexError
+            tagged_names = pos_tagger_object.tag(name_tokens)
+
+        else:
+            pass
+            # spacy_tagger = SpacyTagger()
+            # tagged_names = spacy_tagger.tag(text=text.strip(), language=self.language)
+
+        num_tokens = len(tagged_names)
 
         is_question = [word[0] for word in tagged_names if word[1].startswith('WR') or
                        word[1].startswith('WP') or word[1].startswith('CD')]
         if is_question:
             return entity_value, original_text
 
-        if len(name_tokens) < 4 and self.bot_message:
+        if num_tokens < 4 and self.bot_message:
             pos_words = [word[0] for word in tagged_names if word[1].startswith('NN') or
                          word[1].startswith('JJ')]
             if pos_words: