Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Improve text summarization by loading language-specific stopwords #61

Open
vadimadr opened this issue Nov 15, 2021 · 0 comments
Open

Improve text summarization by loading language-specific stopwords #61

vadimadr opened this issue Nov 15, 2021 · 0 comments

Comments

@vadimadr
Copy link

Thanks for an amazing project!

Seems like newspaper3k does not detect the language of the paper by default to fetch appropriate stop-words
(see https://github.com/codelucas/newspaper/blob/f622011177f6c2e95e48d6076561e21c016f08c3/newspaper/article.py#L372)
Since summarization algo is extremely sensitive to extracted keywords, the quality of the summary can be improved by loading list of keywords manually. It can be accomplished by simply putting

newspaper.nlp.load_stopwords("ru")

in scripts/update.py

For example
Before:

В Лондоне выставят на аукцион первый известный документ о первой российской кампании по вакцинации — письмо Екатерины II о необходимости при
вивок от черной оспы.
Екатерина II первой в России привилась от оспы.
Это произошло в октябре 1768 года — в разгар эпидемии болезни в России и Европе.
Вот два графика, которые это доказывают В Западной Европе (как и в России) растет заболеваемость ковидом.
Вот два графика, которые это доказывают В Западной Европе (как и в России) растет заболеваемость ковидом.

After:

В Лондоне выставят на аукцион первый известный документ о первой российской кампании по вакцинации — письмо Екатерины II о необходимости прививок от черной оспы.
Речь идет о письме императрицы к генералу-фельдмаршалу графу Петру Румянцеву, которое было написано во время путешествия Екатерины II в Крым.
В тексте она объясняет, как организовать вакцинацию от черной оспы на государственному уровне, поскольку без нее жителям страны грозит «великий вред особливо в простом народе».
Письмо Екатерины II выставят на торги общим лотом с портретом императрицы работы художника Дмитрия Левицкого 1 декабря.
Последняя вспышка натуральной или черной оспы была зафиксирована и ликвидирована в Сомали в 1977 году.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant