Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何屏蔽“小搭百科网”? #50

Closed
bcaso opened this issue Sep 25, 2021 · 10 comments
Closed

如何屏蔽“小搭百科网”? #50

bcaso opened this issue Sep 25, 2021 · 10 comments

Comments

@bcaso
Copy link

bcaso commented Sep 25, 2021

小搭百科网的真实地址是 https://g.penzai.com/

但是其有数十个,.com, .buzz 域名,全部重定向到 https://g.penzai.com/

目前发现的域名有:

一个个的手动添加太烦索,且说不定他注册的域名不久后就被“正常的”所用了,还造成了误屏蔽。

求支招。

@xcsnowcity
Copy link

我也发现了,搜索结果里经常出来这玩意

@tjsky
Copy link
Contributor

tjsky commented Sep 28, 2021

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

@bcaso
Copy link
Author

bcaso commented Sep 29, 2021

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

经测试,这条规则在搜索 intitle:"小搭百科网" 时,没有效果,小搭百科网还在。

image

用这个规则可以:title/小.百科网/

搜索结果直接消失了:
image

点击 Show后显示这条规规会把所有包含 《小X科百科网》的都屏蔽掉。

image

猜测,title 的具体用法:title/正则表达式/, 只作用于搜索结果的标题而非链接地址。

在插件中也有说明:
image

三种屏蔽方式:
(1)* 通配符
(2)/正则表达式/
(3)title/正则表达式/

@tjsky
Copy link
Contributor

tjsky commented Sep 29, 2021

我这样写规则,是因为:
我需要屏蔽的是,当搜索一个问题时,看到这些小X百科网的结果。
_20212129112114
这种情况下这些小X百科网会被索引到的标题是 《相关关键词 - 小X百科网》类似下图
_20211229111233
所以规则被设定为监测【文字 - 小X百科网】类似这样结构标题的网页,从而在日常搜索时可以得到如下图的搜索结果
_20212329112300

而当你去限定网页标题为“小X百科网”时,这样确实是无效的,我不认为这种情况需要被屏蔽,这些结果只会在直接搜名字时才会出现,应该没人会直接搜这些抓取站的名字
_20211329111310

@tjsky
Copy link
Contributor

tjsky commented Sep 29, 2021

写规则的思路就是上边的这个思路,
你的理解是没有错的title/针对网页标题的正则表达式/
设定为过滤所有含有《小X百科网》这5个字的网页的话,规则会有些宽泛,
本着最小化封锁范围的原则,我写成了title/.* - 小.百科网/

@tjsky
Copy link
Contributor

tjsky commented Sep 29, 2021

好吧,我发现这些百科网,还有个分身叫《小X知识网》
规则还是写成title/.* - 小.(百科|知识)网/或者title/小.(百科|知识)网/更好一点

@tjsky
Copy link
Contributor

tjsky commented Sep 29, 2021

他们还有另一种被索引网页标题的特征:
16-20字符(一个汉字是2字符)_16-20字符_16-20字符
我测试用这个特征去屏蔽,但是存在误伤。
title/.{8,20}_.{8,20}_.{8,20}/

@Nihosijie
Copy link

以前都是ublocklist手动加入黑名单,今天怒而找规则,希望有用。

@cobaltdisco
Copy link
Owner

感谢 @tjsky 提供规则,目前已经更新上。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants