-
Notifications
You must be signed in to change notification settings - Fork 936
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于域名分类数据的讨论 #28
Comments
我觉得我这个倡议不利于执行的一点在于目前 举例来说该项目已经有一个 netease 的分类数据,今天我再去做一个 category-mooc-cn 的分类数据,study.163.com 域名我是加还是不加? 那如果要把上述的几点都抓全,就势必得接受分类后的域名互相之间存在重叠的问题——我担心这个重叠以后会越发展越厉害,而 geosite.dat 无谓的肥大也许会影响匹配效率、肯定会影响更新用时、说不定会妨碍在单片机上玩 v2ray 的用户流畅体验。 |
当初 另外,
域名去重的问题,我晚点处理。 |
同意这一句,所以先收集再分类好了,已经分类的就保留。 |
一些提议:何种情况下某主题应建立其列表:
列表名称:
例如 列表格式:
例如:
欢迎各位提出建议。 |
如果我们以中国大陆境内用户作参考. 如果以接入点 IP 分类大致可以分成如下 4 种情况:
也有可能存在其他情况, 例如中国 DNS 解析出境外 IP 但境外 DNS 解析出中国 IP. 1 和 2 如何分类没什么问题, 但 3 和 4 我们应当如何处理? 因为每一个用户处理 DNS 解析的方式都不同, 且用户的需求不同. 3 和 4 分类有误的话可能会造成不同的问题. 如果以公司主体所属国家分类大致可以分成如下 4 种情况:
2 和 3 我们应当如何分类? |
无论连接点情况如何,都应该包含在其公司列表中,并且根据 #91 的讨论结果,使用
不太熟悉“某些公司对不同 IP 的用户提供不同的服务内容”这种使用场景。但如此前回复,我曾设想本项目应允许添加子域名,并使用评论和标签区分不同服务,以针对服务选择对应的路由规则。如 在 domain-list-community/data/apple-dev Lines 6 to 15 in cb6080a
如今我建议,默认包含在
与第3种情况相同,并且不额外包含在 |
在维护域名分类的时候我还是遇到了一些问题,我认为有必要讨论一下。 根据 #91 可以为域名提供 root@debian~# dig i0.hdslb.com.cdn20.com @8.8.8.8
; <<>> DiG 9.16.8-Debian <<>> i0.hdslb.com.cdn20.com @8.8.8.8
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 59254
;; flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 1
;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
;; QUESTION SECTION:
;i0.hdslb.com.cdn20.com. IN A
;; ANSWER SECTION:
i0.hdslb.com.cdn20.com. 59 IN A 157.185.146.132
;; Query time: 20 msec
;; SERVER: 8.8.8.8#53(8.8.8.8)
;; WHEN: Sun Dec 13 09:12:00 UTC 2020
;; MSG SIZE rcvd: 67 某中国境内机器 -> 境内IP root@ubuntu:~$ dig i0.hdslb.com.cdn20.com @223.5.5.5
; <<>> DiG 9.16.1-Ubuntu <<>> i0.hdslb.com.cdn20.com @223.5.5.5
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 21956
;; flags: qr rd ra; QUERY: 1, ANSWER: 8, AUTHORITY: 0, ADDITIONAL: 0
;; QUESTION SECTION:
;i0.hdslb.com.cdn20.com. IN A
;; ANSWER SECTION:
i0.hdslb.com.cdn20.com. 56 IN A 218.1.70.82
i0.hdslb.com.cdn20.com. 56 IN A 115.223.11.151
i0.hdslb.com.cdn20.com. 56 IN A 59.63.80.118
i0.hdslb.com.cdn20.com. 56 IN A 115.223.12.46
i0.hdslb.com.cdn20.com. 56 IN A 58.221.32.29
i0.hdslb.com.cdn20.com. 56 IN A 59.54.253.76
i0.hdslb.com.cdn20.com. 56 IN A 122.228.237.75
i0.hdslb.com.cdn20.com. 56 IN A 58.222.45.12
;; Query time: 15 msec
;; SERVER: 223.5.5.5#53(223.5.5.5)
;; WHEN: 日 12月 13 17:23:00 CST 2020
;; MSG SIZE rcvd: 168
同样的域名DNS给出的解析分别来自境外和境内,在这种情况下仅仅添加 针对这样的域名,我们无法从域名来确定最好的接入方式。最好是交由本地的DNS来解析,仅通过路由规则来进行分类。 不知道大家对这个问题有什么样的看法? |
只对域名分类,不表达该如何使用 |
我理解要维持主要分类方法的必要性,但显然我们遇到了一些问题。 目前针对一部分域名只单纯的按照单一地理位置分类无法准确的生成路由。 比如: 中国银行系列的网站
目前版本中对于这两个域名的处理方法只有
这样的处理显然是有一些问题的。 #256 提出了这样的解决方案
但是似乎目前没有实装,并且其实无法处理CDN上遇到的问题。 就像我之前提到的例子一样。
这或许对大陆用户是合乎常理的选择,但是境外用户在生成使用路由的时候,就只能放弃境外的接入点绕回大陆的接入点。
处理
我认为如果这样处理的话对于生成路由是非常有帮助的,后续如果要考虑兼容更多的用法也会比较有利,所以我觉得不妨来讨论一下。 |
多(混合)属性是个很好的方向,虽然目前不清楚对性能的影响,但值得一试 |
我们需要选一些标签名 |
性能方面的话,我是认为产生的开销都在生成路由的时候,处理一个 而且导出的时候也可以加上命令行参数只生成具有某种attr的路由,所以性能我觉得应该不是一个大问题。 我这边的话是建议
如果要考虑兼容GFWList之类的用法,也可以考虑加上
|
支持多(混合)属性。 然后引用资源就可以成这样了 pb 的country_code分类也可以去除了,只保留 attr 标签。反正现在分类已经不是country code了。这样其他程序使用资源也方便了。
除了载入时会稍微慢一点点,(理论上会,但实际上无法察觉),运行时性能应该不会有格外影响。 |
I think these several attributes are good enough. And we need manpower to apply these attributes to the rules. |
只有1个域名的文件应当合并到同一个文件,当超过规定数量(e.g. 5)即分离到独立文件。
|
root@ubuntu:~$ dig i0.hdslb.com.cdn20.com @223.5.5.5 ; <<>> DiG 9.16.1-Ubuntu <<>> i0.hdslb.com.cdn20.com @223.5.5.5 ;; QUESTION SECTION: ;; ANSWER SECTION: ;; Query time: 15 msec |
[ ] maryooho |
geolocation-cn
文件里有这么一段话:这下面的域名没有分类,只是按照字典序排列在一起,其实是非常不利于利用和维护的。
首先很多时候数个域名其实都归属于同一个平台,硬按照字典序打乱了夹在其他域名中间——不利于阅读分析,且在这个服务/平台下线的时候可能会删不干净,这是维护上的困难(本来这么庞大的列表就应该包含了很多访问量极小的站点,里面有些站也许只是昙花一现)
其次现在
@attr
还没有得到充分的应用,未来如果这个数据库进一步扩展,那这里提到的未分类域名都将非常不适合就地添加上@attr
(试想当你只想屏蔽某一特定平台的广告,结果这个平台的域名放在了geolocation-cn
下,和其他被打了@ads
属性的未分类域名混在一起)——这是利用上的困难所以我觉得让
geolocation-cn
下尽量多一些include:
,少一些未分类域名,是最好的发展方向——而这就是我希望拿出来讨论的点了,因为其实就在刚才我的一个 PR#25 才得到了滥用分类的评价,所以这里一定是有协作者之间的看法差异的。希望能早点讨论出一个共识,避免在需要拐弯的时候给已经十分庞大的历史遗留问题进一步「添砖加瓦」。
The text was updated successfully, but these errors were encountered: