pip
下载加速:-i
+ 以下链接
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学 https://pypi.mirrors.ustc.edu.cn/simple/
阿里云 https://mirrors.aliyun.com/pypi/simple/
豆瓣(douban) https://pypi.douban.com/simple/
翻译数据地址: /mnt/server67/database/forged_sourcedata
变量 m / mp
前缀一般代表什么含义?
readfile.h
中 CReadFile
类,read()
方法中的 while
循环判断结尾不是 \n
是何意?
tools.h
: 82行
全局变量何解?
static void split_1(const wstring& str, vector<wstring>& tokens, wstring delimiter = L" ")
{
wstring ss = str;
tokens.clear();
while(ss.find_first_of(delimiter) != wstring::npos)
{
int beg = ss.find_first_of(delimiter);
int len = delimiter.length();
wstring subss = ss.substr(0,beg);
if(subss.length() > 0 )
{
tokens.push_back(subss);
if(beg+len < ss.length()){ss = ss.substr(beg+len);}
else{ss= L"";break;}
}
else
{
if(beg+len < ss.length()){ss = ss.substr(beg+len);}
else{ss= L"";break;}
}
}
if(tokens.size() > 0 && ss != L"")
{
tokens.push_back(ss);
}
}
https://www.b2bers.com/big5/language/spokenen/spokenen.html
與老外溝通的40招 已完成
https://www.poemlife.com/forum.php?mod=viewthread&tid=989053&extra=page%3D1&page=1
https://enclub.com/
https://chinese.despertandome.com/
https://www.dedyy.com/swyy/
http://kan.iask.sina.com.cn/area/North-America.html
https://china.legalbusinessonline.com/news-list
源数据(ja.deduped
)
清洗前数据:ja.deduped
:174G
保留数据:ja.deduped.out
:158G
丢弃数据:ja.deduped.out.discard
:16G
注:清洗后数据所在位置为 /mnt/server142/weigf/clean_data_1
- 空行
- 没有日语的行
- 含有
"
“
《
(
(
[
«
的总个数,与含有"
”
》
)
)
]
»
的总个数不相等的行
- 删除了行首和行尾的空格
源数据(ja.deduped
)
清洗前数据:ja.deduped
:174G
保留数据:ja.deduped.out
:152G
丢弃数据:ja.deduped.out.discard
:22G
注:清洗后数据所在位置为 /mnt/server142/weigf/clean_data_2
- 主要针对第一次清洗的第 3 个条件,通过观察,扩大了成对符号的范围,扩大后的范围为:
"
“
《
(
(
[
«
【
「
『
和"
”
》
)
)
]
»
】
」
』
。
上述筛掉数据的第 3 个条件我们是通过总个数来筛选的,这样的话有的数据是筛不掉的,如:
筛【数)据
;虽然左开
的符号和右开
的符号总数相等,但是左开和右开的符号并不能匹配筛)数(据
;总数相等,符号匹配,但是符号的位置不匹配(出现顺序不匹配)- 其它与第 3 个筛选条件无关的问题(待发现)
下次清洗数据就直接拿第二次清洗后的保留数据进行清洗了。
第二次清洗后保留的数据(ja.deduped.out
)
清洗前数据:ja.deduped.out
:152G
保留数据:ja.deduped.out.out
:151G
丢弃数据:ja.deduped.out.out.discard
:1.5G
注:清洗后数据所在位置为 /mnt/server142/weigf/clean_data_3
- 针对上面提到的 3 个问题,主要解决了前两点等与前后匹配相关的问题
通过栈模拟,逐句遍历,严格筛掉了前后不匹配的行
第三次清洗后保留的数据(ja.deduped.out.out
)
清洗前数据:ja.deduped.out.out
:151G
保留数据:ja.deduped.out.out.out
:143G
丢弃数据:ja.deduped.out.out.out.discard
:7.4G
注:清洗后数据所在位置为 /mnt/server142/weigf/clean_data_4
- 以
,
或,
或:
或:
或、
结尾的行 <
与>
不匹配的行