日语单语数据

LaTeX学习手册：

pip

pip 下载加速：-i + 以下链接

清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

中国科学技术大学 https://pypi.mirrors.ustc.edu.cn/simple/

阿里云  https://mirrors.aliyun.com/pypi/simple/

豆瓣(douban) https://pypi.douban.com/simple/

基础30讲例题、习题

0、公式

1、高等数学预备知识

2、数列极限

3、函数极限与连续性

4、一元函数微分学的概念与计算

5、一元函数微分学的几何应用

6、中值定理

7、零点问题与微分不等式

8、一元函数积分学的概念与计算

9、一元函数积分学的几何应用

10、积分等式与积分不等式

11、多元函数微分学

12、二重积分

13、常微分方程（多元微积分的应用）

15、数一、数二专题内容

翻译数据地址： /mnt/server67/database/forged_sourcedata

疑问

变量 m / mp 前缀一般代表什么含义？

readfile.h 中 CReadFile 类，read() 方法中的 while 循环判断结尾不是 \n 是何意？

tools.h ： 82行 全局变量何解？

static void split_1(const wstring& str, vector<wstring>& tokens, wstring delimiter = L" ")
{
    wstring ss = str;
    tokens.clear();
    while(ss.find_first_of(delimiter) != wstring::npos)
    {
        int beg = ss.find_first_of(delimiter);
        int len = delimiter.length();
        wstring subss = ss.substr(0,beg);
        if(subss.length() > 0 )
        {
            tokens.push_back(subss);
            if(beg+len < ss.length()){ss = ss.substr(beg+len);}
            else{ss= L"";break;}
        }
        else
        {
            if(beg+len < ss.length()){ss = ss.substr(beg+len);}
            else{ss= L"";break;}
        }
    }
    if(tokens.size() > 0 && ss != L"")
    {
        tokens.push_back(ss);
    }
}

爬虫

https://www.b2bers.com/big5/language/spokenen/spokenen.html
與老外溝通的40招		已完成
https://www.poemlife.com/forum.php?mod=viewthread&tid=989053&extra=page%3D1&page=1
https://enclub.com/
https://chinese.despertandome.com/

https://www.dedyy.com/swyy/
http://kan.iask.sina.com.cn/area/North-America.html
https://china.legalbusinessonline.com/news-list

日语单语数据

第一次清洗

清洗对象：

源数据（ja.deduped）

清洗结果：

清洗前数据：ja.deduped：174G

保留数据：ja.deduped.out：158G

丢弃数据：ja.deduped.out.discard：16G

注：清洗后数据所在位置为 /mnt/server142/weigf/clean_data_1

筛掉的数据特征：

空行
没有日语的行
含有" “ 《 ( （ [ «的总个数，与含有 " ” 》 ) ） ] » 的总个数不相等的行

留下的数据做了一点微小处理：

删除了行首和行尾的空格

第二次清洗

清洗对象：

源数据（ja.deduped）

清洗结果：

清洗前数据：ja.deduped：174G

保留数据：ja.deduped.out：152G

丢弃数据：ja.deduped.out.discard：22G

注：清洗后数据所在位置为 /mnt/server142/weigf/clean_data_2

相对第一次做了微小修改：

主要针对第一次清洗的第 3 个条件，通过观察，扩大了成对符号的范围，扩大后的范围为：" “ 《 ( （ [ « 【 「 『 和 " ” 》 ) ） ] » 】 」 』 。

问题分析

上述筛掉数据的第 3 个条件我们是通过总个数来筛选的，这样的话有的数据是筛不掉的，如：

筛【数)据；虽然 左开 的符号和 右开 的符号总数相等，但是左开和右开的符号并不能匹配
筛）数（据；总数相等，符号匹配，但是符号的位置不匹配（出现顺序不匹配）
其它与第 3 个筛选条件无关的问题（待发现）

下次清洗数据就直接拿第二次清洗后的保留数据进行清洗了。

第三次清洗

清洗对象：

第二次清洗后保留的数据（ja.deduped.out）

清洗结果：

清洗前数据：ja.deduped.out：152G

保留数据：ja.deduped.out.out：151G

丢弃数据：ja.deduped.out.out.discard：1.5G

注：清洗后数据所在位置为 /mnt/server142/weigf/clean_data_3

洗掉的数据特征：

针对上面提到的 3 个问题，主要解决了前两点等与前后匹配相关的问题

解决方法：

通过栈模拟，逐句遍历，严格筛掉了前后不匹配的行

第四次清洗

清洗对象：

第三次清洗后保留的数据（ja.deduped.out.out）

清洗结果：

清洗前数据：ja.deduped.out.out：151G

保留数据：ja.deduped.out.out.out：143G

丢弃数据：ja.deduped.out.out.out.discard：7.4G

注：清洗后数据所在位置为 /mnt/server142/weigf/clean_data_4

洗掉的数据特征：

以 , 或 ， 或 : 或 ： 或 、 结尾的行
< 与 > 不匹配的行

Name		Name	Last commit message	Last commit date
Latest commit History 152 Commits
LaTeX手册		LaTeX手册
Linux配置/home		Linux配置/home
PDF下载		PDF下载
extract		extract
pctest		pctest
python3		python3
代理IP		代理IP
信息检索与论文写作		信息检索与论文写作
六级资料		六级资料
加速器脚本		加速器脚本
基础30讲例题、习题		基础30讲例题、习题
操作系统		操作系统
期末复习		期末复习
机器翻译		机器翻译
爬虫课件完整版本(HTML版本)		爬虫课件完整版本(HTML版本)
职业技能大赛		职业技能大赛
计算机网络		计算机网络
CNAME		CNAME
Linux命令记录.md		Linux命令记录.md
README.md		README.md
ja2zh.md		ja2zh.md
剑指Offer.md		剑指Offer.md
工具.txt		工具.txt

Wegoon/Notes

Folders and files

Latest commit

History

Repository files navigation

目录

LaTeX学习手册：

pip

基础30讲例题、习题

疑问

爬虫

日语单语数据

第一次清洗

清洗对象：

清洗结果：

筛掉的数据特征：

留下的数据做了一点微小处理：

第二次清洗

清洗对象：

清洗结果：

相对第一次做了微小修改：

问题分析

第三次清洗

清洗对象：

清洗结果：

洗掉的数据特征：

解决方法：

第四次清洗

清洗对象：

清洗结果：

洗掉的数据特征：

About

Resources

Stars

Watchers

Forks

Languages