wudao数据集的下载预处理脚本问题 #42

skepsun · 2023-05-09T04:11:32Z

首先是下载链接我试了自己账号申请的链接无法下载，只能用scidb的链接，不需要登录，然后用curl下载老是出错（下完了文件md5不一致，也没法解压），就换成了wget，终于下载成功。我用的下载代码是（没有循环）：

wget -v -c 'https://download.scidb.cn/download?fileId=63a30383fed6a8a9e8454302&dataSetType=organization&fileName=WuDaoCorporaText-2.0-open.rar' -O data/WuDaoCorpus2.0_base_200G.rar

然后解压的命令没有指定保存路径，如果是在项目根目录运行这个sh文件的话会解压到根目录里（Open-LLama/WuDaoCorpus2.0_base_200G/）。需要将其移到data文件里，或者修改data/preprocess_wudao.py里的路径。
另外pile真的很难下（还得翻墙）……

The text was updated successfully, but these errors were encountered:

s-JoL · 2023-05-09T06:43:08Z

感谢对下载数据集部分的建议，这个下载方法看起来不错，我已经加到了readme里并且@你了。我用了循环是因为wudao那个链接不太稳定，每下载1G会中断，不得不加个循环不断的继续下载才行。

curl和wget可能是处理redirect有区别，在下载instruct数据集的时候也有几个用curl下载不了的。

unrar没指定路径的问题，刚刚更新了。

skepsun closed this as completed May 9, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wudao数据集的下载预处理脚本问题 #42

wudao数据集的下载预处理脚本问题 #42

skepsun commented May 9, 2023

s-JoL commented May 9, 2023 •

edited

Loading

wudao数据集的下载预处理脚本问题 #42

wudao数据集的下载预处理脚本问题 #42

Comments

skepsun commented May 9, 2023

s-JoL commented May 9, 2023 • edited Loading

s-JoL commented May 9, 2023 •

edited

Loading