w4096
diff --git a/‎.gitignore‎
Lines changed: 3 additions & 1 deletion b/‎.gitignore‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎README.md‎
Lines changed: 117 additions & 84 deletions b/‎README.md‎
Lines changed: 117 additions & 84 deletions
diff --git a/‎cnn/README.md‎
Lines changed: 20 additions & 0 deletions b/‎cnn/README.md‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎model.py‎ renamed to ‎cnn/model.py‎
Lines changed: 3 additions & 3 deletions b/‎model.py‎ renamed to ‎cnn/model.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎data.py‎
Lines changed: 1 addition & 0 deletions b/‎data.py‎
Lines changed: 1 addition & 0 deletions
@@ -1 +1,3 @@
-/datasets
+/datasets
+.ipynb_checkpoints/
+__pycache__/
@@ -1,84 +1,117 @@
-## Text-CNN
-
-使用 PyTorch 实现 [Convolutional Neural Networks for Sentence Classification](https://arxiv.org/pdf/1408.5882.pdf) 中提出的文本分类方法。
-
-## 数据集
-
-此处使用的数据集来自 [text-classification-cnn-rnn](https://github.com/gaussic/text-classification-cnn-rnn) 作者整理的数据集。下载链接：https://pan.baidu.com/s/1hugrfRu 密码: qfud
-
-该数据集共包含 10 个类别，每个类别有 6500 条数据。类别如下：
-
-```
-'体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐'
-```
-
-数据集划分如下：
-
-- 训练集: 5000 * 10
-- 验证集: 500 * 10
-- 测试集: 1000 * 10
-
-## 运行方法
-
-下载数据集，并解压至 `datasets` 目录下，在 `main.py` 中做适当调整，然后运行：
-
-```
-$ python main.py
-```
-
-运行结果：
-
-```
-2019-05-24 20:45:03,204 - using device: cuda:7
-2019-05-24 20:45:03,205 - load and preprocess data...
-2019-05-24 20:45:15,800 - training...
-2019-05-24 20:45:30,872 - epoch: 1 - loss: 0.06 acc: 0.65 - val_loss: 0.03 val_acc: 0.75
-2019-05-24 20:45:41,568 - epoch: 2 - loss: 0.05 acc: 0.80 - val_loss: 0.03 val_acc: 0.77
-2019-05-24 20:45:52,137 - epoch: 3 - loss: 0.05 acc: 0.82 - val_loss: 0.03 val_acc: 0.82
-2019-05-24 20:46:02,975 - epoch: 4 - loss: 0.05 acc: 0.83 - val_loss: 0.03 val_acc: 0.78
-2019-05-24 20:46:13,769 - epoch: 5 - loss: 0.05 acc: 0.83 - val_loss: 0.03 val_acc: 0.82
-2019-05-24 20:46:24,514 - epoch: 6 - loss: 0.05 acc: 0.87 - val_loss: 0.02 val_acc: 0.90
-2019-05-24 20:46:35,237 - epoch: 7 - loss: 0.05 acc: 0.92 - val_loss: 0.02 val_acc: 0.90
-2019-05-24 20:46:45,801 - epoch: 8 - loss: 0.05 acc: 0.93 - val_loss: 0.02 val_acc: 0.91
-2019-05-24 20:46:56,050 - epoch: 9 - loss: 0.05 acc: 0.93 - val_loss: 0.02 val_acc: 0.93
-2019-05-24 20:47:06,771 - epoch: 10 - loss: 0.05 acc: 0.94 - val_loss: 0.02 val_acc: 0.94
-2019-05-24 20:47:07,000 - predicting...
-2019-05-24 20:47:07,435 - test - acc: 0.9326
-```
-
-这里并没有对文本进行过多的预处理，比如去除特殊符号，停用词等。另外直接采用了字作为特征，对于中文文本分类，感觉分词已经没有必要了。
-
-我使用 [FastText](https://fasttext.cc/) 对该数据集进行了分类，发现分类准确度能轻松达到 99% 以上。这也表明，对于长文本分类问题，词袋模型就足够了。深度模型，可能更适合于一些复杂的场景，比如词与词之间关系较大时。
-
-```
-F1-Score : 0.999400  Precision : 0.999800  Recall : 0.999000   __label__0
-F1-Score : 0.995690  Precision : 0.997991  Recall : 0.993400   __label__5
-F1-Score : 0.996396  Precision : 0.997395  Recall : 0.995400   __label__1
-F1-Score : 0.998701  Precision : 0.998003  Recall : 0.999400   __label__2
-F1-Score : 0.999000  Precision : 0.999400  Recall : 0.998600   __label__3
-F1-Score : 0.983119  Precision : 0.987884  Recall : 0.978400   __label__8
-F1-Score : 0.997598  Precision : 0.998397  Recall : 0.996800   __label__9
-F1-Score : 0.985344  Precision : 0.975873  Recall : 0.995000   __label__4
-F1-Score : 0.996898  Precision : 0.997597  Recall : 0.996200   __label__6
-F1-Score : 0.998700  Precision : 0.998800  Recall : 0.998600   __label__7
-N       50000
-P@1     0.995
-R@1     0.995
-```
-
-## 配置
-
-```python
-class_num=10    # 类别数 
-embed_num=5000  # 字典大小
-embed_dim=64    # 字向量维度
-kernel_num=128  # 卷积核数量
-kernel_size_list=[3,4,5] # 卷积核尺寸
-dropout=0.5     # 置 0 的概率
-```
-
-## Text CNN 模型
-
-![image](https://user-images.githubusercontent.com/7794103/58327903-63a30180-7e63-11e9-9c82-acc55c8e0b21.png)
-
-该模型的基本思想是对输入序列先做 Embedding，而后使用不同窗口大小的 1D Conv 提取特征，经过 MaxPooing1D 后 一个卷积核得到一个标量，最后全部拼接起来，得到一个向量，然后使用全连接层加 softmax 进行分类。
+## Text-Classification
+
+使用 PyTorch 实现了以下几种文本分类模型：
+
+#### Text-CNN
+
+- 目录：[cnn](./cnn)
+- 论文：[Convolutional Neural Networks for Sentence Classification](https://arxiv.org/pdf/1408.5882.pdf)
+
+#### Text-RCNN
+
+- 目录：[rcnn](./rcnn)
+- 论文: [Recurrent Convolutional Neural Networks for Text Classification](https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745/9552)
+
+#### RNN-Attention
+
+- 目录：[rnn-attention](./rnn-attention)
+- 论文: [Hierarchical Attention Networks for Document Classification](https://www.aclweb.org/anthology/N16-1174) - 简化版实现。
+
+## 数据集
+
+此处使用的数据集来自 [text-classification-cnn-rnn](https://github.com/gaussic/text-classification-cnn-rnn) 作者整理的数据集。下载链接：https://pan.baidu.com/s/1hugrfRu 密码: qfud
+
+该数据集共包含 10 个类别，每个类别有 6500 条数据。类别如下：
+
+```
+'体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐'
+```
+
+数据集划分如下：
+
+- 训练集: 5000 * 10
+- 验证集: 500 * 10
+- 测试集: 1000 * 10
+
+## 运行方法
+
+**1. 下载数据集**
+
+下载数据集并解压至 `datasets` 目录下。
+
+**2. 配置参数**
+
+在 `mian.py` 中做适当调整，然后运行：
+
+```
+$ python main.py
+```
+
+## 运行结果：
+
+这里并没有对文本进行过多的预处理，比如去除特殊符号，停用词等。另外直接采用了字作为特征，对于中文文本分类，感觉分词已经没有必要了。
+
+以下都是用默认参数跑出来的结果，实验使用的 GPU 为 Tesla V100，如果要用 CPU 跑建议减少数据量，并限制文本长度。
+
+### Text-CNN
+
+```
+2019-05-24 20:45:30,872 - epoch: 1 - loss: 0.06 acc: 0.65 - val_loss: 0.03 val_acc: 0.75
+2019-05-24 20:45:41,568 - epoch: 2 - loss: 0.05 acc: 0.80 - val_loss: 0.03 val_acc: 0.77
+2019-05-24 20:45:52,137 - epoch: 3 - loss: 0.05 acc: 0.82 - val_loss: 0.03 val_acc: 0.82
+2019-05-24 20:46:02,975 - epoch: 4 - loss: 0.05 acc: 0.83 - val_loss: 0.03 val_acc: 0.78
+2019-05-24 20:46:13,769 - epoch: 5 - loss: 0.05 acc: 0.83 - val_loss: 0.03 val_acc: 0.82
+2019-05-24 20:46:24,514 - epoch: 6 - loss: 0.05 acc: 0.87 - val_loss: 0.02 val_acc: 0.90
+2019-05-24 20:46:35,237 - epoch: 7 - loss: 0.05 acc: 0.92 - val_loss: 0.02 val_acc: 0.90
+2019-05-24 20:46:45,801 - epoch: 8 - loss: 0.05 acc: 0.93 - val_loss: 0.02 val_acc: 0.91
+2019-05-24 20:46:56,050 - epoch: 9 - loss: 0.05 acc: 0.93 - val_loss: 0.02 val_acc: 0.93
+2019-05-24 20:47:06,771 - epoch: 10 - loss: 0.05 acc: 0.94 - val_loss: 0.02 val_acc: 0.94
+
+2019-05-24 20:47:07,435 - test - acc: 0.9326
+```
+
+### Text-RCNN
+
+```
+2019-05-26 12:40:35,331 - epoch 1 - loss: 0.02 acc: 0.81 - val_loss: 0.00 val_acc: 0.90
+2019-05-26 12:42:10,316 - epoch 2 - loss: 0.01 acc: 0.94 - val_loss: 0.01 val_acc: 0.90
+2019-05-26 12:43:42,279 - epoch 3 - loss: 0.01 acc: 0.95 - val_loss: 0.00 val_acc: 0.93
+2019-05-26 12:45:14,370 - epoch 4 - loss: 0.00 acc: 0.96 - val_loss: 0.00 val_acc: 0.91
+2019-05-26 12:46:46,713 - epoch 5 - loss: 0.00 acc: 0.96 - val_loss: 0.00 val_acc: 0.94
+
+2019-05-26 12:46:51,099 - test - acc: 0.95
+```
+
+相对 CNN 而言，RCNN 训练花费时间更多，RCNN 训练一个 epoch 可以让 CNN 训练 10 个 epoch。另外 RCNN 需要的 epoch 数相对较少，这里第一个 epoch 结束后，验证集上就达到了 90% 的准确度。
+
+### RNN-Attention
+
+```
+2019-05-26 12:55:42,786 - epoch 1 - loss: 0.03 acc: 0.66 - val_loss: 0.01 val_acc: 0.80
+2019-05-26 12:57:04,999 - epoch 2 - loss: 0.01 acc: 0.87 - val_loss: 0.01 val_acc: 0.84
+2019-05-26 12:58:36,714 - epoch 3 - loss: 0.01 acc: 0.91 - val_loss: 0.01 val_acc: 0.88
+2019-05-26 13:00:08,892 - epoch 4 - loss: 0.01 acc: 0.93 - val_loss: 0.01 val_acc: 0.89
+2019-05-26 13:01:41,746 - epoch 5 - loss: 0.01 acc: 0.94 - val_loss: 0.00 val_acc: 0.92
+
+2019-05-26 13:01:47,011 - test - acc: 0.9212
+```
+
+### FastText
+
+另外，我使用 [FastText](https://fasttext.cc/) 对该数据集进行了分类，发现分类准确度能轻松达到 99% 以上。这也表明，对于长文本分类问题，词袋模型就足够了。深度模型，在此简单任务上并没有优势。
+
+```
+F1-Score : 0.999400  Precision : 0.999800  Recall : 0.999000   __label__0
+F1-Score : 0.995690  Precision : 0.997991  Recall : 0.993400   __label__5
+F1-Score : 0.996396  Precision : 0.997395  Recall : 0.995400   __label__1
+F1-Score : 0.998701  Precision : 0.998003  Recall : 0.999400   __label__2
+F1-Score : 0.999000  Precision : 0.999400  Recall : 0.998600   __label__3
+F1-Score : 0.983119  Precision : 0.987884  Recall : 0.978400   __label__8
+F1-Score : 0.997598  Precision : 0.998397  Recall : 0.996800   __label__9
+F1-Score : 0.985344  Precision : 0.975873  Recall : 0.995000   __label__4
+F1-Score : 0.996898  Precision : 0.997597  Recall : 0.996200   __label__6
+F1-Score : 0.998700  Precision : 0.998800  Recall : 0.998600   __label__7
+N       50000
+P@1     0.995
+R@1     0.995
+```
@@ -0,0 +1,20 @@
+## Text-CNN
+
+- 论文：[Convolutional Neural Networks for Sentence Classification](https://arxiv.org/pdf/1408.5882.pdf)
+
+## 配置
+
+```python
+class_num=10    # 类别数 
+embed_num=5000  # 需要等于字典大小
+embed_dim=64    # 字向量维度
+kernel_num=128  # 卷积核数量
+kernel_size_list=[3,4,5] # 卷积核尺寸
+dropout=0.5     # 置 0 的概率
+```
+
+## 基本原理
+
+![image](https://user-images.githubusercontent.com/7794103/58327903-63a30180-7e63-11e9-9c82-acc55c8e0b21.png)
+
+该模型的基本思想是对输入序列先做 Embedding，而后使用不同窗口大小的 1D Conv 提取特征，经过 MaxPooing1D 后 一个卷积核得到一个标量，最后全部拼接起来，得到一个向量，然后使用全连接层加 softmax 进行分类。
@@ -7,15 +7,15 @@
 class TextCNN(nn.Module):
     def __init__(self,
                  class_num=None,
-                 embed_num=None,
-                 embed_dim=100,
+                 embed_size=None,
+                 embed_dim=64,
                  kernel_num=128,
                  kernel_size_list=(3,4,5),
                  dropout=0.5):
 
         super(TextCNN, self).__init__()
 
-        self.embedding = nn.Embedding(embed_num, embed_dim)
+        self.embedding = nn.Embedding(embed_size, embed_dim)
 
         self.conv1d_list = nn.ModuleList([
             nn.Conv1d(embed_dim, kernel_num, kernel_size)
 
@@ -8,6 +8,7 @@
 PAD_WORD = '<PAD>'
 UNK_WORD = '<UNK>'
 
+# 文档最大长度限制
 DOCUMENT_MAX_LENGTH = 500
 
 CATEGIRY_LIST = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']