-
Notifications
You must be signed in to change notification settings - Fork 5
/
read_doc.py
75 lines (55 loc) · 3.82 KB
/
read_doc.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
# -*- coding: utf-8 -*-
'''
Created on 2017-07-11 14:39
---------
@summary:
---------
@author: Boris
'''
from docx import Document
from db.oracledb import OracleDB
oracle = OracleDB()
# dir_docx = 'test.docx'
# document = Document(dir_docx)
# for p in document.paragraphs:
# print(p.text)
def parser_docx_paragraphs(docx):
document = Document(dir_docx)
for p in document.paragraphs:
print(p.text)
def parse_docx_table(f):
person = {}
document = Document(f)
table = document.tables[0]
for i in range(109):
name = table.cell(i, 1).text.strip()
origation = table.cell(i, 5).text.strip()
if origation not in person.keys():
person[origation] = set()
person[origation].add(name)
# print (name, origation)
from pprint import pprint
pprint(person)
filename = "persons.txt"
# with open(filename, mode = 'w', encoding = 'utf-8') as file:
# for origation, names in person.items():
# print(origation)
# print(name)
# content = origation + ':\n' + ','.join(names)
# file.write(content)
# file.write('\n------------------------------------\n')
sequence = 1
for origation, names in person.items():
print(origation)
# sql = 'insert into TAB_IOPM_FIRST_CLUES_CLASSIFY t (t.first_classify_id, t.first_classify, t.zero_id) values (%s, \'%s\', 1)'%(sequence, '')
# oracle.add(sql)
for name in names:
print(name)
sql = 'insert into TAB_IOPM_CLUES (id, name, Keyword2, First_Id) values (%s, \'%s\', \'%s\', %s)'%("sequence.nextval", name, name, 1)
oracle.add(sql)
sequence+=1
# parse_docx_table('test.docx')
jigous = '中华人民共和国国家新闻出版广电总局,中央人民广播电台,中央电视台,中国国际广播电台,国家新闻出版广电总局广播电视卫星直播管理中心,国家新闻出版广电总局广播电视规划院,中广电广播电影电视设计研究院,国家新闻出版广电总局电影剧本规划策划中心,国家新闻出版广电总局电影数字节目管理中心,国家新闻出版广电总局机关服务,国家新闻出版广电总局研修学院(培训中心),中国广播电影,视社会组织联合会,中央新影集团,中国新闻出版研究院,新闻出版广电总局培训中心,新闻出版总署出版产品质量监督检测中心,中国版本图书馆(国家新闻出版广电总局出版物数据中心),国家出版基金规划管理办公室,中国印刷博物馆,天津市文化广播影视局,河北省新闻出版广电局,山西省新闻出版广电局,新疆维吾尔自治区广播电影电视局,宁夏回族自治区新闻出版广电局,青海省广播电影电视局,甘肃省新闻出版广电局,陕西省新闻出版广电局,西藏自治区新闻出版广电局,云南省新闻出版局,贵州省新闻出版广电局,四川省新闻出版广电局,重庆市文化委员会,海南省文化广电出版体育厅,广西壮族自治区新闻出版广电局,广东省新闻出版广电局,湖南省新闻出版广电局,湖北省新闻出版广电局湖北省版权局,江西省新闻出版广电局(江西省版权局),山东省新闻出版广电局,辽宁省新闻出版广电局,吉林省省新闻出版广电局,黑龙江省新闻出版广电局 黑龙江省版权局,福建省新闻出版广电(版权)局,上海市文化广播影视管理局,江苏省新闻出版广电局(版权局),浙江省新闻出版广电局(省版权局),安徽省新闻出版广电局'.split(',')
for name in jigous:
sql = 'insert into TAB_IOPM_CLUES (id, name, Keyword2, First_Id, zero_id) values (%s, \'%s\', \'%s\', %s, %s)'%("sequence.nextval", name, name, 6, 3)
oracle.add(sql)