m0_64570815 2022-05-21 16:01 采纳率: 60%
浏览 158
已结题

如何通过python提取word里面的选择题和填空题

import pandas as pd@
import re
from docx import Document
from collections import OrderedDict

doc = Document("体育.docx")

black_char = re.compile("[\s\u3000\xa0]+")

chinese_nums_rule = re.compile("[一二三四]、(.+?)(")
title_rule = re.compile("\d+.")
option_rule = re.compile("([ABCDEF])")
option_rule_search = re.compile("([ABCDEF])[^(]+")

保存最终的结构化数据

question_type2data = OrderedDict()

从word文档的“一、单项选择题”开始遍历数据

for paragraph in doc.paragraphs[5:]:
# 去除空白字符,将全角字符转半角字符,并给括号之间调整为中间一个空格
line = black_char.sub("", paragraph.text).replace(
"(", "(").replace(")", ")").replace(".", ".").replace("()", "( )")
# 对于空白行就直接跳过
if not line:
continue
if title_rule.match(line):
options = title2options.setdefault(line, [])
elif option_rule.match(line):
options.extend(option_rule_search.findall(line))
else:
chinese_nums_match = chinese_nums_rule.match(line)
if chinese_nums_match:
question_type = chinese_nums_match.group(1)
title2options = question_type2data.setdefault(
question_type, OrderedDict())

result = []
max_options_len = 0
for question_type, title2options in question_type2data.items():
for title, options in title2options.items():
result.append([question_type, title, *options])
options_len = len(options)
if options_len > max_options_len:
max_options_len = options_len
df = pd.DataFrame(result, columns=[
"题型", "题目"]+[f"选项{i}"for i in range(1, max_options_len+1)])

题型可以简化下,去掉选择两个字

df['题型'] = df['题型'].str.replace("选择", "")
df.to_excel("result.xlsx", index=False)

为什么会报错

  • 写回答

1条回答 默认 最新

  • hyh123a 全栈领域新星创作者 2022-05-21 17:21
    关注

    报错信息是什么

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 6月5日
  • 已采纳回答 5月28日
  • 创建了问题 5月21日

悬赏问题

  • ¥18 深度学习tensorflow1,ssdv1,coco数据集训练一个模型
  • ¥100 关于注册表摄像头和麦克风的问题
  • ¥30 代码本地运行正常,但是TOMCAT部署时闪退
  • ¥15 关于#python#的问题
  • ¥15 主机可以ping通路由器但是连不上网怎么办
  • ¥15 数据库一张以时间排好序的表中,找出多次相邻的那些行
  • ¥50 关于DynamoRIO处理多线程程序时候的问题
  • ¥15 kubeadm部署k8s出错
  • ¥15 Abaqus打不开cae文件怎么办?
  • ¥15 小程序准备上线,软件开发公司需要提供哪些资料给甲方