枫枫枫枫子 2023-01-11 21:20 采纳率: 75%

已结题

用python批量提取txt文件中的目标数字和关键单词，目标数字和关键词在txt中有相同的属性：，且都在同一行。

问题遇到的现象和发生背景

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法，不写自己思路的，回答率下降 60%

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

从一些txt文件中批量提取目标数字和英文，一起输出到excel文件中。
这些txt文件是多个样本网页的txt格式，因此内容类似，比如这些txt中均含有age单词且都在同一行。
①提取txt中含age:X行中的x数字。age作为输出excel文件中的第一列表头，这些txt的文件所有含的xx数字对应在下排列。 txt文件中的该行如图片所示，所有txt只有这行含age且在同一行，（注意排除nameage这种掺杂age的单词）。默认行的序数已知，比如都在第五行。

②提取txt中的phenotyoe：x中的x单词，如①描述，和①要提取的在同一行。将phenotype作为输出excel文件中的第二列表头，这些txt中所有包含的单词对应在下排列。默认行数已知比如都在第五行。

所有txt文件在同一目录下。
试了一天了总是试不出来答案，而且输出excel中很多乱码。
这些txt文件是来自一些临床数据样本网站，所以内容类似。
我想达到的效果是比如现在有两个txt文件，两个内容如图：

则输出excel文件:

主要就是想把所有文件中的age和phenotype 及其对应：后的整合起来在excel，可以方便我统计数据。

tips：不知道这个条件有没有用，在txt中搜索的话 age:是只有一个，只在指定行的。phenotype: 也是。


```python

import pandas as pd 
import numpy as np 
import os
os.getcwd()  #获取当前工作路径，查看是否是自己的目标路径
os.chdir('/Users/Heihei/Desktop/EX2data/data')  #如果不是，改到目标路径
path = '/Users/Heihei/Desktop/EX2data/data'
os.listdir(path) #查看目标路径下有哪些数据

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

CSDN专家-showbo 2023-01-11 22:13

关注

正则提取下

import os
from openpyxl import Workbook
import re

wb=Workbook()
sheet=wb.worksheets[0]
sheet.append(['age','phenotype'])
path=r"F:\python\txt"#文本文件路径
files=os.listdir(path)

reage=re.compile(r"\bage:\s*(\d+)",re.IGNORECASE)#年龄正则
rephonetype=re.compile(r"\bphenotype:\s*([a-z]+)",re.IGNORECASE)#phenotype正则
for file in files:
    if '.txt' not in file:
        continue
    with open(os.path.join(path,file),'r',encoding='utf-8')as f:
        text=f.read()
        mc=reage.search(text)
        age=""
        if mc:
            age=mc.groups(0)[0]
        phenotype=""
        mc=rephonetype.search(text)
        if mc:
            phenotype=mc.groups(0)[0]
        print(age,phenotype)
        sheet.append([age,phenotype])

wb.save(path+r"\result.xlsx")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python批量提取中英文混排中英文文本.zip
2020-04-26 11:41

本文将深入探讨如何使用Python编程语言来批量提取中英文混排文本中的英文文本，以此针对给定的文件"Python批量提取中英文混排中英文文本.zip"进行解析。首先，我们需要了解Python中的字符串处理功能。Python提供了...
python英文单词批量抽取美式英标英式音标中文解释例句解释
2019-04-28 10:08

英文单词批量抽取美式英标，英式音标、中文解释、例句解释使用方法把需要翻译的单词word.xlsx标签[Sheet1]页的A列里面，如 abandoned ability abroad 运行python getWordFromDic.py 生成word_create.xls，内容例子...
批量文本文档中提取手机号 python源代码
2024-10-30 16:47

在处理批量文本文档提取手机号的任务时，我们首先需要明确几点核心操作，即文件夹遍历、文件读取、正则表达式匹配及结果存储。下面将对这些操作进行详细阐述，并提供相应的Python源代码知识点。首先，文件夹遍历，...
利用Python分析txt文本中的关键词频率与词汇和句子指标占比
2024-06-08 10:55

是筱倩阿的博客在数据分析和自然语言处理的过程中，关键词的提取和统计是一个重要的步骤，特别是在分析政策文件、经济报告或其他涉及复杂信息的文本时。本文将介绍如何使用Python进行中文文本中的关键词统计，将关注政策相关和不...
Python使用正则表达式识别代码中的中文、英文和数字实例演示
2023-06-05 23:40

挣扎的蓝藻的博客正则表达式（Regular Expression）是一种强大的文本模式匹配工具，它可以用来在字符串中进行高级的搜索、匹配、替换和提取操作。正则表达式由一系列字符和特殊符号组成，这些字符和符号形成了一种规则，描述了我们...
【办公自动化】用Python按时间分割txt文件中的数据
2023-10-09 22:17

艾派森的博客现在要求按小时将数据提取，并存为新的txt文件，也就是1天会对应有24个txt文件。先整理一下思路： 1. 读取数据 2. 将每行数据的时间戳转换成“日期-小时”格式，并按此分类数据，存入字典 3. 按“日期-小时”分断...
python实例59-Python检查word文件中的特殊标记词是否与文件名中的一致.rar
2024-02-20 20:35

在这个实例59中，我们将探讨如何使用Python来检查Word文件中的特殊标记词是否与文件名中的关键词一致。这在自动化文档处理、信息检索或数据分析场景中非常有用。我们将主要涉及以下几个知识点： 1. **Python的docx...
Python实现从金山词霸爬取单词信息并存储到数据库，可以批量爬取单词信息，并将其插入到 MySQL 数据库中
2026-01-04 11:18

在这个过程中，使用了Python语言编写爬虫脚本，由于Python语言在爬虫开发中具有得天独厚的优势，例如强大的第三方库支持，使得整个爬虫过程变得高效和方便。爬取完毕后，数据需要被格式化并安全地存储到MySQL...
python批量提取pdf的数据_Python2 - 批量提取pdf中所有单词
2020-12-01 08:26

weixin_39712969的博客本文仅限技术研究与讨论，严禁用于非法用途，否则产生的一切后果自行承担这个代码是.../usr/bin/python# - * - coding:utf-8 - * -'''@author: soapffz@fucntion: 批量提取pdf中所有单词(python2)@time: 2019-01-0...
抽取txt格式文件中包含关键词的句子，python代码
2023-01-07 13:56

腐国喵小姐的博客好的，这是一个简单的方法来抽取 txt 格式文件中包含关键词的句子： # 首先，我们需要打开文件并读取内容 with open('file.txt', 'r') as f: text = f.read() # 然后，我们可以使用正则表达式来匹配句子 import re...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月11日