qq_20564413 2024-09-11 21:39 采纳率: 18.8%
浏览 20
已结题

python,LLM 文本提炼

一个Smart.csv 包含2列,一列为ID,一列为描述description的文本信息,如何用python和大模型提炼描述description的信息,并且输出EXCEL, 一列是ID,一列为精练后的描述description?

如何把huggingface的模型下载到本地使用?
有国内好用的模型么?
分享VPN?

自己尝试写的代码报错,无法连接huggingface使用模型,如何处理?
OSError: We couldn't connect to 'https://huggingface.co' to load this file, couldn't find it in the cached files and it looks like facebook/bart-large-cnn is not the path to a directory containing a file named config.json.



```python

import pandas as pd
from transformers import pipeline

# 1. 读取CSV文件
df = pd.read_csv('D://dream/Smart.csv')

# 2. 预处理文本数据(这里假设文本数据已经是清洗过的,不需要进一步处理)

# 3. 使用大模型提取文本摘要
# 加载摘要提取模型
# 使用一个适合摘要任务的预训练模型,例如 'bart-large-cnn'
model_name = 'facebook/bart-large-cnn'  # 这是一个为摘要任务训练的BART模型
summarizer = pipeline("summarization", model=model_name)

# 提取摘要
df['summary'] = df['group_concat("; ", a.COMMENTS)'].apply(lambda x: summarizer(x, max_length=130, min_length=30, do_sample=False)[0]['summary_text'])

# 4. 保存或展示提炼后的信息
print(df[['CLAUSE_NO', 'summary']])

# 如果需要将结果保存到新的CSV文件
df[['CLAUSE_NO', 'summary']].to_csv('D://dream/Smart_summary2.csv', index=False)

```

  • 写回答

31条回答 默认 最新

  • caozhenyu650 2024-09-11 21:51
    关注

    此答案是由GPT4和本人亲自作答,如有帮助,还请采纳!
    要解决您在提炼描述信息并保存到Excel中的问题,可以通过以下步骤来完成。这里我们将使用Python编程语言,结合transformers库中的预训练模型,来提取文本摘要。由于您遇到了无法连接到Hugging Face的问题,我们会探讨解决此问题的方法,并提供一个完整的示例代码。

    1. 确认环境和依赖

    首先,请确保您的Python环境中已安装以下库:

    • pandas:用于数据处理和读写Excel文件
    • transformers:用于加载和使用预训练的NLP模型
    • torchtensorflow:作为transformers库的后端

    可以使用以下命令来安装这些库(如果尚未安装):

    pip install pandas transformers torch openpyxl
    

    2. 处理连接问题

    您遇到的错误提示表明模型无法从Hugging Face服务器下载。为解决此问题,您可以:

    1. 检查网络连接:确保您的网络可以访问外部资源。
    2. 更新transformers:尝试更新到最新版本,以解决可能的库兼容性问题。
    3. 使用代理:如果您在中国大陆,访问Hugging Face的模型可能会受限。您可以尝试使用科学上网工具来解决此问题。

    3. 替代方案

    如果连接问题持续存在,您可以考虑以下替代方案:

    1. 本地下载模型:手动下载模型并加载到本地。
    2. 使用其他模型库:例如Hugging Face提供的transformers之外的模型。

    4. 代码示例

    以下是一个示例代码,用于读取CSV文件中的描述信息,使用大模型进行摘要提炼,并将结果保存到新的Excel文件中:

    import pandas as pd
    from transformers import pipeline
    
    # 1. 读取CSV文件
    df = pd.read_csv('D://dream/Smart.csv')
    
    # 2. 预处理文本数据(假设文本数据已清洗过)
    # 检查数据是否成功加载
    print(df.head())
    
    # 3. 使用大模型提取文本摘要
    # 选择适合摘要任务的预训练模型
    model_name = 'facebook/bart-large-cnn'
    summarizer = pipeline("summarization", model=model_name)
    
    # 4. 定义一个函数来处理每一行文本
    def summarize_text(text):
        # 确保文本不为空
        if pd.isna(text) or len(text) == 0:
            return ""
        # 提取摘要
        summary = summarizer(text, max_length=130, min_length=30, do_sample=False)
        return summary[0]['summary_text']
    
    # 5. 对描述文本进行摘要提炼
    df['summary'] = df['description'].apply(summarize_text)
    
    # 6. 将结果保存到新的Excel文件
    df[['ID', 'summary']].to_excel('D://dream/Smart_summary.xlsx', index=False, engine='openpyxl')
    
    print("摘要提炼完成,并已保存到Smart_summary.xlsx")
    

    5. 注意事项

    • 模型大小和计算资源:大模型(如BART)通常需要较大的计算资源。确保您的机器具备足够的内存和计算能力。
    • 长文本处理:对于非常长的文本,您可能需要调整max_lengthmin_length参数以确保摘要的质量和长度。
    • 文本预处理:如果描述文本较复杂,您可能需要进一步的文本预处理步骤,如去除无关内容或规范化文本格式。

    6. 本地下载模型(备用方案)

    如果您仍然无法从Hugging Face服务器下载模型,可以手动下载并加载模型:

    1. 手动下载模型:访问Hugging Face的模型页面,下载所需模型的权重文件。

    2. 本地加载模型:将下载的文件存储到本地,然后使用以下代码加载模型:

      from transformers import BartTokenizer, BartForConditionalGeneration
      
      # 本地模型路径
      model_path = 'path_to_your_local_model_directory'
      
      tokenizer = BartTokenizer.from_pretrained(model_path)
      model = BartForConditionalGeneration.from_pretrained(model_path)
      summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
      

    通过上述步骤,您应该能够解决模型下载和连接问题,并顺利完成文本摘要提炼任务。如果还有其他问题,请随时问我!

    评论

报告相同问题?

问题事件

  • 系统已结题 9月19日
  • 修改了问题 9月11日
  • 修改了问题 9月11日
  • 创建了问题 9月11日

悬赏问题

  • ¥15 unity从3D升级到urp管线,打包ab包后,材质全部变紫色
  • ¥50 comsol温度场仿真无法模拟微米级激光光斑
  • ¥15 上传图片时提交的存储类型
  • ¥15 Ubuntu开机显示器只显示kernel,是没操作系统(相关搜索:显卡驱动)
  • ¥15 VB.NET如何绘制倾斜的椭圆
  • ¥15 arbotix没有/cmd_vel话题
  • ¥15 odoo17的分包重新供应路线如何设置?可从销售订单中实时直接触发采购订单或相关单据
  • ¥15 用C语言怎么判断字符串的输入是否符合设定?
  • ¥15 通信专业本科生论文选这两个哪个方向好研究呀
  • ¥50 我在一个购物网站的排队系统排队,这个排队到号后重新定向到目标网站进行购物,但是有技术牛通过技术方法直接跳过排队系统进入目标网址购物,有没有什么软件或者脚本可以用