如何爬取语料库中的相关信息？

问题遇到的现象和发生背景

在北京语言大学BCC语料库的词典库中，如何批量自动获取特定词条的“搭配拓展”和“义项频率”信息？

我想要达到的结果

生成特定词语的搭配信息和义项频率信息。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
技术专家团-辉煌仪奇 2021-12-20 13:02
关注
可以试试python加Selenium爬虫,超简便的环境搭建以及无视大部分反扒手段的特点可以让你轻松搞定你的需求
下面是初始教程
https://www.jianshu.com/p/1531e12f8852

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

中文分词的语料库中的词是如何的生成的? 数据挖掘机器学习自然语言处理
2019-05-12 22:30

回答 1 已采纳实用的方法是使用分词库，它结合了人工添加和修正的词汇。单单从语言的角度看，可以用后缀数组的方式得到某个字符的前后字的字频，字频高的，就视作词汇。但是这个本身需要大量的语料和人工的调整。
中文语料库检索构式求助 nlp python
2022-12-07 10:42

回答 3 已采纳写了一个模板函数，望采纳下面为示例代码，需要你提供已经分词的语料库和对应的词性标注。 # 首先，我们需要定义一个函数，它接受一个分词后的语料库和一个词性格式作为参数，并返回满足该格式的所有词组。 d
jupyter notebook运行代码找不到语料库文件 python 有问必答
2021-06-26 12:06

回答 5 已采纳没有那样的文件。。检查运行环境中是否存在那样的文件
python情感分析语料库_python 中文情感分析 Snownlp库的使用
2020-11-29 09:19

weixin_39698007的博客文章目录一、Snownlp 简介SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和...
Python怎么删除文本中的所有标点符号？ nlp python
2015-04-15 13:53

回答 3 已采纳既然你要语料库，程序就不是必须的了，用ultraedit之类的工具，内置批量替换功能，运行下即可。
中文命名实体——语料处理 python 有问必答自然语言处理
2021-04-14 11:01

回答 4 已采纳 import re with open("输出文件.txt","w",encoding="utf-8") as outfile: with open("train.txt","r",enco
谁能推荐可以“批量导入凌乱汉字后批量导出所有中文词语”的软件？中文分词
2018-11-09 03:50

回答 1 已采纳什么意思，就是给定一些汉字，然后排列组合，看能构成哪些词语？如果是，可以帮你写一个，思路是在你所有的汉字里，m选n（包括重复自己）组成2、3、4字，然后和字典比较，匹配的输出。字典你可以去下载
自然语言处理中的语料库构建和预处理的应用
2024-01-21 03:45

禅与计算机程序设计艺术的博客 1.背景介绍自然语言处理(NLP)是计算机科学和人工智能领域的一个重要分支，...在本文中，我们将讨论语料库构建和预处理的应用，以及相关的核心概念、算法原理、最佳实践、实际应用场景和工具推荐。 1. 背景介绍 ...
遇到一个随机抽取语料的程序中文分词
2022-08-13 11:19

回答 3 已采纳用法不是在你截图里有吗？中间那张图，你看下，写的很清楚，可以在cmd里执行
如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
当使用transformer模型时，如果语料里的数据的长度超过设置的max_length的时候，怎么解决？ opencv
2022-12-09 09:28

回答 1 已采纳如果这种数据占比较少，直接舍去，如果占比较多，可以尝试使用transformer-xl模型。
中文自然语言处理学习笔记（二）——语料库的安装与使用
2024-04-02 10:56

l~l~long的博客这章笔记一步步介绍语料库概念与使用，安装NLTK，实现对线上语料库内容的获取与分析，最后实现构建一个斗罗大陆小说的本地语料库。
怎么通过Python爬虫来制造一个语料 python 有问必答深度学习爬虫
2021-12-02 11:15

回答 2 已采纳你只能通过爬虫去爬取别人发上网的语料，每个自然语言的模块语料格式都不相同，一般官方都会提供
【NLP】自然语言处理－第六节获取文本语料库
2023-01-16 14:59

Nibiruhhg的博客在自然语言处理的实际项目中，通常要使用大量的语言数据或者语料库。本章将通过语言处理任务的例子展示编程概念。
人工智能-项目实践-数据预处理-利用Python网络爬虫对京东商城中指定商品下的用户评论进行爬取，对数据预处理操作后进行文本情感
2024-03-02 20:34

找到外部库中snownlp中sentiment模块，将训练得到的sentiment.marshal.3文件覆盖sentiment模块中自带的sentiment.marshal.3 情感分析（sentiment.analysis.py）启动sentiment.analysis.py 开始对jd_comment.csv中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月20日

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

如何爬取语料库中的相关信息？

问题遇到的现象和发生背景

我想要达到的结果

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新