星宇星静 2023-11-19 00:31 采纳率: 0%
浏览 5

为什么现在的文本处理只需要标注少量的数据

虽然大模型里面训练了很多的数据,但是对于bert一类的语言模型识别貌似只需要训练少部分就可以达到理想的效果这是为什么呢?

  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-11-19 02:07
    关注

    【相关推荐】



    • 你可以看下这个问题的回答https://ask.csdn.net/questions/7396464
    • 这篇博客也不错, 你可以看下文本分类还停留在BERT?对偶对比学习框架也太强了
    • 除此之外, 这篇博客: 基于bert预训练模型和半指针半标注结构的三元组抽取中的 模型结构 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

      模型很简单,直接使用bert预训练模型,在bert上进行fine-tune.
      主要有两步,即先预测subject,再同时预测object和predictate:
      1)先采用bert预训练模型对输入数据,即数据示例中的"text", 进行embedding,然后使用“半指针-半标注”的方式预测对应的subject的首、尾位置;
      2)再把预测的subject对应的embedding与bert输出的hidden-states 进行拼接,继续预测predicate和object;对于每一种predicate,都构建一个“半指针-半标注”结构来预测对应的object的首、尾位置,这样就同时把object、predicate都预测出来了。
      1
      如上是模型结构示意图。输入句子是:“如何演好自己的角色请读《喜剧之王》周星驰崛起…”,则抽取出来的三元组是“(喜剧之王,主演,周星驰)”。


    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

问题事件

  • 创建了问题 11月19日

悬赏问题

  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音
  • ¥30 Pytorch深度学习服务器跑不通问题解决?
  • ¥15 部分客户订单定位有误的问题
  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错
  • ¥25 自动填写QQ腾讯文档收集表