• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

PubMedBERT:生物医学自然语言处理领域的特定预训练模型

PubMedBERT:生物医学自然语言处理领域的特定预训练模型
AITOP100
2023-11-27 16:02:40

今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta,这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,“小”模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域语料库从头开始预训练BERT,这是微软研究院2022年发布在ACM的论文。

论文的主要要点如下:

对于具有大量未标记文本的特定领域,如生物医学,从头开始预训练语言模型比持续预训练通用领域语言模型效果显著。提出了生物医学语言理解与推理基准(BLURB)用于特定领域的预训练。

PubMedBERT

1、特定领域Pretraining

研究表明,从头开始的特定领域预训练大大优于通用语言模型的持续预训练,从而表明支持混合领域预训练的主流假设并不总是适用。

2、模型

使用BERT。对于掩码语言模型(MLM),全词屏蔽(WWM)强制要求整个词必须被屏蔽。

3、BLURB数据集

据作者介绍,BLUE[45]是在生物医学领域创建NLP基准的第一次尝试。但BLUE的覆盖范围有限。针对基于pubmed的生物医学应用,作者提出了生物医学语言理解与推理基准(BLURB)。

PubMedBERT使用更大的特定领域语料库(21GB)。

结果展示

在大多数生物医学NLP任务中,PubMedBERT始终优于所有其他BERT模型,并且通常具有显著的优势。

0
0
原文链接:https://www.51cto.com/article/774702.html
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 小云雀启动短剧出海逐浪计划,多重激励赋能出海机构

  • yoroll×小云雀AI|《丧尸清道夫》宇宙AI短片挑战赛

  • OpenAI 计划改版 ChatGPT:从聊天机器人,转向全能超级应用

  • 快看漫画发布Livo数字生命产品,漫画IP开启AI自运转新时代

  • 通义实验室推出 PawBench:AI Agent 评测,终于不只看“模型跑分”了

热点资讯

🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

6天前
🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

每日AI资讯-2026年6月01日

7天前
每日AI资讯-2026年6月01日

腾讯发布 CodeBuddy Security:企业代码漏洞审计,正在进入“双引擎”时代

3天前
腾讯发布 CodeBuddy Security:企业代码漏洞审计,正在进入“双引擎”时代

Ideogram 4.0开放权重发布:凭借精准文字生图,登顶全球开源绘图模型

3天前
Ideogram 4.0开放权重发布:凭借精准文字生图,登顶全球开源绘图模型

腾讯发布首款智能体学习应用LearnBuddy,让“专家AI”伴你同行

1天前
腾讯发布首款智能体学习应用LearnBuddy,让“专家AI”伴你同行
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有