spacy NER 位置信息不考虑空格!!!

texts = [
    "疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
    "疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
    "疫情期间,俄罗 斯 联 邦 军 队医疗 机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
]

for text in texts:
    doc = nlp(text)
    for ent in doc.ents:
        print(ent.text, ent.start, ent.end)
    print()

在这里插入图片描述

令人震惊和愤怒的是三次结果输出的位置是一样的!spacy居然先把空格过滤了再输出位置。
虽然输出的实体位置不是真实的位置,但displacy渲染结果都是对的。

修改正确实体定位

texts = [
    "疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
    "疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
    "疫情期间,俄罗 斯 联 邦 军 队医疗 机构的负责人Saanvi Alia在方城县启动了远程医疗服务。",
]

for text in texts:
    doc = nlp(text)
    for ent in doc.ents:
        entity = ent.text
        start = ent.start + text[ent.start:].index(ent.text) # 因为忽略了空格,实体的实际位置总是在ent.start之后
        end = start + len(entity)
        print(entity, start, end,)
        assert(entity == text[start:end])
    print()

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

颹蕭蕭

白嫖?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值