
本文深入探讨了在spacy中进行复杂实体模式匹配时,如何处理重叠模式的优先级问题。通过分析一个具体的案例,即当短模式意外地优先于长模式时,我们展示了`matcher.add()`方法中的`greedy`参数如何有效解决这一挑战。教程将提供详细的代码示例,并解释`greedy="longest"`选项在确保匹配最长可能跨度方面的关键作用,从而帮助开发者构建更精确、更鲁棒的nlp模式匹配系统。
SpaCy的Matcher是一个功能强大的工具,用于基于词法、语法和自定义属性在文本中查找特定模式。它允许开发者定义复杂的令牌序列模式,以识别文本中的特定实体或短语。然而,在处理具有重叠或包含关系的模式时,可能会遇到一个常见挑战:当多个模式可以匹配同一段文本时,Matcher的默认行为可能不会优先选择我们期望的最长或最具体的匹配。
本教程将通过一个具体示例,深入探讨这一问题,并提供一个有效的解决方案,确保Matcher能够按照预期优先匹配更长的模式。
假设我们有一段葡萄牙语文本,并希望识别其中表示“组件”的短语。我们定义了一系列模式,其中包含一些相互重叠的模式,例如:
在文本“proteção contra descargas atmosféricas”(防雷保护)中,模式1应该匹配“proteção contra descargas atmosféricas”,而模式2则会匹配“proteção contra descargas”。如果我们的匹配逻辑没有正确处理优先级,可能会出现模式2(较短的匹配)先被识别并消耗掉令牌,导致模式1(较长的匹配)无法被发现的情况。
以下是原始问题中使用的文本和SpaCy模型加载代码:
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span
txt = "Os edifícios multifamiliares devem ser providos de proteção contra descargas atmosféricas, atendendo ao estabelecido na ABNT NBR 5419 e demais Normas Brasileiras aplicáveis, nos casos previstos na legislação vigente."
nlp = spacy.load("pt_core_news_md")
doc = nlp(txt)
# 打印分词和POS标签,以便理解文本结构
print("--- 文本分词与POS标签 ---
")
for token in doc:
print(f"{token.text:<15} {token.pos_:<10} {token.dep_:<10}")
print("-" * 30)通过观察doc对象的POS标签,我们可以看到“proteção contra descargas atmosféricas”对应的POS序列确实是NOUN ADP NOUN ADJ。
为了实现非重叠的顺序模式匹配,原始代码定义了一个自定义函数buscar_padroes_sequencialmente。这个函数旨在遍历预定义的模式列表,并在找到匹配后,将已匹配的令牌标记为已处理,以防止它们在后续的模式搜索中再次被匹配。
N世界
一分钟搭建会展元宇宙
138
查看详情
def buscar_padroes_sequencialmente(doc, patterns_config):
resultados = []
tokens_processados = set()
# 外层循环遍历不同的模式配置(例如,不同的标签COMPONENTE)
for pat_config in patterns_config:
label = pat_config["label"]
# 为每个标签创建一个新的Matcher实例,以避免不同标签之间的干扰
# 并且为了处理内部的多个子模式,我们会在每次外部循环时重新添加
matcher = Matcher(doc.vocab)
# 内层循环遍历当前标签下的所有具体模式
for i, padrao_atual in enumerate(pat_config["pattern"]):
# 问题在于这里,如果不对匹配行为进行控制,短模式可能优先
matcher.add(f"{label}_{i}", [padrao_atual]) # 为每个子模式添加一个唯一ID
# 执行匹配
for padrao_id, inicio, fim in matcher(doc):
rótulo_base = matcher.vocab.strings[padrao_id].split('_')[0] # 获取原始标签
# 检查是否有任何令牌已被处理
if any(token.i in tokens_processados for token in doc[inicio:fim]):
continue
# 将当前匹配的令牌索引添加到已处理集合
tokens_processados.update(token.i for token in doc[inicio:fim])
# 将匹配的令牌转换为Span对象并添加到结果
span = Span(doc, inicio, fim, label=rótulo_base)
resultados.append((rótulo_base, span))
return resultados
# 定义模式
patterns= [
{"label": "COMPONENTE", "pattern": [
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"},{"POS": "ADJ"}], # 模式A (长)
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "ADJ"}],
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"}], # 模式B (短,与模式A重叠)
[{"POS": "NOUN", "DEP":"nsubj"},{"POS": "ADJ"},{"POS": "ADJ"}],
[{"POS": "NOUN", "DEP":"nsubj"}],
[{"POS": "NOUN"},{"POS": "ADJ"}]
]}
]
# 运行函数并打印结果
resultados = buscar_padroes_sequencialmente(doc, patterns)
print("\n--- 初始匹配结果 ---")
for i, (rotulo, span) in enumerate(resultados, start=1):
pos_tokens = [token.pos_ for token in span]
print(f"OSemantic {i}:", span.text, f'({rotulo})')
print("POStoken:", pos_tokens)
print()运行上述代码,我们发现“proteção contra descargas atmosféricas”并没有被完整匹配。相反,我们得到了一个较短的匹配:“proteção contra descargas”,其POS标签为NOUN ADP NOUN。这表明模式[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"}]优先于更长的模式[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"},{"POS": "ADJ"}]被匹配。即使调整模式在列表中的顺序,也无法解决这个问题,因为Matcher在内部处理时,可能仍然会先发现并报告较短的匹配。
SpaCy Matcher.add()方法提供了一个greedy参数,用于控制当多个模式可以匹配同一段文本时,Matcher应如何选择。greedy参数可以接受两个值:"FIRST"和"LONGEST"。
通过将greedy="LONGEST"添加到matcher.add()调用中,我们可以强制Matcher在存在重叠匹配时,优先选择最长的匹配。
我们将修改buscar_padroes_sequencialmente函数中的matcher.add()行,以包含greedy="LONGEST"参数。
def buscar_padroes_sequencialmente_corrigido(doc, patterns_config):
resultados = []
tokens_processados = set()
for pat_config in patterns_config:
label = pat_config["label"]
matcher = Matcher(doc.vocab)
for i, padrao_atual in enumerate(pat_config["pattern"]):
# 关键修改:添加 greedy="LONGEST"
matcher.add(f"{label}_{i}", [padrao_atual], greedy="LONGEST")
# 执行匹配
for padrao_id, inicio, fim in matcher(doc):
rótulo_base = matcher.vocab.strings[padrao_id].split('_')[0]
# 检查是否有任何令牌已被处理
if any(token.i in tokens_processados for token in doc[inicio:fim]):
continue
# 将当前匹配的令牌索引添加到已处理集合
tokens_processados.update(token.i for token in doc[inicio:fim])
# 将匹配的令牌转换为Span对象并添加到结果
span = Span(doc, inicio, fim, label=rótulo_base)
resultados.append((rótulo_base, span))
return resultados
# 运行修正后的函数并打印结果
resultados_corrigidos = buscar_padroes_sequencialmente_corrigido(doc, patterns)
print("\n--- 修正后的匹配结果 ---")
for i, (rotulo, span) in enumerate(resultados_corrigidos, start=1):
pos_tokens = [token.pos_ for token in span]
print(f"OSemantic {i}:", span.text, f'({rotulo})')
print("POStoken:", pos_tokens)
print()运行修正后的代码,我们可以看到现在“proteção contra descargas atmosféricas”被正确地识别为COMPONENTE,其POS标签为NOUN ADP NOUN ADJ。这证明了greedy="LONGEST"参数的有效性。
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span
# 示例文本和SpaCy模型加载
txt = "Os edifícios multifamiliares devem ser providos de proteção contra descargas atmosféricas, atendendo ao estabelecido na ABNT NBR 5419 e demais Normas Brasileiras aplicáveis, nos casos previstos na legislação vigente."
nlp = spacy.load("pt_core_news_md")
doc = nlp(txt)
# 打印分词和POS标签,以便理解文本结构
print("--- 文本分词与POS标签 ---")
for token in doc:
print(f"{token.text:<15} {token.pos_:<10} {token.dep_:<10}")
print("-" * 30)
# 定义模式
patterns = [
{"label": "COMPONENTE", "pattern": [
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"},{"POS": "ADJ"}], # 模式A (长)
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "ADJ"}],
[{"POS": "NOUN"},{"POS": "ADP"},{"POS": "NOUN"}], # 模式B (短,与模式A重叠)
[{"POS": "NOUN", "DEP":"nsubj"},{"POS": "ADJ"},{"POS": "ADJ"}],
[{"POS": "NOUN", "DEP":"nsubj"}],
[{"POS": "NOUN"},{"POS": "ADJ"}]
]}
]
# 修正后的匹配函数
def buscar_padroes_sequencialmente_corrigido(doc, patterns_config):
resultados = []
tokens_processados = set()
for pat_config in patterns_config:
label = pat_config["label"]
matcher = Matcher(doc.vocab)
for i, padrao_atual in enumerate(pat_config["pattern"]):
# 关键修改:添加 greedy="LONGEST"
# 确保在重叠匹配中优先选择最长的模式
matcher.add(f"{label}_{i}", [padrao_atual], greedy="LONGEST")
# 执行匹配
for padrao_id, inicio, fim in matcher(doc):
rótulo_base = matcher.vocab.strings[padrao_id].split('_')[0]
# 检查是否有任何令牌已被处理,以实现非重叠匹配
if any(token.i in tokens_processados for token in doc[inicio:fim]):
continue
# 将当前匹配的令牌索引添加到已处理集合
tokens_processados.update(token.i for token in doc[inicio:fim])
# 将匹配的令牌转换为Span对象并添加到结果
span = Span(doc, inicio, fim, label=rótulo_base)
resultados.append((rótulo_base, span))
return resultados
# 运行修正后的函数并打印结果
resultados_corrigidos = buscar_padroes_sequencialmente_corrigido(doc, patterns)
print("\n--- 修正后的匹配结果 ---")
for i, (rotulo, span) in enumerate(resultados_corrigidos, start=1):
pos_tokens = [token.pos_ for token in span]
print(f"OSemantic {i}:", span.text, f'({rotulo})')
print("POStoken:", pos_tokens)
print()通过理解和恰当使用Matcher.add()中的greedy参数,开发者可以构建出更加精确和鲁棒的SpaCy模式匹配系统,有效处理各种复杂的文本分析场景。
以上就是使用SpaCy进行复杂模式匹配:解决重叠匹配中的优先级问题的详细内容,更多请关注其它相关文章!
相关文章:
vivo云服务网页版登录 怎么登录vivo云服务网页版
c++ 获取系统当前时间 c++时间戳获取方法
Golang如何安装Swagger工具_GoSwagger文档生成环境
Golang如何使用net/url解析URL_Golang URL解析与处理方法
HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制
解决Tabulator日期时间排序问题的专业指南
写好的html代码怎么运行出来_运行写好的html代码方法【教程】
Eclipse怎么运行工程_Eclipse工程运行配置说明
qq游戏手机版下载安装_qq游戏移动端入口
Flexbox布局实践:实现粘性导航栏与底部固定页脚
Linux如何排查内存不足OOME问题_LinuxOOM分析教程
qq浏览器打开空白页怎么办 qq浏览器启动后显示白屏的解决教程
《北京人工智能产业白皮书(2025)》发布:全年核心产值预计突破 4500 亿元
J*a递归快速排序中静态变量导致数据累积问题的解决方案
Go与Ruby之间实现AES加密互通:CFB模式下的密钥长度匹配策略
学习通网页版快速入口 学习通官网网页版直接打开
Excel组合图表怎么做 Excel创建柱状图与折线组合图教程【图表】
苹果手机如何防止被恶意App追踪
微信网页版扫码登录入口 微信网页版二维码登录入口
sublime侧边栏怎么增强功能_SideBarEnhancements for sublime安装与配置
WooCommerce 购物车显示所有交叉销售商品教程
创客贴用户入口官网登录 创客贴网页版电脑版系统
AngularJS $http POST请求数据传递与Go后端接收实践
PHP URL参数传递与500错误调试指南
Pygame教程:解决用户输入与游戏状态更新不同步问题
Python多线程中正确使用sigwait处理SIGALRM信号
抖音网页版平台入口 抖音网页版官网在线访问教程
CSS Grid如何控制元素对齐_align-items与justify-items组合使用
Win10如何开启蓝牙功能_Windows10找不到蓝牙开关解决方法
css卡片内容溢出如何处理_使用overflow隐藏或scroll显示内容
yandex入口引擎手机版 yandex安卓版下载入口
win11开机启动修复循环怎么办 Win11无法进入系统高级启动解决方法【修复】
魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】
微信商城在哪里打开【步骤】
mysql如何设置表访问权限_mysql表访问权限配置
Composer的 COMPOSER_PROCESS_TIMEOUT 配置项有什么用_解决因执行时间过长而失败的Composer脚本
纯CSS与HTML网格布局的HTML精简策略:SVG与JS方案解析
taptap防沉迷怎么解除 taptap解除健康系统限制说明【2025最新】
从OpenAI API响应中高效提取生成文本
CSS布局中意外空白:解决padding-top导致的顶部间距问题
京东京造J1和网易云音乐氧气真无线有什么不同_国产电商蓝牙耳机音质对比
顺丰快件物流信息 官方网站查询入口
动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道
sublime如何配置Go语言开发环境_sublime搭建Golang编译运行系统
J*aScript类型检查_j*ascript代码规范
C++如何实现单例模式_C++设计模式之线程安全的单例写法
汽水音乐车机版8.9下载 汽水音乐车机版8.9版本安装入口
Win11怎么设置鼠标主按键_Win11鼠标左右键功能互换
PHP高效扁平化嵌套数组:使用array_merge与数组解包操作符
Steam官网入口直达 Steam注册及登录步骤