对话式数据分析新技术:一文带你了解语义解析

语义解析(本文指Text-to-SQL任务)技术是语言理解核心技术之一,旨在让机器自动将用户输入的自然语言问题转成数据库可操作的SQL查询语句,实现基于数据库的自动问答能力。

该任务有很大的挑战性,主要体现在以下三点:1)多输入,输入包括自然语言问题和对应的数据库,其中,基于多表的数据库是一个复杂的图结构;2)模型需对新领域具有泛化能力,即测试集中的数据库、问题和对应的查询语句在训练集中没有出现过;3)生成的SQL查询语句是一个符合语法、有逻辑结构的可执行序列。

当前学术界及工业界很多研究重点解决上述问题,包括语法树解码、基于问题和数据库映射关系的自注意力机制等。

Text-to-SQL技术能够有效辅助人们对海量数据库进行查询,降低数据库使用门槛和人力成本。其有许多实际应用场景,如信息检索、智能客服、商业智能等。近期,国内外研究者还发布了一些数据集并举办了相关评测,吸引了许多学者关注,也极大的推动了该技术的发展。

针对该技术,百度资深研发工程师杰立在直播中为大家介绍了语义解析任务&应用价值、主要数据集及评测介绍,最后介绍了主流方法及研究热点。我们一起去回顾下解密千言计划系列直播——语义解析的精彩内容!

语义解析任务&主要数据集及评测介绍

主流方法及研究热点

Q&A

Q1

时间相关的value一般怎么解析和格式化?

时间相关的value识别需要预处理,格式向数据库中的格式对齐,在实际应用中,数字和时间类型value都需要预处理处理。

Q2

最新的基线模型什么时候能公开?

最新的基线大概在5月份左右公开。

Q3

在专业数据集上缺乏数据,效果差怎么办?

数据增强、加强数据库与问题的映射匹配(如加强数据库中列与问题中token的匹配,可增加专业术语同义词匹配)等。

Q4

利用cell value对影响大吗?隐私性部分呢?

cell value的作用比较大,这部分在schema linking的时候,帮助也很大;对于隐私性,一般字符串类型的cell可以提供,数字和时间类型的,不需要提供,这样可解决很大一部分隐私性问题。

Q5

值也编码的话,输入会太多么,有筛选吗?

值提前有筛选,通过字符串匹配的方式,与问题中token进行匹配,与问题中token有匹配或部分匹配的值会作为候选。

(0)

相关推荐