基于人工智能算法的商品归类研究与应用
1 引言
随着国际贸易量的持续增长,中国已跃居全球最大出口国之位,对外贸易在我国经济体系中占据重要地位。为推动贸易便利化以及确保商品归类的准确性,世界海关组织(WCO)制定了一套名为协调制度(Harmonized System,简称HS)的编码体系。这套体系通过数字编码的形式,为跨境贸易中的货物提供了统一且明确的识别标准。海关商品归类,即是为待分类商品依据其描述信息匹配最为精准的10位HS类别代码的过程。高效精准的HS编码归类,对于海关部门在关税计算、贸易统计等方面的工作至关重要。同时,它也有助于企业加快通关速度、减少成本支出,为企业带来更大的利润增长空间[1,2]。
近年来,随着人工智能技术的发展,通过系统来辅助商品归类已经成为可能,并已经有相关的研究。谢维等[3]设计了一个 HS 编码查询知识库,在人工干预的情况下,可以对商品名进行语义识别,并基于知识库推理得到可能结果集,最后计算出相关置信度并返回结果。龚丽娟等[4]使用Word2Vec和SVM技术对报关商品文本进行词向量处理和归类,在只关注局部文本信息的前提下,取得了不错的分类效果。朱立平[5]等通过实验对比了TextRNN和SVM,证明了在大数据量的前提下深度学习方法的有效性。另外一些研究[6-7]基于异构神经网络、图神经网络等技术对商品归类技术做了有益的探索。但目前由系统来实现商品归类还存在一些问题。(1)研究选用的数据样本过小。相关研究往往使用较小的数据集,可能影响研究成果的准确性。(2)商品归类效率和准确率有待提高。尽管已经有一些智能归类的方法和工具,但是在效率和准确率方面仍然存在一些问题。(3)研究结果缺乏实际应用场景。一些研究虽然取得了一定的成果,但是缺乏企业实际应用场景的验证和反馈,距离企业实际应用还存在不适用的地方。
为贯彻国务院深化“放管服”改革要求,根据《国务院关于印发优化口岸营商环境,促进跨境贸易便利化工作方案的通知》(国发〔2018〕37号)关于“提升通关效率,提高口岸物流服务效能”以及“加强科技应用,提升口岸管理信息化智能化水平”的要求,中国电子口岸数据中心承建的国际贸易“单一窗口”(以下简称“单一窗口”)为企业提供通关预申报、物流、企业备案等多项便利化服务。2023年海关开展“智关强国”行动,在面向企业的调研座谈中,了解到企业在进出口服务中的痛点,通关申报过程中商品归类不准确、归类效率低等问题是企业反映较为突出的问题。针对进出口企业反映的问题,利用企业申报数据和人工智能技术构建商品归类算法,可以帮助企业提升商品归类准确性,提升企业通关速度。
本文首先介绍进出口企业商品归类的典型应用场景及存在的问题,其次基于BERT与TextCNN联合模型构建商品归类算法,并基于该算法实现商品智能归类系统,最后以用户真实场景开展算法和系统测试,验证归类算法的准确性和效率。
2 企业预录入申报商品归类场景及问题分析
2.1 商品归类典型应用场景
进出口贸易企业或委托代理报关企业要完成报关申报,首先需要报关人员根据商品型号、描述等形成商品申报要素,对照海关发布的归类税则进行商品预归类,并通过单一窗口完成向海关申报,海关再将审核结果给企业。典型的应用场景如下图所示。
图2-1 进出口企业申报典型场景
在此过程中,如果企业填写的商品税则号不准确或者错误,海关会审核反馈不通过,该申报就会被退单,退单意味着企业需要重新做商品归类和申报,这会严重影响企业的通关效率,错误的归类也可能导致关税计算的不准确,提高商品归类的准确率和泛化能力成为了进出口企业亟需解决的问题。
2.2 存在的问题分析
通过和进出口企业座谈及现场调研,目前企业在商品归类环节有两个主要问题。
(1)效率低下。效率低下体现在两个方面。一是目前大多数企业的商品归类工作主要依赖于人工操作。虽然人工操作有其独特的经验和直觉,但整个归类过程时间耗时较长。二是无法进行批量归类操作。人工方式只能逐个商品做归类,无法进行批量操作。随着企业贸易规模的不断扩大,依靠人工归类固有的耗时耗力、效率低下的缺点也日益凸显。
(2)错误率高。由于商品归类的复杂性以及对海关税则理解的差异,即使是经验丰富的归类专家也可能犯错。研究表明,大约30%的申报提交使用了错误的海关HS编码[2]。
以上问题给进出口企业造成了多方面的问题[8,9]。归类效率低下会直接影响企业的经营成本和核算成本,同时不利于进出口相关企业通关效率的提升,对企业的信誉和财务状况产生负面影响,有可能增加企业的进出口成本。
针对企业面临的商品归类痛点和问题,通过采集典型企业进出口申报数据,基于人工智能技术开展商品归类算法研究,为企业解决堵点、难点,就具有较为显著显著的社会效益和经济效益。
3 智能归类模型设计与实现
3.1 文本分类算法简介与选择
商品归类本质上是文本分类任务,通过给定的商品名称和描述的文本信息,进行判定该商品所属的类别。文本分类作为NLP领域中的经典应用场景之一,近年来文本分类领域累积了很多解决方法。基于深度学习的文本分类有facebook开源的FastText[10]文本分类模型,Text-CNN[11]文本分类,Text-RNN[12]文本分类,基于word2vec[13]文本分类模型等。对于一切用深度学习技术解决文本分类的问题,文本的向量化都是最基础而关键的环节,预训练向量效果的好坏会直接影响下游分类任务的准确性,因此需要选用合适的预训练模型。现有预训练模型可以大致分为两类,一类是像Word2vec、FastText这样的静态词向量模型,这类模型无法解决一词多义问题,另一类是像ELMo[14]、GPT[15]、BERT[16]这样的动态词向量模型,这类模型结合了上下文信息,在不同的语料中对同一文本的向量表示不同,实现了一词多义的功能。其中ELMo是一个双向的长短期记忆网络,GPT则采用半监督的方式训练模型,不同的是在下游任务进行了微调。而对于BERT模型,与其他动态词向量模型的不同在于,它是一个双向的预训练模型,而GPT和ELMo模型都是采用的是单向网络结构。另外,BERT为了能够双向训练还使用了Masked LM机制,并使用Next Sentence Prediction机制来获取句子间关系。综上,BERT作为一个深层的双向语言模型,表达的信息量更加丰富,因此本研究使用BERT作为预训练模型。
虽然BERT预训练模型表达的信息量丰富,且学习到了上下文关系信息,但是由于模型中变化较小的内部参数值,导致容易产生过拟合,在非训练数据上表现较差,同时模型存在仅学习到字特征的问题。为了避免以上问题,本研究融合了TextCNN分类器,利用多种卷积核提取句子中不同长度的词特征,进而捕捉关键词信息,弥补BERT预训练模型的缺陷,且TextCNN可并行训练。
3.2商品归类智能归类算法设计
基于上述分析,本研究提出了一种基于BERT和TextCNN的联合模型的智能归类算法,该联合模型原理如下图所示:
图3-1 智能归类模型结构
(1)BERT特征提取层
BERT被用于对句子级文本的语义信息进行动态词向量表示,输入为文本序列化向量,输出为经过多层Transformer编码器的特征向量。具体地,BERT对输入文本序列进行语义编码得到词嵌入,段嵌入以及位置嵌入编码,并将三种编码信息相加的特征表示传入到12层Transformer Encoder中,且其注意力层共享参数。在每层Encoder中,BERT首先基于多头自注意力机制进行计算,得到文本序列的增强语义向量表示。其次利用双层的全连接前馈神经网络,通过一组线性权重、偏置将每个注意力结果映射到一个更大维度的特征空间中,并通过GELU(gaussian error linear units)激活函数增强模型非线性表达力后,再利用另一组线性权重、偏置将特征表达恢复到初始维度。最后通过多层Transformer编码器处理后的特征向量全面、准确的捕获了文本自身及上下文语义信息。
(2)TextCNN特征提取层
TextCNN特征提取层的作用在于利用一维卷积和池化操作,在BERT全局特征的基础上,对句子文本的局部特征进行捕获。其输入为BERT词向量化后每个融合自身与上下文语义的子词Token表征,输出则是一个融入局部信息的一维特征表示。具体地,所有的Token级特征组成一个词向量表示。然后使用不同大小的卷积核,对输入词向量进行卷积与池化操作,同一类型卷积后的特征向量拼接在一起后,再通过二次拼接成为一维的特征表示。
(3)分类层
最后由一个全连接网络与Softmax分类器构成的商品编码分类层,先对TextCNN层提取到的融合句子整体上下文语义与局部信息的特征表示进行线性映射,然后利用Softmax回归将特征归一化到0和1之间,归一化后向量中的每一个元素表示相应商品编码标签的概率值,此时最大元素对应的商品编码标签即为分类结果。
综上所述,基于BERT和TextCNN的联合模型是一种具有创新性和实用性的智能归类算法,它能够充分利用BERT和TextCNN两种网络在序列数据处理方面的优势,并且通过多种技术手段提高模型表达能力、泛化能力、稳定性和收敛速度。该算法也可以大大提升商品归类的效率和准确率。
4 应用实践
4.1 模型训练及测试
我们基于第3部分的设计方案构建智能归类算法,使用企业近一年的申报数据中与商品归类相关的字段进行模型训练。数据集涵盖了4种不同行业的历史数据,对于数据集内的每件商品,都给出了完整的商品描述信息以及其所对应的10位HS编码。
为了验证模型的性能,本文使用准确率(Precision)作为模型的评价指标。准确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。准确率的计算公式如下:
其中TP(True Positive)表示真正例,即预测值与真实值相同,FP(False Positive)表示假负例,即预测值与真实值不同。
按照算法设计流程对全量数据进行统计分析,构造训练集、验证集和测试集。在训练数据中存在明显的“大类”分布,其中有843种税号对应数据35527857条共占训练数据的 78.5%,对这部分数据的学习主导了训练过程。经过6轮epoch的训练之后,在训练集上的测试结果表明,模型对训练数据量大于等于1000条的税号的预测准确率为94.53%,对训练数据量大于等于100条但小于1000条的税号的预测准确率为89.62%,如表4-1所示。实验结果表明随着数据量的增大模型的拟合效果越好,预测准确率越高。模型训练完成后,使用构造测试集测试模型性能,最终模型的准确率达到了95.3%。
表4-1 模型在训练集上的表现
|
训练集 |
1000条以上数据量 |
100~1000条数据量 |
|
准确率 |
94.53% |
89.62% |
为了进一步验证模型的性能,我们随机抽取了两个月的数据进行测试,为了验证模型的能否用于生产实际中,我们从企业真实申报数据中抽取出5万条数据用于测试模型性能。表4-2在展示了实验结果,其中单一准确率为模型推出的第一个税号即为目标税号即为推理成功,三候准确率即模型推理出的前三个税号中存在目标税号即为推理成功。测试结果表4-2所示。
表4-2 模型在测试数据上的表现
|
数据 |
单一准确率 |
三候选准确率 |
|
第1个月数据 |
89.6% |
90.0% |
|
第2个月数据 |
89.5% |
89.9% |
|
企业真实报关数据 |
95.4% |
99% |
由以上实验结果可知,智能归类算法在不同的数据集上都达到了非常高的准确率,表明了算法设计的有效性和正确性。
4.2 智能归类系统
基于上文的智能归类算法,我们设计并实现了智能归类系统,给用户提供可视化的操作界面从而便于算法的实际验证。
(1)商品名称及申报要素输入
用户系统根据系统提示,按照要求填写商品名称、规格信号、商品材质、商品用途等商品信息,输入界面如图4-1,填写完成后点击查询按钮,后台会得到用户输入的数据,调用模型进行推理。
图4-1 用户输入商品名称申报要素截图
(2)模型归类结果展示
图4-2呈现了模型的推理结果,其中模型识别并返回了三个最有可能的税号。
图4-2 模型归类结果截图
5 结语
提升商品归类准确性对于进出口企业提高报关申报效率与通关速度至关重要。针对当前进出口企业在报关单申报过程中普遍面临的申报错误率高、效率低下的问题,本研究创新性地提出了基于BERT与TextCNN联合模型的商品归类算法,并以这一算法为基础构建了智能归类系统。在实际场景测试中,该系统展现出显著优于传统归类方法的性能,以企业真实数据测试,单一归类准确率超过95%。随着人工智能技术的持续进步,后续可以考虑利用OCR技术实现商品信息的自动化提取,并借助大型模型技术进一步优化申报要素,旨在进一步提升商品归类的准确性和速度,在推动智能归类系统的持续创新与发展的同时,也可以为进出口企业提供更加高效、准确的报关申报解决方案。