作者:耿筠(国立台湾科技大学 专利研究所所长)
众所周知,聊天机器人的核技术是由演算法所建构自然语言处理技术。本文针对此项技术相关专利进行解说与分析。主要分为如何使用专利资料库找出与处理自然语言资料有关的专利、运用专利分类架构解说与自然语言处理相关的技术类型、该些专利所呈现出产业的状态等三部分。
专利制度设计了专利分类码,依据技术特徵而被赋予在各项专利文件中,表示该专利与那些技术有关。例如与半讨体有关的专利绝大多数被赋予了 H01L 的分类码。随着科技发展进程与创新技术手段特徵之演化,主管单位适度增修分类码的架构,以期符合当下的技术趋势。又如,将奈米技术运用在资讯之分析、储存或传输之量子计算的发展,2011 年 1 月新增加了分类码 B82Y 10/00;两年後又新增了分类码 H04B 10/00,以因应当时利用量子通讯相关技术专利申请案的持续成长。
与自然语言处理技术的专属编码在 2020 年 1 月被增加到了专利分类码系统,编号为 G06F 40/00 及细分的 71 个分类码。这不表示在此之前没有人申请与自然语言处理技术的专利,而是相关专利未累积到足够件数而需要特别归类。随时科技发展对於经济活动的影响,自然语言处理技术已呈现出高度的经济价值而相关专利申请也成为未来重要的技术项目,主责专利分类码的组织必须正视这种趋势的发展,并在适当时间以当下所能被理解的技术特徵而建构有系统的编码。因此,分类码变化反映了多年技术发展与市场运用所累积的实务。本文运用这项条件在欧洲专利资料库中检索出全球与自然语言处理有关的专利进行统计分析。特别要注意,本文分析并不包括语音的分析或合成、语音识别见等相关技术的专利。
根据本文检索结果,从 20 世纪中叶人类对於处理自然语言资料即产生了需求,且有具体的问题处理方案。促成近代发展电脑的 IBM 公司,在 1955 年申请了第一件相关专利,其技术内容与现今自然语言处理的程度有相当的差异。该技术实施於电动打字机上,例如在打字机上输入 d,在显示幕上出现人类语言惯性的数个字可供选择,例如 date,这样可以增加打字效率。
将统计时间拉到资讯科技发展较为成熟的 1980 年,与处理自然语言资料相关技术的专利统计如下图。明显的成长期大约在 1990 年至 2000 年之间。2000 年至 2010 年确立了该技术领域在产业发展的态势。呈现爆炸性成长的时间点落在 2010 年至 2020 年之间,也就是近十年的事情。由於专利资料更新时间的递延, 2022 年与 2023 年纳入统计的资料不完整。
ChatGPT 有申请专利吗?根据查询的结果,拥有者 OpenAI 仅有 2 件专利与自然语言处理有关。曾经有人在平台上问过 ChatGPT 相同问题,得到的回答也不置可否。这是否意味聊天机器人不再依赖专利保护?接下来我们看看其他数据。
下图所示为前 20 大的专利拥有者。从实际数据可以看出,OpenAI 背後的 Microsoft 是第二大的专利拥有者。IBM 是该领域拥有专利最多的厂商,但近期似乎没有涉足聊天机器人的重磅新闻。其他拥有者对聊天机器人产品发布若干重要讯息。Google 在 2023 年 2 月推出 Bard,类似於 ChatGPT 聊天功能,但限制较多。同年三月份,百度集团发布聊天机械人「文心一言」,声称发布会後 1 小时就有超过 3 万家企业申请试用。四月份,阿里巴巴的阿里云邀请使用者体验「通义千问」。
拥有专利数不少的日本企业,在前 20 大中占有四家,但鲜少有相关新闻。韩国仅有 Samsung 进入前 20 大,一贯维持 Samsung 在各项科技领域的地位,但也没有相关讯息。主要霸榜的美国厂商,共计 9 家,其余为中国 6 家。榜单上的厂商都是着名的资讯科技或是资料科技大厂。
就前两大且断层式领先的 IBM 与 Microsoft 比较,IBM 第一件与处理自然语言资料相关专利是 1955 年, Microsoft 第一件专利是在 1990 年。两者积攒的专利资产相当,近期申请热度也类似,如下图所示。但是两者在技术策略与运用领域上似乎有差异,尚未见到 IBM 有重大的类似产品发布。
拥有技术者必须评估市场获利的潜力而提出专利申请。如下图所示,专利活动集中於中国与美国两大市场,这也是全球最大的两个经济体。
自然语言处理相关专利的技术特性,在专利制度中以方法请求保护主,与电脑软体技术相似,技术类别都属於广义的数位资料处理。除了自然语言处理外,通常会具有其他的技术特徵。如下图所示,处理自然语言资料的专利技术中有 40% 涉及了数位计算机的档案系统、11% 与数据格式转换有关、8% 与模式识别有关,这些是属於技术主体的精进。从统计资料可以看出生物模式与行政是自然语言处理商业化运用的两大领域。属於一般性质聊天功能而不具有经济获利的技术手段,通常是不会申请专利。
在专利世界可见的未来,处理自然语言资料相关技术将会持续且快速的成长。短期间 IBM 与 Microsoft 可能维持领跑者的优势。作者预期长期发展下,在庞大经济利益驱使下专利诉讼将会发生,毕竟摆在眼前就是逐年增加的专利,这使得专利拥有者有更多技术性独占领域,与相对较多的筹码排除竞争者的非法行为。