北京索文翻译有限公司,已自研应用Sovatrans(索雅机翻系统),此系统是基于大模型重构的索雅智能专利文档机翻系统/语言服务平台。传统翻译使用人工翻译在处理紧急文件和辅助性资料时,时间成本与费用较高。 通用型翻译引擎译文句子逻辑混乱,译文词汇不准确较专业术语偏差较大。索雅机翻系统专门针对专利技术文档进行自动翻译的计算机系统。是一种专门针对专利技术文档(如权利要求书、说明书、摘要等)进行跨语言转换的人工智能驱动工具。其核心目标是通过自动化翻译技术,结合领域知识(如法律术语、技术术语)和结构化数据处理能力,实现高准确性、术语一致性和法律合规性的专利文档翻译。
1.基于专利技术文档语料库(双语对齐数据)训练,区别于通用机器翻译模型。
2.强制绑定专利术语库(如TBX格式),确保“权利要求”(claims)、“实施例”(embodiment)等术语翻译严格一致。
3.法律与技术双重要求,避免模糊表达,例如“may”需译为“可”(非“可能”)以符合专利法律文本的确定性要求,精准处理专业表述。
4.采用Transformer等模型,优化长文本和复杂句式(如权利要求中的嵌套结构)的翻译效果,支持上下文感知翻译,解决专利文档中代词指代模糊的问题。
5.术语与质量控制系统,术语强制替换,在输出阶段锁定术语库中的预定义翻译, 结合规则引擎修正常见错误。
6.人机协同,系统输出需由专利翻译专家进行法律校验,形成“机器翻译+人工后编辑”闭环。
语料库管理和术语标注服务,是专门针对多语言专利技术文档处理需求设计的专业服务,旨在通过构建高质量双语(或多语)语料库和精准术语库,提升翻译效率、一致性及专业性。
针对专利技术文档的翻译需求,从多语言专利文本(如中英、中日、中德等)中系统化采集、清洗、对齐和存储双语对照语料,构建支持翻译记忆(TM)和机器翻译(MT)训练的专用语料库的服务。
1.多语言数据采集,参考各国专利局公开的双语专利(如中国国家知识产权局CNIPA的中英对照专利)、第三方翻译数据库。
2.对齐技术,段落/句子级对齐:通过规则(如编号匹配)或算法(如BERT跨语言相似度计算)实现中英文段落或句子的精准对应;元数据对齐,确保专利号、技术领域、权利要求项等元数据在双语文档中一致。
3.翻译导向的清洗与标准化,移除翻译残留的乱码、重复内容(如重复权利要求项的不同语言版本),统一数字、单位、公式的表达,进行术语一致性检查,筛查术语翻译冲突。
4.结构化存储与检索,翻译记忆库(TM)存储为TMX(Translation Memory eXchange)等标准格式,支持主流CAT工具(如Trados、MemoQ)调用。检索功能支持按技术领域(如“半导体”“生物医药”)、专利类型或关键词检索双语语料。
1.针对专利翻译中的术语一致性需求,通过人工与自动化结合的方式,从双语专利文档中提取专业术语,建立跨语言术语映射关系,并标注语义信息的服务。
2.跨语言术语提取与对齐,自动化提取,单语术语识别,利用NLP工具(如TermoStat、Sketch Engine)提取高频技术词汇。
3.双语对齐:通过共现分析或预训练模型(如mBERT)匹配中英文术语对。
4.人工校验:由专利翻译专家确认术语准确性。
5.术语标准化与关系标注,统一同一术语的不同译法。
6.语义关系标注,标注术语层级关系的上下位词,标记术语的翻译等价性或文化差异。
7.术语库集成与应用,格式输出生成TBX(TermBase eXchange)术语库、Excel表或集成到CAT工具的术语库模块。
8.动态更新,根据新专利技术发展持续补充术语。
Copyright © 2025 北京索文翻译有限公司