术语库(Termbase):存储和管理标准化术语的数据库系统,包含术语定义、语境、词性、领域标签等元数据。通过XLIFF文件格式实现跨平台兼容,支持术语自动识别与强制应用功能。核心参数包括:术语条目容量(建议百万级)、术语识别响应时间(<200ms)、多字段检索(支持正则表达式和模糊匹配)。技术组件包含术语抽取引擎、对齐记忆库(Alignment Memory)、QA校验模块,支持TBX(TermBase Exchange)标准输出,确保与主流CAT工具的API集成兼容性。
翻译行业核心术语词典
翻译记忆库(TM)
翻译单元(TU):存储源语言与目标语言对应片段的最小单位,包含匹配率(通常以75%为模糊匹配阈值)、上下文编号(Context ID)、时间戳等元数据。关键技术指标包括:片段重复率(影响ROI)、杠杆率(Leverage Rate)、100%匹配(Perfect Match)比例。高级功能涉及:上下文敏感匹配(CSM)、自动子片段拆分、正则表达式变量保护。采用SRX标准进行句子分割,通过TMX格式实现跨平台迁移,建议维护周期为季度级术语清洗与去重优化。
计算机辅助翻译(CAT)
断句规则(Segmentation):基于SRX标准将文本分割为可翻译单元的逻辑规则,支持正则表达式定义分割符。核心参数包括:最大句段长度(建议≤150字符)、硬分隔符(句号/感叹号)、软分隔符(逗号/分号)。高级功能包含:上下文继承(Context Propagation)、标签保护(Tag Protection)、非译元素锁定(Placeholder Locking)。典型工具支持TM匹配率分层计费模式:100%匹配(重复内容)、95-99%匹配(模糊匹配)、低于75%匹配(新翻译)。
本地化质量保证(LQA)
严重性分级:关键错误(Critical)- 导致功能故障;重大错误(Major)- 影响理解;次要错误(Minor)- 格式问题。检查维度包含:术语一致性(≥98%)、度量衡转换(符合目标区域标准)、文化适配性(无宗教/政治敏感内容)。自动化检测工具支持:正则表达式批量检查(日期/货币格式)、XML标签完整性验证、术语库强制匹配。人工评审采用抽样检测法(AQL标准),通常接受质量水平(AQL)设定为1.5%,缺陷上限为6.5%。
伪本地化(Pseudo-localization)
扩展字符测试:通过添加重音符号(如àçéñ)检测UI布局兼容性,字符扩展率通常设置为30%-40%以模拟德语等复杂语言。边界标记:在字符串首尾插入[##]标识符检测截断问题。典型测试场景包括:双向文本(BIDI)渲染测试、热键冲突检测(&符号处理)、多字节字符编码(UTF-8/UTF-16)验证。技术实现方式:使用ICU库实施文字变形、通过正则表达式进行字符串膨胀(String Expansion)、创建伪翻译记忆库(Pseudo TM)实现自动化替换。
神经机器翻译(NMT)
模型参数:典型配置包含12-24层编码器、多头注意力机制(8-16头)、隐藏层维度1024-4096。训练数据要求:平行语料库规模≥500万句对,领域覆盖度需达80%以上。量化指标:BLEU评分(专业领域≥50)、TER(翻译编辑率≤35%)、METEOR(语义相似度≥60)。部署方式:支持ONNX运行时加速、FP16量化压缩、GPU集群并行推理(吞吐量≥5000字/秒)。人机交互模式包含:实时译后编辑(PE)、质量预测置信度提示(0-1概率值)、术语强制注入(Glossary Injection)功能。