一、非标准JSON的典型形态与修复挑战

JSON（JavaScript Object Notation）作为数据交换标准，其RFC 8259规范明确要求使用双引号包裹键名、禁止注释、禁止末尾多余逗号。但在实际开发中，我们常遇到以下非标准形态：

// 示例1：单引号包裹键名
{'name': 'Alice', 'age': 25}
// 示例2：包含注释的配置文件
{
  "host": "127.0.0.1", // 开发环境地址
  "port": 8080
}
// 示例3：数组末尾多余逗号
[1, 2, 3,]

这些格式虽然能被某些JavaScript引擎解析，但在严格模式或跨语言场景下会导致解析失败。传统解决方案通常采用简单字符串替换，但存在以下局限性：

无法处理嵌套结构中的特殊字符
容易破坏字符串内部的合法单引号
无法识别并保留注释等语义信息

二、方案一：基于正则的字符串规范化

基础修复策略

最基础的修复方式是通过正则表达式进行全局替换：

function basicFix(jsonStr) {
  // 替换单引号为双引号（简单场景）
  let result = jsonStr.replace(/'/g, '"');
  // 移除单行注释
  result = result.replace(/\/\/.*$/gm, '');
  // 移除多行注释（简化版）
  result = result.replace(/\/*[\s\S]*?*\//g, '');
  // 移除数组/对象末尾逗号
  result = result.replace(/,(\s*[}\]])/g, '$1');
  return result;
}

局限性分析

该方案存在三个核心问题：

字符串破坏风险：当JSON值包含单引号时（如{'message': 'It\'s OK'}），简单替换会导致语义错误
注释位置误判：可能错误移除字符串内部的//序列（如URL中的http://example.com）
嵌套结构失效：无法正确处理多层嵌套中的末尾逗号

改进实现

通过更精细的正则分组和回溯引用解决部分问题：

function improvedStringFix(jsonStr) {
  // 使用捕获组保护字符串内部的单引号
  return jsonStr.replace(/(\\['"]|[^'])*?'/g, match => {
    if (match.startsWith("'") && !match.includes('\\') && 
        !match.startsWith("'http") && !match.endsWith("'")) {
      return `"${match.slice(1, -1)}"`;
    }
    return match;
  })
  .replace(/,\s*([}\]])/g, '$1') // 修复末尾逗号
  .replace(/\/\/.*$/gm, '');      // 移除注释
}

三、方案二：基于AST的语法树修复

解析-修复-序列化流程

更健壮的方案是使用解析器生成抽象语法树（AST），通过树操作实现精准修复：

解析阶段：使用兼容性解析器将JSON转换为AST
修复阶段：遍历AST节点进行规范化处理
序列化阶段：将修复后的AST重新生成标准JSON

具体实现示例

function astBasedFix(jsonStr) {
  try {
    // 使用兼容性解析器（需引入json5等库）
    const parsed = JSON5.parse(jsonStr);
    // 深度优先遍历修复节点
    const traverse = (node) => {
      if (Array.isArray(node)) {
        // 移除数组末尾的undefined元素
        while (node.length > 0 && node[node.length - 1] === undefined) {
          node.pop();
        }
      } else if (typeof node === 'object' && node !== null) {
        // 移除对象中的undefined属性
        Object.keys(node).forEach(key => {
          if (node[key] === undefined) {
            delete node[key];
          }
        });
      }
      // 递归处理子节点
      for (const key in node) {
        if (typeof node[key] === 'object') {
          traverse(node[key]);
        }
      }
    };
    traverse(parsed);
    return JSON.stringify(parsed, null, 2);
  } catch (e) {
    console.error('AST修复失败:', e);
    return null;
  }
}

优势说明

语义保留：不会破坏字符串内部的特殊字符
结构安全：正确处理嵌套结构中的各种边界情况
扩展性强：可轻松添加新的修复规则（如日期格式标准化）

四、方案三：混合模式容错解析

渐进式解析策略

对于特别复杂的非标准JSON，可采用混合模式：

预处理阶段：使用正则快速修复明显错误
容错解析阶段：尝试多种解析器组合
后处理阶段：对解析结果进行二次验证

代码实现

function hybridParse(jsonStr) {
  // 预处理：移除注释和多余空格
  const cleaned = jsonStr
    .replace(/\/\/.*$/gm, '')
    .replace(/\/*[\s\S]*?*\//g, '')
    .replace(/\s+/g, ' ')
    .trim();
  // 容错解析器数组
  const parsers = [
    // 标准JSON解析
    str => { try { return { result: JSON.parse(str), parser: 'native' }; } catch {} },
    // 宽松模式解析（需引入json5等库）
    str => { try { return { result: JSON5.parse(str), parser: 'json5' }; } catch {} },
    // 自定义解析（处理特定模式）
    str => {
      if (/^\s*[\{\[]/.test(str)) {
        try {
          // 尝试修复单引号后解析
          const fixed = str.replace(/(\\['"]|[^'])*?'/g, 
            m => !m.includes('\\') && !/http/.test(m) ? `"${m.slice(1, -1)}"` : m);
          return { result: JSON.parse(fixed), parser: 'custom-quote-fix' };
        } catch {}
      }
    }
  ];
  // 依次尝试解析器
  for (const parseFn of parsers) {
    const parsed = parseFn(cleaned);
    if (parsed?.result) {
      console.log(`解析成功，使用解析器: ${parsed.parser}`);
      return parsed.result;
    }
  }
  throw new Error('无法解析的JSON格式');
}

五、生产环境实践建议

最佳实践组合

输入验证：在接收数据时立即进行格式校验
渐进修复：先尝试标准解析，失败后使用混合模式
结果验证：对解析结果进行schema验证
错误隔离：单个记录解析失败不应影响整个批次

性能优化技巧

缓存解析器：避免重复初始化解析库
流式处理：对于大文件采用流式解析
并行尝试：使用Worker线程并行尝试不同解析策略

安全注意事项

大小限制：设置最大解析深度防止堆栈溢出
循环引用：检测并拒绝包含循环引用的对象
原型污染：使用Object.create(null)创建纯净对象

六、总结与展望

三种方案各有适用场景：

简单场景：正则替换（方案一）
复杂结构：AST修复（方案二）
未知格式：混合模式（方案三）

随着WebAssembly技术的发展，未来可能出现更高性能的JSON解析器，能够在浏览器端实现接近原生速度的容错解析。开发者应持续关注ECMA标准更新，及时调整修复策略以适应新的数据格式规范。

非标准JSON数据修复指南：三种技术方案与代码实现详解