# 参考ocr_demo,将数据集train和test的ocr识别结果保存成文本txt。
# 在环境中 pip install aip ,pip install jieba
from aip import ocr
import json
import os
import jieba
import re
import string
from multiprocessing import Pool
#from tqdm import tqdmdef clean_sentence(sentence):'''特殊符号去除:param sentence: 待处理的字符串:return: 过滤特殊字符后的字符串'''if isinstance(sentence, str):#r'[\s+\-\|\!\/\[\]\{\}_,.$%^*(+\"\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+|车主说|技师说|语音|图片|你好|您好',return re.sub(r'[\s+\-\|\!\/\[\]\{\}_,.$%^*(+\"\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+|《|》|s|','', sentence)else:return