TEES.Detectors.Preprocessor

22 - def __init__(self):

23 ToolChain.__init__(self) 24 self.modelParameterStringName = "preprocessorParams"

25

26 - def getDefaultSteps(self):

27 steps = [] 28 steps.append( ("CONVERT", self.convert, {"dataSetNames":None, "corpusName":None}, "documents.xml") ) 29 steps.append( ("SPLIT-SENTENCES", Tools.GeniaSentenceSplitter.makeSentences, {"debug":False, "postProcess":True}, "sentences.xml") ) 30 steps.append( ("NER", Tools.BANNER.run, {"elementName":"entity", "processElement":"sentence", "debug":False, "splitNewlines":True}, "ner.xml") ) 31 steps.append( ("PARSE", Tools.BLLIPParser.parse, {"parseName":"McCC", "requireEntities":False, "debug":False}, "parse.xml") ) 32 steps.append( ("CONVERT-PARSE", Tools.StanfordParser.convertXML, {"parser":"McCC", "debug":False}, "converted-parse.xml") ) 33 steps.append( ("SPLIT-NAMES", ProteinNameSplitter.mainFunc, {"parseName":"McCC", "removeOld":True}, "split-names.xml") ) 34 steps.append( ("FIND-HEADS", FindHeads.findHeads, {"parse":"McCC", "removeExisting":True}, "heads.xml") ) 35 steps.append( ("DIVIDE-SETS", self.divideSets, {"outputStem":None, "saveCombined":True}) ) 36 return steps

37

38 - def process(self, source, output, parameters=None, model=None, sourceDataSetNames=None, fromStep=None, toStep=None, omitSteps=None):

39 # Initialize variables and save existing default values 40 #self.intermediateFileTag = corpusName 41 #parameters = self.getParameters(parameters, model) 42 #parameters["CONVERT.dataSetNames"] = sourceDataSetNames 43 #parameters["CONVERT.corpusName"] = corpusName 44 #convertSetNames = self.stepArgs("CONVERT")["dataSetNames"] 45 #convertCorpusName = self.stepArgs("CONVERT")["corpusName"] 46 #self.stepArgs("CONVERT")["dataSetNames"] = sourceDataSetNames 47 #self.stepArgs("CONVERT")["corpusName"] = corpusName 48 # Run the tool chain 49 xml = ToolChain.process(self, source, output, parameters, model, fromStep, toStep, omitSteps) 50 # Reset variables to saved default values 51 #self.stepArgs("CONVERT")["dataSetNames"] = convertSetNames 52 #self.stepArgs("CONVERT")["corpusName"] = convertCorpusName 53 return xml

54

55 - def convert(self, input, dataSetNames=None, corpusName=None, output=None):

56 if os.path.isdir(input) or input.endswith(".tar.gz") or input.endswith(".txt") or "," in input: 57 print >> sys.stderr, "Converting ST-format to Interaction XML" 58 # Get input file (or files) 59 dataSetDirs = input 60 documents = [] 61 if type(dataSetDirs) in types.StringTypes: 62 dataSetDirs = dataSetDirs.split(",") 63 # Get the list of "train", "devel" etc names for these sets 64 if dataSetNames == None: 65 dataSetNames = [] 66 elif type(dataSetNames) in types.StringTypes: 67 dataSetNames = dataSetNames.split(",") 68 # Convert all input files into one corpus 69 for dataSetDir, dataSetName in itertools.izip_longest(dataSetDirs, dataSetNames, fillvalue=None): 70 print >> sys.stderr, "Reading", dataSetDir, "set,", 71 docs = Utils.STFormat.STTools.loadSet(dataSetDir, dataSetName) 72 print >> sys.stderr, len(docs), "documents" 73 documents.extend(docs) 74 print >> sys.stderr, "Resolving equivalences" 75 Utils.STFormat.Equiv.process(documents) 76 if corpusName == None: 77 corpusName = "TEES" 78 self.xml = Utils.STFormat.ConvertXML.toInteractionXML(documents, corpusName, output) 79 else: 80 print >> sys.stderr, "Processing source as interaction XML" 81 self.xml = ETUtils.ETFromObj(input) 82 return self.xml

83

84 - def divideSets(self, input, outputStem, saveCombined=True):

85 if outputStem != None: 86 print >> sys.stderr, "Dividing into sets" 87 outDir, outputStem = os.path.split(outputStem) 88 Utils.InteractionXML.DivideSets.processCorpus(input, outDir, outputStem, ".xml", saveCombined=saveCombined) 89 else: 90 print >> sys.stderr, "No set division"

Source Code for Module TEES.Detectors.Preprocessor