alpcentaur
/
basabuuka_prototyp

# Klasse zum Konvertieren von nicht Aussagen zu postiven Aussagen.

# Notiz: nicht + Adjektiv kann direkt durch Gegenwort ausgetauscht werden.# nicht + verb kann zum Gegenwort des Verbes ausgetauscht werden, dabei muss aber nach Hause weggecuttet werden bei bsp Er ging nicht nach Hause. Er blieb 

# in wiktionary {{Gegenwörter}} Kategorie
import spacyimport nltkfrom nltk.stem.snowball import SnowballStemmer
import hickle as hklimport FASTsearch
stemmer = SnowballStemmer("german")

class SayYes(object):        def __init__(self, hklDatabaseDir_Opposites, hklDatabaseDir_Opposites_All):                if hklDatabaseDir_Opposites is not None:            self.OppositesDB = hkl.load(hklDatabaseDir_Opposites)                         #print('loading the german spacy model..')        self.nlp = spacy.load('de_core_news_sm')        #print('done')                #print('loading the stemmer..')        self.stemmer = SnowballStemmer("german")        #print('done')                return            def create_hklDB_from_csv(self, csvDbDir):                with open(csvDbDir) as lines:                        self.OppositesDB_All = []                        for line in lines:                                #print(line)                                self.OppositesDB_All.append(list(eval(line)))                                                                        self.hkldbOpposites1 = []            self.hkldbOpposites2 = []                                    counter = 0            for n in range(len(self.OppositesDB_All)):                                counter += 1                if counter % 1000 == 0:                    print(counter)                                                self.hkldbOpposites1.append([self.OppositesDB_All[n][0][0]] + [self.stemmer.stem(word) for word in self.OppositesDB_All[n][0]] )                self.hkldbOpposites2.append([self.OppositesDB_All[n][1][0]] + [stemmer.stem(word) for word in self.OppositesDB_All[n][1]] )                                                            #print('hkldbOpposites1', self.hkldbOpposites1)            #print('hkldbOpposites2', self.hkldbOpposites2)                        print('creating the hkl dump of OppositesDBAll')                hkl.dump(self.OppositesDB_All, 'hkldbOpposites_All.hkl', mode='w', compression='gzip')            print('done..')                        print('Creating the hkl dump of OppositesDB 1')            hkl.dump(self.hkldbOpposites1, 'hkldbOpposites1.hkl', mode='w', compression='gzip')            print('done..')                        print('Creating the hkl dump of OppositesDB 2')            hkl.dump(self.hkldbOpposites2, 'hkldbOpposites2.hkl', mode='w', compression='gzip')            print('done..')                                        return 'done'        def load_DB_into_FASTsearch(self):                #print('Loading the hklDB1..')        self.hkldbOpposites1 = hkl.load('hkldbOpposites1.hkl')        #print('done')                #print('Loading the hklDB2')        self.hkldbOpposites2 = hkl.load('hkldbOpposites2.hkl')        #print('done')                #print('loading hkldbOpposites 1..')        self.fsearch1 = FASTsearch.FASTsearch('hkldbOpposites1.hkl')        #print('done')                #print('loading hkldbOpposites 2..')        self.fsearch2 = FASTsearch.FASTsearch('hkldbOpposites2.hkl')        #print('done')                #print('generating BoW Model 1..')        #self.fsearch1.Gen_BoW_Model(3000, "word", punctuation = False)        #print('done')                #print('generating BoW Model 2..')        #self.fsearch2.Gen_BoW_Model(3000, "word", punctuation = False)        #print('done')                        #print('loading the bow model 1')        self.fsearch1.Load_BoW_Model('bagofwordshkldbOpposites1.pkl', 'DataBaseOneZeroshkldbOpposites1.hkl')        #print('done')                #print('loading the bow model 2')        self.fsearch2.Load_BoW_Model('bagofwordshkldbOpposites2.pkl', 'DataBaseOneZeroshkldbOpposites2.hkl')        #print('done')                       #print('oi thats the get_feature_names', self.fsearch1.vectorizer.get_feature_names())        #print('oi thats the get_feature_names', self.fsearch2.vectorizer.get_feature_names())                            def replaceOpposites(self, sentences):        outsentences = []        #print('wenigstens etwas')        sentencecount = 0        for sentence in sentences:            #print('oloa')            sentencecount += 1            #print('processing sentence', sentencecount)                        listofAdjektives = []            nichtIndex = None            KeinIndex = None            for m in range(len(sentence)):                if sentence[m] == 'nicht':                    nichtIndex = m                                                        if sentence[m][:4] == 'kein':                                        KeinIndex = m                        #if KeinIndex not None or nichtIndex not None:                                                #if len(listofAdjektives) == 0:                    #if word.dep_[0] == 'V':            #print('ola')                                        if (KeinIndex is not None) or (nichtIndex is not None):                                doc = self.nlp(' '.join(sentence))                count = 0                for word in doc:                    count += 1                    if word.text == ',':                        count -= 1                    #print(word.text, word.tag_, word.tag_[:1])                    if word.tag_[:2] == 'AD':                                                listofAdjektives.append([word.text, count - 1])                                                                        listOfOpposites = []                if (KeinIndex is not None):                                        #print(sentence[KeinIndex + 1])                                                            if len(listofAdjektives) == 0 or len(listofAdjektives) > 1:                        AdjIndex = 1                        #print('listofadjectives', listofAdjektives)                        for n in range(len(listofAdjektives)):                            ad = listofAdjektives[n]                            #print(ad[1])                            if ad[1] == KeinIndex + 2 and ad[0] == 'zu':                                if listofAdjektives[n + 1][1] == KeinIndex + 3:                                    AdjIndex = 2                                                    #print('Adj und stemadj 0 2')                        #print(sentence[KeinIndex + AdjIndex])                        #print(self.stemmer.stem(sentence[KeinIndex + AdjIndex]))                                                bestmatches1, matchindex1 = self.fsearch1.search_with_highest_multiplikation_Output(self.stemmer.stem(sentence[KeinIndex + AdjIndex]), 1)                                            bestmatches2, matchindex2 = self.fsearch2.search_with_highest_multiplikation_Output(self.stemmer.stem(sentence[KeinIndex + AdjIndex]), 1)                                                Austauschindex = KeinIndex + AdjIndex                                            else:                                                                                                Adjektiv = listofAdjektives[0][0]                        #print('Adj und stemadj')                        #print(Adjektiv)                        #print(self.stemmer.stem(Adjektiv))                        Austauschindex = listofAdjektives[0][1]                                                bestmatches1, matchindex1 = self.fsearch1.search_with_highest_multiplikation_Output(self.stemmer.stem(Adjektiv), 1)                                            bestmatches2, matchindex2 = self.fsearch2.search_with_highest_multiplikation_Output(self.stemmer.stem(Adjektiv), 1)                                                                    Opposite = None                #print('thetheone')                if (nichtIndex is not None):                                        #print(sentence[nichtIndex + 1])                    #print('theone')                    if len(listofAdjektives) == 0 or len(listofAdjektives) > 1:                        #print('1')                        #print(nichtIndex)                        #print('2')                        if nichtIndex == (len(sentence) - 1):                            Austauschindex = nichtIndex - 1                        else:                            Austauschindex = nichtIndex + 1                                                # TO DO: egal formen auf infinitiv mappen                        # Das muss mit machine learnign gelöst werden..                        # --> ergiebt sich aus den übersetzungen ( welches wort fehl, welches neu                         # da, dann daraus eine maschine die sich die gegenteile merkt =)                                                #itisaVerb = False                        #if doc[Austauschindex].dep_[0] == 'V':                        #    itisaVerb = True                                                #someform = sentence[Austauschindex]                                                                                                                                                bestmatches1, matchindex1 = self.fsearch1.search_with_highest_multiplikation_Output(self.stemmer.stem(sentence[Austauschindex]), 1)                                            bestmatches2, matchindex2 = self.fsearch2.search_with_highest_multiplikation_Output(self.stemmer.stem(sentence[Austauschindex]), 1)                                                                                            else:                                                Adjektiv = listofAdjektives[0][0]                                                Austauschindex = listofAdjektives[0][1]                                                bestmatches1, matchindex1 = self.fsearch1.search_with_highest_multiplikation_Output(self.stemmer.stem(Adjektiv), 1)                                            bestmatches2, matchindex2 = self.fsearch2.search_with_highest_multiplikation_Output(self.stemmer.stem(Adjektiv), 1)                                        Opposite = None                    #print(sentence)                    #print(bestmatches1, matchindex1)                    #print(bestmatches1, matchindex1)                    #print(len(listOfOpposites))                if matchindex1[1] >= 1:                    OppositeIndex = matchindex1[0]
                    Opposite = self.hkldbOpposites2[OppositeIndex][0]                    #print('Opposite in match1', Opposite)                    listOfOpposites.append([Opposite,Austauschindex])
                if matchindex2[1] >= 1:                    OppositeIndex = matchindex2[0]
                    Opposite = self.hkldbOpposites1[OppositeIndex][0]                    #print('opposite in match2', Opposite)                    listOfOpposites.append([Opposite,Austauschindex])                                                        #print(listOfOpposites)                for opposite in listOfOpposites:                    if sentence[opposite[1]][-1] == ',':                                                if sentence[opposite[1]][-3:] == 'es,':                            opposite[0] = opposite[0] + 'es'                        if sentence[opposite[1]][-3:] == 'er,':                            opposite[0] = opposite[0] + 'er'                        if sentence[opposite[1]][-3:] == 'em,':                            opposite[0] = opposite[0] + 'em'                        if sentence[opposite[1]][-2:] == 'e,':                            opposite[0] = opposite[0] + 'e'                        sentence[opposite[1]] = opposite[0] + ','                    else:                                                if sentence[opposite[1]][-2:] == 'es':                            opposite[0] = opposite[0] + 'es'                        if sentence[opposite[1]][-2:] == 'er':                            opposite[0] = opposite[0] + 'er'                        if sentence[opposite[1]][-2:] == 'em':                            opposite[0] = opposite[0] + 'em'                        if sentence[opposite[1]][-1:] == 'e':                            opposite[0] = opposite[0] + 'e'                        sentence[opposite[1]] = opposite[0]                                if KeinIndex is not None and len(listOfOpposites) > 0:                                        #print(KeinIndex)                    sentence[KeinIndex] = sentence[KeinIndex][1:]                                                                        if nichtIndex is not None and len(listOfOpposites) > 0:                                        #print(nichtIndex)                                        printer = sentence.pop(nichtIndex)                                        #print(printer)                                                                            outsentences.append(sentence)        return outsentences