first publishing

1 year ago · 1263460e05
--- a/parse1.py
+++ b/parse1.py
@ -0,0 +1,787 @@
 # Parse wiktionary.xml with pure python, such that it can be run with pypy (python just in time compiler)
 # optimization would be possible through cython and assembler loops etc
 # on a linux system, get the first n lines of a document with:
 #       head -n1000000 dewiktionary-20181201-pages-articles.xml > wiktionaryFirstMio.xml
 import sys
 import os
 import re
 class Parser(object):
    def __init__(self, InputDokument, OutputDokument):
        self.Indok = InputDokument
        self.Outdok = OutputDokument
    def GetSeparators(self):
        with open(self.Indok) as xmldok:
            with open(self.Outdok , 'w') as getsepdok:
                seperators = []
                counter = 0
                for line in xmldok:
                    counter += 1
                    #print(counter)
                    if (counter % 10) == 0:
                        print(counter)
                    seperator =[]
                    val = 0
                    #if counter == 10000:
                        #seperatorsSet = []
                        #getsepdok.write('[' + '\n')
                        #for element in seperators:
                            #seperatorsSet.append(''.join(element))
                        #for element in set(seperatorsSet):
                            #getsepdok.write(str(''.join(element)) + '\n')
                        #getsepdok.write(']')
                    for letter in line:
                        #print(letter)
                        if letter == '>':
                            val = 0
                            seperators.append(seperator)
                            seperator = []
                        if val == 1:
                            seperator.append(letter)
                        else:
                            pass
                        if letter == '<':
                            val = 1
                seperatorsSet = []
                getsepdok.write('[' + '\n')
                for element in seperators:
                    seperatorsSet.append(''.join(element))
                seperatorsSet = set(seperatorsSet)
                for element in set(seperatorsSet):
                    getsepdok.write(str(''.join(element)) + '\n')
                getsepdok.write(']')
                return seperatorsSet        
    def GetPayloadBetweenTwoSymbols(self, SymbolA, SymbolB , LogLineNumber=False, Doc = True):
        with open(self.Indok) as xmldok:
            with open(self.Outdok , 'w') as payloaddok:
                seperators = []
                counter = 0
                valA = 0
                valB = 0
                seperator =[]
                for line in xmldok:
                    #print(line)
                    counter += 1
                    if LogLineNumber == True:
                        if (counter % 10000) == 0:
                            print(counter)
                    wait1letterA = False
                    wait1letterB = False
                    #for letter in line.decode('utf-8'):
                    for letter in line:
                        #print(letter)
                        #print(set(range(1, len(SymbolA))))
                        if valA % len(SymbolA) in set(range(1, len(SymbolA) )):
                            #print('jo')
                            if wait1letterA == True:
                                #print('joo')
                                #print(letter)
                                valA -= valA % len(SymbolA)
                                wait1letterA = False
                            wait1letterA = True
                        if valB in set(range(1, len(SymbolB) )):
                            if wait1letterB == True:
                                valB = 0
                                wait1letterB = False
                            wait1letterB = True
                        for n in range(len(SymbolB)):
                            if valA >= len(SymbolA) and valB == n and letter == SymbolB[n]:
                                valB = n + 1
                                wait1letterB = False
                            else:
                                pass
                        if valB == len(SymbolB) and valA >= len(SymbolA):
                            valB = 0
                            #print(letter)
                            #print(valA)
                            valA -= len(SymbolA)
                            #print(valA)
                            #print(seperators)
                        if valA >= len(SymbolA):
                            seperator.append(letter)
                        else:
                            pass
                        #print(valA)
                        #print(SymbolA[6])
                        #print(len(SymbolA))
                        #print(range(len(SymbolA)))
                        if valA == 0:
                            if len(seperator[:-(len(SymbolB)-1)]) >= 1:
                                seperators.append(seperator[:-(len(SymbolB)-1)])
                            seperator = []
                        for n in range(len(SymbolA)):
                            #print(n)
                            if valA % len(SymbolA) == n  and letter == SymbolA[n]:
                                valA += 1
                                #print(valA)
                                wait1letterA = False
                                break
                            else:
                                pass
                seperatorsSet = []
                #getsepdok.write('[' + '\n')
                for element in seperators:
                    seperatorsSet.append(''.join(element))
                seperatorsSet = set(seperatorsSet)
                output = []
                ID = 0
                ## Set has a probabilistic factor in it!!!! thats why the nmbers change
                for element in seperatorsSet:
                    output.append([element, ID])
                    ID += 1
        return output
    def GetPayloadBetweenTwoSymbolsInPayload(self, Payload, SymbolA, SymbolB, LogElementNumber):
        seperators = []
        counter = 0
        for element in Payload:
            counter += 1
            if LogElementNumber == True:
                if (counter % 1000) == 0:
                    print(counter)
            seperator =[]
            wait1letterA = False
            wait1letterB = False
            valA = 0
            valB = 0
            for letter in element[0]:
                #print(letter)
                #print(set(range(1, len(SymbolA))))
                if valA % len(SymbolA) in set(range(1, len(SymbolA) )):
                    #print(valA)
                    #print('jo')
                    if wait1letterA == True:
                        #print('joo')
                        valA -= valA % len(SymbolA)
                        wait1letterA = False
                    wait1letterA = True
                if valB in set(range(1, len(SymbolB) )) and valA >= len(SymbolA):
                    if wait1letterB == True:
                        valB = 0
                        wait1letterB = False
                    wait1letterB = True
                #for n in range(len(SymbolB)):
                    #if valB == n and letter == SymbolB[n]:
                        #valB = n + 1
                        #wait1letterB = False
                    #else:
                        #pass
                if letter == SymbolB[valB % len(SymbolB)] and valA >= len(SymbolA):
                    valB += 1
                    wait1letterB = False
                else:
                    pass
                if valB == len(SymbolB) and valA >= len(SymbolA):
                    valB = 0
                    #print(valA)
                    valA -= len(SymbolA)
                    #print(valA)
                    #print(seperators)
                if valA >= len(SymbolA):
                    ##print(letter)
                    seperator.append(letter)
                    #print(seperator)
                else:
                    pass
                #print(valA)
                #print(SymbolA[6])
                #print(len(SymbolA))
                #print(range(len(SymbolA)))
                if valA == 0:
                    #print('seps')
                    if len(seperator[:-(len(SymbolB)-1)]) >= 1:
                        seperators.append([''.join(seperator[:-(len(SymbolB)-1)]), element[1]])
                    seperator = []
                # Optimierungsmoeglichkeit: Hier kann die for schleife durch viele ifs ersetzt werden, sowas wie start for after zwei ifs. 
                # wuerde einiges an computation wegnehmen, auch da beide symbole
                #for n in range(len(SymbolA)):
                    ##print(n)
                    #if valA % len(SymbolA) == n  and letter == SymbolA[n]:
                        ##print(SymbolA[n])
                        #valA += 1
                        #wait1letterA = False
                    #else:
                        #pass
                for n in range(len(SymbolA)):
                    #print(n)
                    if valA % len(SymbolA) == n  and letter == SymbolA[n]:
                        valA += 1
                        #print(valA)
                        wait1letterA = False
                        break
                    else:
                        pass
        return seperators
    def GetPayloadBetweenTwoOneSymbolsInPayload(self, Payload, SymbolA, SymbolB, LogElementNumber, Payloadrow, IDrow):
        counter = 0
        seperator =[]
        seperators = []
        for payload in Payload:
            val = 0
            for letter in payload[Payloadrow]:
                counter += 1
                #print(counter)
                if LogElementNumber == True:
                    if (counter % 10) == 0:
                        print(counter)
                #print(letter)
                if letter == SymbolB:
                    val -= 1
                if val >= 1:
                    seperator.append(letter)
                else:
                    pass
                if val == 0 and len(seperator) >= 1:
                    seperators.append([''.join(seperator), payload[IDrow]])
                    seperator = []
                if letter == SymbolA:
                    #print(val)
                    val += 1
        return seperators
    def CutTextAtSymbol(self, text, symbol):
        itisthesymbol = 0
        outtext = []
        output = []
        symbolisthere = 0
        for letter in text:
            outtext.append(letter)
            #print(letter)
            if letter != symbol[itisthesymbol]:
                itisthesymbol = 0
            if letter == symbol[itisthesymbol]:
                itisthesymbol += 1
            if itisthesymbol == len(symbol):
                #print(outtext)
                output.append(''.join(outtext))
                itisthesymbol = 0
                symbolisthere = 1
        if symbolisthere == 0:
            output.append(''.join(outtext))
        return output[0]
    def GetPayloadBetweenTwoSymbolsInText(self, text, SymbolA, SymbolB):
        seperators = []
        seperator =[]
        wait1letterA = False
        wait1letterB = False
        valA = 0
        valB = 0
        for letter in text:
            #print(letter)
            #print(SymbolA)
            if valA % len(SymbolA) in set(range(1, len(SymbolA) )):
                if wait1letterA == True:
                    valA -= valA % len(SymbolA)
                    wait1letterA = False
                wait1letterA = True
            #print('B',valB)
            #print(valA)
            if valB in set(range(1, len(SymbolB) )):
                if wait1letterB == True:
                    valB = 0
                    wait1letterB = False
                wait1letterB = True
            #print('B',valB)
            #print(valA)
            if letter == SymbolB[valB % len(SymbolB)]:
                valB += 1
                wait1letterB = False
            else:
                pass
            if valB == len(SymbolB):
                valB = 0
                valA -= len(SymbolA)
            #print('B',valB)
            #print(valA)
            if valA >= len(SymbolA):
                #print('append')
                seperator.append(letter)
            else:
                pass
            if valA == 0:
                if len(seperator[:-(len(SymbolB)-1)]) >= 1:
                    seperators.append([''.join(seperator[:-(len(SymbolB)-1)])])
                seperator = []
            # Optimierungsmoeglichkeit: Hier kann die for schleife durch viele ifs ersetzt werden, sowas wie start for after zwei ifs. 
            # wuerde einiges an computation wegnehmen, auch da beide symbole
            #for n in range(len(SymbolA)):
            #print(SymbolA[valA % len(SymbolA)])    
            if letter == SymbolA[valA % len(SymbolA)]:
                #print('oi')
                valA += 1
                wait1letterA = False
            else:
                pass
        return seperators
    def GetPayloadBetweenTwoSameSymbolsInText(self, text, Symbol):
        seperators = []
        seperator =[]
        wait1letter = False
        nowendit = False
        val = 0
        for letter in text:
            #print(letter)
            #print(SymbolA)
            if nowendit == False and letter == Symbol[val % len(Symbol)]:
                val += 1
            if nowendit == True and letter == Symbol[val % len(Symbol)]:
                val -= 1
            if val == len(Symbol):
                seperator.append(letter)
                nowendit = True
                #print('append')
            if val == 0 and len(seperator) >= 1:
                seperators.append(' '.join(seperator))
                seperator = []
                nowendit = False
        return seperators
    def ParseWordswithSymbolFromSymbolongoing(self, text, Symbol):
        seperators = []
        #print(text.split())
        for word in text.split():
            val = 0 
            waitoneletter = False
            seperator = []
            for letter in word:
                #print(letter)
                #print(val)
                if val < len(Symbol):
                    if letter == Symbol[val]:
                        val += 1
                #print(letter)
                #print(len(Symbol))
                #print(val)
                if val >= len(Symbol):
                    val = len(Symbol)
                if val < len(Symbol):
                    if letter != Symbol[val]:
                            val = 0
                if val == len(Symbol):
                    seperator.append(letter)
                    #print('itsappending')
            if len(seperator) >= 1:
                seperators.append(''.join(seperator))
            seperator = []
        return seperators
    def ParseWithHighestLetterAccordance(self, inputtext, Letters):
        # first check if there is a word that has all letters
        short = False
        lettervect = []
        Lettervector = []
        wordscores = []
        text = inputtext.lower()
        if '.' in set(Letters):
            short = True
        if short == True:
            for letter in re.sub("[^a-zA-Züäö.]", " ", Letters):
                letter = letter.lower()
                #print(re.sub("[^a-züäö.]", " ", Letters))
                if letter != '.' and letter != ' ':
                    lettervect.append(letter)
                if letter == '.':
                    Lettervector.append(lettervect)
                    lettervect = []
            if len(lettervect) >= 1:
                Lettervector.append(lettervect)
        else:
            for letter in re.sub("[^a-zA-Züäö.]", " ", Letters):
                letter = letter.lower()
                Lettervector.append([letter])
        #print(text)
        #print(Lettervector)
        from copy import deepcopy
        for word in text.split():
            lettervector = deepcopy(Lettervector)
            #print(word)
            #print(Lettervector)
            wordscore = []
            for n in range(len(lettervector)):
                wordscore.append([word, 0])
            #wordscore = len(lettervector) * [[word, 0 ]]
            #print(wordscore)
            firstletter = 0
            usedletters = []
            for letter in word:
                firstletter += 1
                #print(set(Letters))
                #print(wordscore)
                #print(lettervector[n])
                if firstletter == 1:
                    if letter == lettervector[0][0]:
                        #print('oi')
                        #print(lettervector)
                        #print(len(lettervector[2]))
                        wordscore[0][1] += 1
                        lettervector[0].remove(letter)
                        #print(usedletters)
                    else:
                        lettervector[0].remove(lettervector[0][0])
                for n in range(len(lettervector)):
                    #print('1' ,letter)
                    #print(lettervector[n][0])
                    if letter in set(lettervector[n]):
                        #print('ooioi',usedletters)
                        if letter not in set(usedletters):
                            #print('something was added', letter)
                            wordscore[n][1] += 1
                            lettervector[n].remove(letter)
                            #print('angesprungen')
            wordscores.append(wordscore)
        #print(wordscores)
        #checkbest_firstlettervector = []
        #for n in range(len(wordscores)):
            #checkbest_firstlettervector.append([ n , wordscores[n][0][1]])
        #print('wordscores', wordscores)
        #best_n_lettervectors = sorted(checkbest_firstlettervector[::-1], key=lambda tup: tup[1], reverse=True)
        #print(best_n_lettervectors)
        #for wordscore in wordscores:
        ntupelscores = []
        ntupelscoresm = []
        for o in range(len(wordscores)):
            #print('newlettervectorindex')
            lastletterexistentindex = 1
            lastlettercame = False
            if wordscores[o][0][1] >= 1:
                for m in range(1, len(lettervector) + 1):
                    #print(m)
                    if o <= len(text.split()) - (m):
                        triplescore = []
                        for q in range(len(wordscores[o])):
                            triplescore.append(0)
                        #print(len(lettervector))
                        for n in range(m):
                            #print(wordscores[lettervectorindex[0] + n][n][1])
                            #wordscores[lettervectorindex[0] + 1][1][1] + wordscores[lettervectorindex[0] + 2][2][1]
                            for p in range(len(wordscores[o])):
                                #print(wordscore[o + n][p][1])
                                #print(len(Lettervector[p]))
                                if wordscores[o + n][p][1] == len(Lettervector[p]):
                                    triplescore[p] += wordscores[o + n][p][1]
                                letterlength = 0
                                for r in range(len(lettervector)):
                                    letterlength += len(Lettervector[r])
                                #print(wordscore)
                                #print(sum(triplescore))
                                if p == len(wordscores[o]) - 1 and wordscores[o + n][p][1] == len(Lettervector[p]) and lastlettercame == False and sum(triplescore) == letterlength:
                                    #print('oioioioioioioooioioioiiiiiiiiiiiiiiiiiiiiiiiiiii')
                                    lastletterexistentindex = n 
                                    lastlettercame = True
                                #triplescore += wordscores[o + n][p][1]
                        ntupelscores.append([[o , m, lastletterexistentindex], sum(triplescore)])
                        #ntupelscoresm.append([m , triplescore])
        #print(text.split())            
        #print('bliblablub', ntupelscores)
        for tupel in ntupelscores:
            if text.split()[tupel[0][0]][0] == Lettervector[0][0]:
                tupel[1] += 3
            #print('b',text.split()[tupel[0][0] + tupel[0][1] - 1][0])
            #print('a',Lettervector[-1][0])
            if text.split()[tupel[0][0] + tupel[0][1] - 1][0] == Lettervector[-1][0]:
                tupel[1] += 3
            # Bestrafe laengere Tupel, sprich wenn durch weitere worte kein score dazukommt
            tupel[1] -= tupel[0][1] * 0.1
        bestntupelscoresorted = sorted(ntupelscores[::-1], key=lambda tup: tup[1], reverse=True)
        #bestntupelscoresortedm = sorted(ntupelscoresm[::-1], key=lambda tup: tup[1], reverse=True)
        #print('oioioioioioioioioioi',bestntupelscoresorted)
        outputntupel = []
        #print(bestntupelscoresorted)
        for s in range(bestntupelscoresorted[0][0][1]  ):
            outputntupel.append(text.split()[bestntupelscoresorted[0][0][0] + s])
        #print(outputntupel)
        return outputntupel
    #def parseWordsContainingCertainSymbols(self, text, symbols):
        #print()
 #fooSeparator = 'title'
 #cwd = os.getcwd()
 #with open('dewiktionary-20181201-pages-articles.xml') as xmldok:
    #with open(cwd + '/' + 'classes.txt', 'w') as Outdok:
        #n = 0
        #done = False
        #while done == False:
            #for line in xmldok:
                #n += 1
                ##print(line)
                ##print(dok_to_token(line))
                ##print(n)
                #for word in line:
                    #print(word)
                #try:
                    #if dok_to_token(line)[:(len(fooSeparator) + 2)] == '<' + fooSeparator + '>':
                        #Outdok.write(dok_to_token(line)[len(fooSeperator):-len(fooSeperator)] + '\n')
                #except:
                    #pass
                #if n >= 100000:
                    #quit()
--- a/parse1.pyc
+++ b/parse1.pyc