You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

325 lines
11 KiB

4 years ago
  1. {
  2. "cells": [
  3. {
  4. "cell_type": "raw",
  5. "metadata": {},
  6. "source": [
  7. "Alle Funktionen der Klasse Passiv2Aktiv werden importiert"
  8. ]
  9. },
  10. {
  11. "cell_type": "code",
  12. "execution_count": 1,
  13. "metadata": {},
  14. "outputs": [],
  15. "source": [
  16. "from Passiv2Aktiv import *\n",
  17. "\n"
  18. ]
  19. },
  20. {
  21. "cell_type": "raw",
  22. "metadata": {},
  23. "source": [
  24. "Nun wird die Klasse initialisiert"
  25. ]
  26. },
  27. {
  28. "cell_type": "code",
  29. "execution_count": 2,
  30. "metadata": {
  31. "scrolled": true
  32. },
  33. "outputs": [],
  34. "source": [
  35. "p2a = Passiv2Aktiv(None, None, None)"
  36. ]
  37. },
  38. {
  39. "cell_type": "raw",
  40. "metadata": {},
  41. "source": [
  42. "Die nötigen Datenbanken werden in den Arbeitsspeicher der Session geladen. Hier zeigt sich auch die Stärke des Jupyter Notebooks, da der code einmal ausgeführt werden muss, und dann die folgenden Codezeilen neuausgeführt werden können, ohne das die Datenbanken neu eingeladen werden müssen. Das heißt, die Datenbanken können die ganze Zeit im Arbeitsspeicher ruhen, und trotzdem kann neuer Text atest1 geschrieben werden. Dieser wird dann neu eingeladen mit der oi Klasse und anschließend werden die Passivformen der neuen Sätze ausgetauscht."
  43. ]
  44. },
  45. {
  46. "cell_type": "code",
  47. "execution_count": null,
  48. "metadata": {},
  49. "outputs": [],
  50. "source": [
  51. "p2a.create_hklDB_from_csv('Aktiv.txt', 'None')\n",
  52. "p2a.create_hklDB_from_csv('Vorgangspassiv.txt', 'None')\n",
  53. "p2a.create_hklDB_from_csv('Zustandspassiv.txt', 'None')"
  54. ]
  55. },
  56. {
  57. "cell_type": "code",
  58. "execution_count": 3,
  59. "metadata": {},
  60. "outputs": [
  61. {
  62. "name": "stderr",
  63. "output_type": "stream",
  64. "text": [
  65. "/home/alpcentaur/ProjektA/LeichteSprache/code200110/SentSeg/venv/lib/python3.5/site-packages/sklearn/base.py:251: UserWarning: Trying to unpickle estimator CountVectorizer from version 0.22.2 when using version 0.20.0. This might lead to breaking code or invalid results. Use at your own risk.\n",
  66. " UserWarning)\n"
  67. ]
  68. },
  69. {
  70. "name": "stdout",
  71. "output_type": "stream",
  72. "text": [
  73. "loading spacy..\n",
  74. "done\n",
  75. "loading vectorizer..\n",
  76. "done\n",
  77. "loading the SGD model..\n",
  78. "done\n",
  79. "loading spacy..\n",
  80. "done\n"
  81. ]
  82. }
  83. ],
  84. "source": [
  85. "p2a.load_DB_into_FASTsearch()"
  86. ]
  87. },
  88. {
  89. "cell_type": "code",
  90. "execution_count": 4,
  91. "metadata": {},
  92. "outputs": [],
  93. "source": [
  94. "from oi import *\n",
  95. "oi = oi()\n",
  96. "\n",
  97. "sentences, punctuations = oi.ReadDoc2Sent('atest1')"
  98. ]
  99. },
  100. {
  101. "cell_type": "code",
  102. "execution_count": 5,
  103. "metadata": {},
  104. "outputs": [
  105. {
  106. "name": "stdout",
  107. "output_type": "stream",
  108. "text": [
  109. "verbs of sentence string gehe 4\n",
  110. "1\n",
  111. "[40072, 0.0]\n",
  112. "[40072, 0.0]\n",
  113. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  114. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  115. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  116. "verbs of sentence string habe verdammt 13\n",
  117. "2\n",
  118. "[39974, 1.0]\n",
  119. "[39913, 1.0]\n",
  120. "[['platztest rein 14'], ['2. Person Singular Präteritum reinplatzen']]\n",
  121. "[['reinplatztest 13'], ['2. Person Singular Präteritum reinplatzen']]\n",
  122. "[['waren verhext 13'], ['3. Person Plural Präteritum verhexen']]\n",
  123. "verbs of sentence string gibt 4\n",
  124. "1\n",
  125. "[40072, 0.0]\n",
  126. "[40072, 0.0]\n",
  127. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  128. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  129. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  130. "verbs of sentence string wird 4\n",
  131. "1\n",
  132. "[40069, 1.0]\n",
  133. "[40069, 1.0]\n",
  134. "[['wird verheddert haben 21'], ['3. Person Singular Futur II verheddern']]\n",
  135. "[['wird verheddert worden sein 27'], ['3. Person Singular Futur II verheddern']]\n",
  136. "[['wird verheddert gewesen sein 28'], ['3. Person Singular Futur II verheddern']]\n",
  137. "verbs of sentence string gingen regnete 14\n",
  138. "2\n",
  139. "[39913, 1.0]\n",
  140. "[40045, 1.0]\n",
  141. "[['verhexten 9'], ['3. Person Plural Präteritum verhexen']]\n",
  142. "[['wurden verhext 14'], ['3. Person Plural Präteritum verhexen']]\n",
  143. "[['war verheddert 14'], ['3. Person Singular Präteritum verheddern']]\n",
  144. "verbs of sentence string war angemalt funktionierte 26\n",
  145. "3\n",
  146. "[37394, 2.0]\n",
  147. "[38744, 2.0]\n",
  148. "[['hatte dahingeschleppt 21'], ['3. Person Singular Plusquamperfekt dahinschleppen']]\n",
  149. "[['war dahingeschleppt worden 26'], ['3. Person Singular Plusquamperfekt dahinschleppen']]\n",
  150. "[['war inventarisiert gewesen 26'], ['3. Person Singular Plusquamperfekt inventarisieren']]\n",
  151. "verbs of sentence string wurde geliebt 13\n",
  152. "2\n",
  153. "[2, 3.0]\n",
  154. "[39975, 1.0]\n",
  155. "[['liebte 6'], ['3. Person Singular Präteritum lieben']]\n",
  156. "[['wurde geliebt 13'], ['3. Person Singular Präteritum lieben']]\n",
  157. "[['wurde reingeplatzt 18'], ['3. Person Singular Präteritum reinplatzen']]\n",
  158. "subjectofsentence ['Er']\n",
  159. "there is a subjecter 1\n",
  160. "get the tuples and triples to check..\n",
  161. "done\n",
  162. "['ihn', 'liebte', 'jemand']\n",
  163. "genrating the permutations\n",
  164. "done\n",
  165. "classifying the probability for right grammar in the filtered permutations..\n",
  166. "jemand liebte ihn\n",
  167. "done\n",
  168. "verbs of sentence string habe 4\n",
  169. "1\n",
  170. "[40072, 0.0]\n",
  171. "[40072, 0.0]\n",
  172. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  173. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  174. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  175. "verbs of sentence string war 3\n",
  176. "1\n",
  177. "[40057, 1.0]\n",
  178. "[40057, 1.0]\n",
  179. "[['hatte verheddert 16'], ['3. Person Singular Plusquamperfekt verheddern']]\n",
  180. "[['war verheddert worden 21'], ['3. Person Singular Plusquamperfekt verheddern']]\n",
  181. "[['war verheddert gewesen 22'], ['3. Person Singular Plusquamperfekt verheddern']]\n",
  182. "verbs of sentence string 0\n",
  183. "0\n",
  184. "[40072, 0.0]\n",
  185. "[40072, 0.0]\n",
  186. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  187. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  188. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  189. "verbs of sentence string ist 3\n",
  190. "1\n",
  191. "[40051, 1.0]\n",
  192. "[40051, 1.0]\n",
  193. "[['hat verheddert 14'], ['3. Person Singular Perfekt verheddern']]\n",
  194. "[['ist verheddert worden 21'], ['3. Person Singular Perfekt verheddern']]\n",
  195. "[['ist verheddert gewesen 22'], ['3. Person Singular Perfekt verheddern']]\n",
  196. "verbs of sentence string 0\n",
  197. "0\n",
  198. "[40072, 0.0]\n",
  199. "[40072, 0.0]\n",
  200. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  201. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  202. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  203. "verbs of sentence string 0\n",
  204. "0\n",
  205. "[40072, 0.0]\n",
  206. "[40072, 0.0]\n",
  207. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  208. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  209. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  210. "verbs of sentence string ginge 5\n",
  211. "1\n",
  212. "[40072, 0.0]\n",
  213. "[40072, 0.0]\n",
  214. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  215. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  216. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n",
  217. "verbs of sentence string lieben 6\n",
  218. "1\n",
  219. "[40072, 0.0]\n",
  220. "[40072, 0.0]\n",
  221. "[['werden verheddert haben 23'], ['3. Person Plural Futur II verheddern']]\n",
  222. "[['werden verheddert worden sein 29'], ['3. Person Plural Futur II verheddern']]\n",
  223. "[['werden verheddert gewesen sein 30'], ['3. Person Plural Futur II verheddern']]\n"
  224. ]
  225. }
  226. ],
  227. "source": [
  228. "outsentences = p2a.replacePassivForms(sentences)\n"
  229. ]
  230. },
  231. {
  232. "cell_type": "code",
  233. "execution_count": 6,
  234. "metadata": {},
  235. "outputs": [
  236. {
  237. "name": "stdout",
  238. "output_type": "stream",
  239. "text": [
  240. "[['Hallo', 'was', 'gehe', 'denn', 'hier', 'so'], ['Ich', 'habe', 'echt', 'keine', 'Ahnung', 'verdammt'], ['I.', 'd.', 'R.', 'gibt', 'es', 'keine', 'Abschiebungen'], ['Ende', 'd.', 'J.', 'wird', 'alles', 'problematisch'], ['Sie', 'gingen', 'nach', 'Hause,', 'weil', 'es', 'in', 'Strömen', 'regnete'], ['Heute', 'war', 'die', 'Straße', 'blau', 'angemalt,', 'damit', 'der', 'Marathon', 'funktionierte'], ['ihn', 'liebte', 'jemand'], ['Er', 'habe', 'es', 'sehr', 'schwer'], ['Es', 'war', 'die', 'Hose', 'des', 'Gauners'], ['Bliblablub'], ['Sie', 'ist', 'nicht', 'schön', 'heute'], ['Oleoleole'], ['Mannoman'], ['Er', 'ginge', 'nicht', 'schnell'], ['Die', 'Hühner', 'lieben', 'sich', 'nicht']]\n"
  241. ]
  242. }
  243. ],
  244. "source": [
  245. "print(outsentences)"
  246. ]
  247. },
  248. {
  249. "cell_type": "code",
  250. "execution_count": 7,
  251. "metadata": {},
  252. "outputs": [
  253. {
  254. "name": "stdout",
  255. "output_type": "stream",
  256. "text": [
  257. ".\n",
  258. ".\n",
  259. ".\n",
  260. ".\n",
  261. ".\n",
  262. ".\n",
  263. ".\n",
  264. ".\n",
  265. ".\n",
  266. ".\n",
  267. ".\n",
  268. ".\n",
  269. ".\n",
  270. ".\n",
  271. ".\n"
  272. ]
  273. },
  274. {
  275. "data": {
  276. "text/plain": [
  277. "'OK'"
  278. ]
  279. },
  280. "execution_count": 7,
  281. "metadata": {},
  282. "output_type": "execute_result"
  283. }
  284. ],
  285. "source": [
  286. " oi.PrintSplitSentencesToTextFile(punctuations, outsentences, 'atest1out')"
  287. ]
  288. },
  289. {
  290. "cell_type": "code",
  291. "execution_count": null,
  292. "metadata": {},
  293. "outputs": [],
  294. "source": []
  295. },
  296. {
  297. "cell_type": "code",
  298. "execution_count": null,
  299. "metadata": {},
  300. "outputs": [],
  301. "source": []
  302. }
  303. ],
  304. "metadata": {
  305. "kernelspec": {
  306. "display_name": "Python 3",
  307. "language": "python",
  308. "name": "python3"
  309. },
  310. "language_info": {
  311. "codemirror_mode": {
  312. "name": "ipython",
  313. "version": 3
  314. },
  315. "file_extension": ".py",
  316. "mimetype": "text/x-python",
  317. "name": "python",
  318. "nbconvert_exporter": "python",
  319. "pygments_lexer": "ipython3",
  320. "version": "3.5.3"
  321. }
  322. },
  323. "nbformat": 4,
  324. "nbformat_minor": 2
  325. }