diff --git a/.gitignore b/.gitignore index 8b8b7d9..1ab7035 100644 --- a/.gitignore +++ b/.gitignore @@ -1,2 +1,3 @@ /venv - +/spiders/pages/* +/spiders/output/* diff --git a/main.py b/main.py index fdce8be..519b63d 100644 --- a/main.py +++ b/main.py @@ -6,13 +6,13 @@ list_of_fdbs = ["foerderinfo.bund.de"] # doing the crawling of government websites -# spider = fdb_spider(config) +spider = fdb_spider(config) # spider.download_entry_list_pages_of_funding_databases(list_of_fdbs) -# spider.parse_entry_list_data2dictionary(list_of_fdbs) +spider.parse_entry_list_data2dictionary(list_of_fdbs) -# spider.download_entry_data_htmls(list_of_fdbs) +spider.download_entry_data_htmls(list_of_fdbs) # spider.parse_entry_data2dictionary(list_of_fdbs) diff --git a/spiders/__pycache__/fdb_spider.cpython-39.pyc b/spiders/__pycache__/fdb_spider.cpython-39.pyc new file mode 100644 index 0000000..cf6c13f Binary files /dev/null and b/spiders/__pycache__/fdb_spider.cpython-39.pyc differ diff --git a/spiders/config.yaml b/spiders/config.yaml index 6ce8ef0..8894226 100644 --- a/spiders/config.yaml +++ b/spiders/config.yaml @@ -7,12 +7,12 @@ foerderinfo.bund.de: domain: 'http://foerderinfo.bund.de' entry-list: - link1: 'https://www.foerderinfo.bund.de/SiteGlobals/Forms/foerderinfo/expertensuche/Servicesuche_Formular.html?gtp=33498_list%253D' - link2: '#searchResults' - iteration-var-list: [1,2,3,4,5,6,7,8] - parent: '//html//body//form//table//tr//td//table//tr' - child-name: '//td//a/text()' - child-link: '//td//a/@href' + link1: 'https://www.foerderinfo.bund.de/SiteGlobals/Forms/foerderinfo/expertensuche/Servicesuche_Formular.html?gtp=33498_list%253D' + link2: '#searchResults' + iteration-var-list: '[1,2,3,4,5,6,7,8]' + parent: '//html//body//form//table//tr//td//column//div.row//section.l-search-result-list' + child-name: '//div.l-search-result-list_item//a//span.c-search-result__title' + child-link: '//div.l-search-result-list_item//a/@href' entry: info-1: parent: '//html//body//form//table' diff --git a/spiders/fdb_spider.py b/spiders/fdb_spider.py index dcd6c06..935315f 100644 --- a/spiders/fdb_spider.py +++ b/spiders/fdb_spider.py @@ -61,13 +61,13 @@ class fdb_spider(object): # download the html page of the List of entrys - response = urllib.request.urlopen(entry_list_link1 + string(i) + entry_list_link2) + response = urllib.request.urlopen(entry_list_link1 + str(i) + entry_list_link2) web_content = response.read().decode("UTF-8") # save interim results to files f = open("spiders/pages/" + key + str(i) + "entryList.html", "w+") - f.write(webContent) + f.write(web_content) f.close def parse_entry_list_data2dictionary(self, list_of_fdbs): @@ -82,6 +82,7 @@ class fdb_spider(object): ) for i in iteration_var_list: + print(i) try: # use soupparser to handle broken html @@ -89,13 +90,17 @@ class fdb_spider(object): "spiders/pages/" + fdb + str(i) + "entryList.html" ) - # for e in tree.iter(): - # - # print(e.tag) - # - # for e in tree.xpath('//html//body//form//table//tr//td//table//tr'): + + + print('oioioioioioioioioioioiOIOI') + + for e in tree.iter(): + + print(e.tag) # - # #print(etree.tostring(e).decode()) + for e in tree.xpath('//html//body//form//table//tr//td//table//tr'): + + print(etree.tostring(e).decode()) dictionary_entry_list = {} @@ -121,6 +126,8 @@ class fdb_spider(object): + "]" + fdb_conf_entry_list_child_link ) + + print('oi' + name) if len(name) > 0: dictionary_entry_list[n] = {} @@ -183,7 +190,7 @@ class fdb_spider(object): def parse_entry_data2dictionary(self, list_of_fdbs): for fdb in list_of_fdbs: - try: + try: iteration_var_list = eval(self.config.get(fdb).get("entry-list").get("iteration-var-list")) except Exception as e: print( diff --git a/spiders/output/foerderinfo.bund.de1entryList.txt b/spiders/output/foerderinfo.bund.de1entryList.txt new file mode 100644 index 0000000..e69de29 diff --git a/spiders/pages/foerderinfo.bund.de1entryList.html b/spiders/pages/foerderinfo.bund.de1entryList.html new file mode 100644 index 0000000..d9b6441 --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de1entryList.html @@ -0,0 +1,2351 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de2entryList.html b/spiders/pages/foerderinfo.bund.de2entryList.html new file mode 100644 index 0000000..4bb49ff --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de2entryList.html @@ -0,0 +1,2271 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de3entryList.html b/spiders/pages/foerderinfo.bund.de3entryList.html new file mode 100644 index 0000000..50648ff --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de3entryList.html @@ -0,0 +1,2179 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de4entryList.html b/spiders/pages/foerderinfo.bund.de4entryList.html new file mode 100644 index 0000000..f8a0d37 --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de4entryList.html @@ -0,0 +1,2186 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de5entryList.html b/spiders/pages/foerderinfo.bund.de5entryList.html new file mode 100644 index 0000000..b55a0a9 --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de5entryList.html @@ -0,0 +1,2185 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de6entryList.html b/spiders/pages/foerderinfo.bund.de6entryList.html new file mode 100644 index 0000000..4c07d4f --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de6entryList.html @@ -0,0 +1,2178 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de7entryList.html b/spiders/pages/foerderinfo.bund.de7entryList.html new file mode 100644 index 0000000..d9e95f6 --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de7entryList.html @@ -0,0 +1,2173 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + + + + + + + + + + + + + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file diff --git a/spiders/pages/foerderinfo.bund.de8entryList.html b/spiders/pages/foerderinfo.bund.de8entryList.html new file mode 100644 index 0000000..20d37c3 --- /dev/null +++ b/spiders/pages/foerderinfo.bund.de8entryList.html @@ -0,0 +1,1908 @@ + + + + + + Suche - Förderberatung „Forschung und Innovation“ des Bundes + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+
+

Navigation und Service

+ + +
+
+
+
+
+ +

+ Online-Umfrage zum Beratungsangebot
+ Sie sind durch die Förderberatung „Forschung und Innovation” des Bundes zu Ihrem Anliegen beraten worden? + Dann interessiert uns Ihre Meinung zum Beratungsservice! Nehmen Sie sich bitte etwa fünf Minuten Zeit und + geben Sie uns Ihr Feedback!
+ + Jetzt an der Online-Umfrage teilnehmen + + +

+
+
+
+
+
+ +
+
+
+

+ + + + Logo von Förderberatung „Forschung und Innovation“ des Bundes (Link zur Startseite) + + +

+ +
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+

+ Suchergebnisse +

+
+ +
+ +
+
+

Standardmäßig werden Ergebnisse mit allen eingegebenen Suchbegriffen angezeigt. Durch das Wort OR zwischen den Suchbegriffen erweitern Sie die Suche um Treffer, die nur einen Teil der Suchbegriffe enthalten. Weiter sind Wildcards wie * für eine beliebige Buchstabenfolge und ? für einen einzelnen Buchstaben bei der Suche zulässig. Das Tilde-Symbol ~ an Ende eines einzelnen Wortes erlaubt die Durchführung einer unscharfen Suche.

+
+
+ + + +
+
+
+ +
+ +
+
+ +
+ + + +
+
+
+ + + +

+ Anzahl der Einträge für „“: 107 +

+
+ + + +
+
+

+ Anzahl der Einträge: 107 +

+
+
+ + +
+
+
+ +
+ + +
+
+
+ +
+ +
+ + +
+ + + + + \ No newline at end of file