Werbung
Wenn es um Online-Datenbanken und Informationen geht, die in den sogenannten „unsichtbares Netz Die 12 besten Suchmaschinen, um das unsichtbare Web zu erkundenGoogle oder Bing können nicht nach allem suchen. Um das unsichtbare Web zu erkunden, müssen Sie diese speziellen Suchmaschinen verwenden. Weiterlesen “, ich bin kein typischer Benutzer. Sicher, ich verbringe ein bisschen zu viel meiner Zeit damit, Online-Datenbanken an Orten wie dem Nationalarchiv und dem CIA FOIA zu durchsuchen Raum, aber ich muss sagen, nichts macht mich aufgeregter, als wenn ich eine HTML-basierte Tabelle voller scheinbar komplexer und unverbundener Mengen vorfinde Daten.
Tatsache ist, dass Datentabellen eine Goldgrube wichtiger Wahrheiten sind. Daten werden oft von Armeen von Datensammlungsgrunzen mit Stiefeln auf dem Boden gesammelt. Sie haben Leute von der US-Volkszählung, die das ganze Land bereisen, um Informationen zu Haushalt und Familie zu erhalten. Sie haben gemeinnützige Umweltgruppen, die alle möglichen interessanten Informationen über Umwelt, Umweltverschmutzung, globale Erwärmung und mehr sammeln. Und wenn Sie sich für Paranormales oder Ufologie interessieren, gibt es auch ständig aktualisierte Tabellen mit Informationen zu Sichtungen seltsamer Objekte am Himmel über uns.
Ironischerweise würde man meinen, dass jede Regierung der Welt daran interessiert wäre zu wissen, welche Art von Ausländische Schiffe werden am Himmel über jedem Land gesichtet, aber anscheinend nicht – zumindest nicht in den USA. ohnehin. In Amerika wurde die Sammlung ungewöhnlicher Sichtungen von Handwerken Teams von Hobbybastlern überlassen, die wie Motten einer Flamme zu neuen UFO-Sichtungen strömen. Mein Interesse an diesen Sichtungen rührt eigentlich nicht von einer Faszination für Außerirdische oder Handwerk von anderen Planeten her, sondern von einer wissenschaftlichen Faszination für Muster – wo und warum mehr Menschen Dinge am Himmel sehen und ob diese Sichtungen etwas sehr Reales und viel Bodenständigeres widerspiegeln könnten? An.
Um die von Teams von UFO-Hobbyisten gesammelten Datenmengen zu untersuchen, habe ich tatsächlich eine Möglichkeit entwickelt, große HTML-Tabellen von zu importieren Daten in eine Google-Tabelle umwandeln und diese Daten dann bearbeiten und analysieren, um aussagekräftige und wichtige Daten zu extrahieren und zu entdecken Information. In diesem Artikel möchte ich Ihnen zeigen, wie Sie das gleiche tun.
Wichtige HTML-Daten in Google Spreadsheet
In diesem Beispiel zeige ich Ihnen, wie Sie alle Daten, die in einer Tabelle auf einer beliebigen Website im Internet gespeichert sein könnten, in Ihre Google-Tabelle importieren. Denken Sie an die enorme Datenmenge, die heute in Form von HTML-Tabellen im Internet verfügbar ist. Allein Wikipedia hat Daten in Tabellen zu Themen wie globale Erwärmung, das US Census Bureau hat Tonnen von Bevölkerungsdatensätze, und ein bisschen googeln wird Ihnen darüber hinaus noch viel mehr bringen.
In meinem Beispiel beginne ich mit einer Datenbank im National UFO Reporting Center, die tatsächlich so aussieht, als könnte es sich um eine Deep-Web-Datenbank im Abfragestil handeln, aber wenn Sie dies beachten URL-Strukturierung, eigentlich ein semi-komplexes webbasiertes Reporting-System bestehend aus statischen Webseiten und statischen HTML-Tabellen – genau das, was wir bei der Datensuche wollen importieren.
NUForc.org ist eine dieser Organisationen, die als eines der größten Meldezentren für UFO-Sichtungen dient. Es ist nicht das einzige, aber es ist groß genug, um jeden Monat neue Datensätze mit aktuellen Sichtungen zu finden. Sie können die Daten nach Kriterien wie Status oder Datum sortiert anzeigen, und jede davon wird in Form einer statischen Seite bereitgestellt. Wenn Sie nach Datum sortieren und dann auf das neueste Datum klicken, sehen Sie, dass die dort aufgeführte Tabelle eine statische Webseite ist, die nach dem Datumsformat benannt ist.
Wir haben jetzt also ein Muster, um regelmäßig die neuesten Sichtungsinformationen aus dieser HTML-basierten Datenbank zu extrahieren. Alles, was Sie tun müssen, ist die erste Tabelle zu importieren, den neuesten Eintrag (den obersten) zu verwenden, um die neuestes Update, und verwenden Sie dann das Datum dieser Veröffentlichung, um den URL-Link zu erstellen, in dem die neueste HTML-Datentabelle existiert. Dazu sind lediglich einige Instanzen der ImportHTML-Funktion und dann einige kreative Anwendungen der Textbearbeitungsfunktionen erforderlich. Wenn Sie fertig sind, haben Sie eine der coolsten, sich selbst aktualisierenden Berichtstabellen für sich. Lass uns anfangen.
Importieren von Tabellen und Bearbeiten von Daten
Der erste Schritt besteht natürlich darin, die neue Tabelle zu erstellen.
Wie importiert man HTML-Tabellen? Alles, was Sie brauchen, ist die URL, unter der die Tabelle gespeichert ist, und die Nummer der Tabelle auf der Seite – normalerweise ist die zuerst aufgeführte 1, die zweite 2 und so weiter. Da ich die URL dieser ersten Tabelle mit Datumsangaben und Anzahl der aufgelisteten Sichtungen kenne, ist es möglich, den Import durch Eingabe der folgenden Funktion in Zelle A1 durchzuführen.
=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 hält die Funktion „=Stunde (jetzt())“, sodass die Tabelle stündlich aktualisiert wird. Dies ist wahrscheinlich extrem für Daten, die dies selten aktualisieren, sodass ich wahrscheinlich damit durchkommen könnte, es täglich zu tun. Wie auch immer, die obige ImportHTML-Funktion bringt die Tabelle wie unten gezeigt.
Sie müssen auf dieser Seite ein wenig Datenmanipulation vornehmen, bevor Sie die URL für die zweite Tabelle mit allen UFO-Sichtungen zusammensetzen können. Aber fahren Sie fort und erstellen Sie das zweite Blatt in der Arbeitsmappe.
Bevor Sie versuchen, dieses zweite Blatt zu erstellen, ist es an der Zeit, das Veröffentlichungsdatum aus dieser ersten Tabelle zu extrahieren, um den Link zur zweiten Tabelle zu erstellen. Das Problem besteht darin, dass das Datum als Datumsformat und nicht als Zeichenfolge eingegeben wird. Zuerst müssen Sie also die TEXT-Funktion verwenden, um das Berichtsdatum in eine Zeichenfolge umzuwandeln:
=Text (A2“,MM/TT/JJ“)
In der nächsten Zelle rechts müssen Sie die SPLIT-Funktion mit dem Trennzeichen „/“ verwenden, um das Datum in Monat, Tag und Jahr aufzuteilen.
=aufteilen (D2",/")
Gut aussehen! Jede Zahl muss jedoch auf zwei Ziffern gezwungen werden. Sie tun dies in den Zellen direkt darunter, indem Sie erneut den TEXT-Befehl verwenden.
=Text (E2,00″)
Das Format „00“ (das sind Nullen) erzwingt zwei Ziffern oder eine „0“ als Platzhalter.
Jetzt können Sie die gesamte URL mit der neuesten HTML-Tabelle der neuen Sichtungen neu erstellen. Sie können dies tun, indem Sie die CONCATENATE-Funktion verwenden und alle Informationen zusammensetzen, die Sie gerade aus der ersten Tabelle extrahiert haben.
=verketten(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Jetzt werden Sie auf dem neuen Blatt, das Sie oben erstellt haben (dem leeren Blatt), eine neue Funktion "importhtml" ausführen, aber dieses Mal zum ersten Mal URL-Link-Parameter, also navigieren Sie zurück zur ersten Tabelle und klicken auf die Zelle mit dem gerade erstellten URL-Link.
Der zweite Parameter ist „Tabelle“ und der letzte ist „1“ (da die Sichtungstabelle der erste und einzige auf der Seite ist). Drücken Sie die Eingabetaste, und jetzt haben Sie gerade das gesamte Volumen der Sichtungen importiert, die an diesem bestimmten Datum veröffentlicht wurden.
Du denkst also wahrscheinlich, dass dies eine nette Neuheit ist und alles – ich meine, schließlich wird das, was du getan hast, extrahiert vorhandene Informationen aus einer Tabelle im Internet und migrierte sie in eine andere Tabelle, wenn auch eine private in Ihren Google-Dokumenten Konto. Ja das stimmt. Da es sich jedoch jetzt in Ihrem eigenen privaten Google Docs-Konto befindet, haben Sie die Tools und Funktionen zur Hand, um diese Daten besser zu analysieren und erstaunliche Verbindungen zu entdecken.
Verwenden von Pivot-Berichten zum Analysieren importierter Daten
Vor kurzem habe ich einen Artikel über die Verwendung geschrieben Pivot-Berichte in Google Spreadsheet Werden Sie über Nacht ein erfahrener Datenanalyst mit den Google Spreadsheet Report ToolsWussten Sie, dass eines der besten Tools zur Durchführung von Datenanalysen eigentlich Google Spreadsheet ist? Der Grund dafür ist nicht nur, dass es fast alles kann, was Sie vielleicht möchten ... Weiterlesen um alle möglichen coolen Datenanalyse-Meisterschaften durchzuführen. Nun, Sie können mit den Daten, die Sie aus dem Internet importiert haben, dieselbe erstaunliche Datenanalyse-Akrobatik durchführen – Ihnen die Möglichkeit geben, interessante Verbindungen aufzudecken, die möglicherweise noch niemand zuvor entdeckt hat Sie.
Aus der Tabelle der endgültigen Sichtungen könnte ich beispielsweise entscheiden, einen Pivot-Bericht zu verwenden, um die Anzahl der unterschiedliche einzigartige Formen, die in jedem Bundesstaat gemeldet wurden, im Vergleich zur Gesamtzahl der Sichtungen in diesem besonderen Zustand. Schließlich filtere ich im Kommentarbereich auch alles heraus, was „Aliens“ erwähnt, um hoffentlich einige der mehr Wingnut-Einträge auszusortieren.
Dies offenbart tatsächlich einige ziemlich interessante Dinge auf Anhieb, wie zum Beispiel die Tatsache, dass Kalifornien eindeutig die höchste hat Anzahl der gemeldeten Sichtungen eines anderen Staates, zusammen mit der Auszeichnung, die höchste Anzahl von Schiffsformen in den Land. Es zeigt auch, dass Massachusetts, Florida und Illinois auch große Hitter in der Abteilung für UFO-Sichtungen sind (zumindest in den neuesten Daten).
Eine weitere coole Sache an Google Spreadsheet ist die große Auswahl an Diagrammen, die Ihnen zur Verfügung stehen, einschließlich einer Geo-Karte, mit der Sie Legen Sie „Hotspots“ von Daten in einem grafischen Format an, das wirklich hervorsticht und diese Verbindungen innerhalb der Daten deutlich macht offensichtlich.
Wenn man darüber nachdenkt, ist dies wirklich nur die Spitze des Eisbergs. Wenn Sie jetzt auf jeder Seite im Internet Daten aus Datentabellen importieren können, denken Sie nur an die Möglichkeiten. Holen Sie sich die neuesten Aktienzahlen oder die neuesten Top-10-Bücher und -Autoren auf der Bestsellerliste der New York Times oder die meistverkauften Autos der Welt. Es gibt HTML-Tabellen zu fast jedem Thema, das Sie sich vorstellen können, und in vielen Fällen werden diese Tabellen häufig aktualisiert.
ImportHtml gibt Ihnen die Möglichkeit, Ihre Google-Tabelle mit dem Internet zu verbinden und die dort vorhandenen Daten zu füttern. Es kann zu Ihrem persönlichen Informationszentrum werden, mit dem Sie manipulieren und in ein Format einmassieren können, mit dem Sie tatsächlich arbeiten können. Es ist nur eine weitere sehr coole Sache, die man an Google Spreadsheet lieben kann.
Haben Sie schon einmal Daten in Ihre Tabellenkalkulation importiert? Welche interessanten Dinge haben Sie in diesen Daten entdeckt? Wie haben Sie die Daten verwendet? Teilen Sie Ihre Erfahrungen und Ideen in den Kommentaren unten!
Bildnachweis: Geschäftsdiagramm
Ryan hat einen BSc-Abschluss in Elektrotechnik. Er hat 13 Jahre in der Automatisierungstechnik, 5 Jahre in der IT gearbeitet und ist jetzt Apps Engineer. Als ehemaliger Chefredakteur von MakeUseOf hat er auf nationalen Konferenzen zur Datenvisualisierung gesprochen und wurde im nationalen Fernsehen und Radio vorgestellt.