Indexierung

WinHex & X-Ways

Indexierung

 

Teil der Erweiterung des Datei-Überblicks. Verfügbar nur mit forensischer Lizenz. In der Informatik ist der Plural von Index Indexe, und nicht Indizes. Das zugehörige Verb heißt indexieren, und nicht indizieren. Die Indexierung erfaßt die Daten mit derselben Logik wie eine logische Suche, mit den gleichen Vorteilen (s. dort).

 

Erstellt Indexe aller Wörter in allen oder bestimmten Dateien im Datei-Überblick, basierend auf den von Ihnen angegebenen Zeichen, basierend auf dem Unicode-Zeichensatz und/oder bis zu zwei von Ihnen anzugebende Codepages. Es ist möglich, bis zu drei solcher Indexe pro Asservat zu haben (z. B. kyrillische Zeichen indexiert in Unicode und zwei kyrillischen Codepages). X-Ways Forensics erlaubt Ihnen, bequem die Zeichen von mehr als 22 Sprachen für die Indexierung auszuwählen. Derzeit sind die meisten europäischen und viele asiatische Sprachen vordefiniert, z. B. Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch, skandinavische Sprachen, Russisch, südslawische Sprachen, osteuropäische Sprachen, Griechisch, Türkisch, Hebräisch, Arabisch, Thailändisch und Vietnamesisch. Sie können jedes Zeichen einzeln angeben, oder Intervalle (z. B. a-zA-Z) wenn das Editierfeld mit "range:" beginnt. Hinter den Intevallen können wieder einzelne Zeichen folgen (z. B. a-zA-Zäöüß). Um den Bindestrich selbst mit zu indexieren (nicht empfohlen), geben Sie ihn als allerletztes Zeichen an.

 

Das Indexieren kann ein lang andauernder Prozeß sein und ggf. viel Plattenplatz benötigen (grobe Faustregel mit Voreinstellungen bei üblichen Daten: 5-25% der Originaldatenmenge). Dafür erlaubt es Ihnen der Index, weitere Suchvorgänge äußerst schnell und spontan durchzuführen. Die Index-Dateien werden in Unterverzeichnissen des Metadaten-Ordner des betreffenden Asservats gespeichert. Die zu indexierende Datenmenge können Sie gezielt steuern. Beachten Sie, daß der Index auf partitionierten Datenträgern wie z. B. physischen Festplatten ausschließlich die unpartitionierten Bereiche abdeckt, weil jede Partition ihren eigenen Index haben kann.

 

Wörter, die kürzer als ein von Ihnen bestimmtes unteres Limit sind, werden ignoriert. Je größer die Minimallänge von Wörtern in Zeichen, desto kleiner wird der Index und schneller die Indexierung. Voreinstellung als Minimum sind 4 Zeichen. Häufig vorkommende irrelevante Wörter kann man durch die Ausnahmeliste mit vorangestelltem Minuszeichen aus dem Index ausschließen (z. B. -und, wenn schon 3 Zeichen akzeptiert werden), was den Index verkleinert und das Indexieren beschleunigt. Je größer Sie die Spanne akzeptierter Wortlängen wählen, desto größer wird der Index und desto langsamer die Indexierung. Relevante Wörter mit 3 Buchstaben können Sie in die Ausnahmeliste mit vorangestelltem Pluszeichen aufnehmen (z. B. +xtc), so daß diese trotz Unterschreiten des Standard-Limits von 4 mit indexiert werden. Die Ausnahmeliste muß nicht alphabetisch sortiert sein. Wörter in der Ausnahmeliste, die länger als das von Ihnen angegebene obere Limit sind, werden im Index abgeschnitten. Die Ausnahmeliste kann keine Ausnahmen von der angegebenen Auswahl an zu indexierenden Zeichen definieren.

 

Groß- und Kleinschreibung wird bei der Indexierung optional unterschieden. Dies kann z. B. dann nützlich sein, wenn Sie den Index deswegen erstellen, um später eine Wortliste zum Zweck eines individuellen Wörterbuchangriffs auf ein Paßwort zu exportieren.

 

Wenn Sie X-Ways Forensics Teilwörter in den Index mit aufnehmen lassen, verlangsamt das die Indexierung (um den Faktor 3-5) und bläht den Index auf. Allerdings wird Sie das in die Lage dazu versetzen, verläßlich und schnell z. B. "Rechnung" in "Berechnung" und "Verrechnung" sowie "Gesellschaft" in "Aktiengesellschaft" zu finden. Allerdings können Sie auch wenn Sie den Index nicht speziell für die Teilwortsuche auslegen später nach Teilwörter suchen, jedoch wird die Suche dann langsamer sein und das Ergebnis unvollständig. Bitte beachten Sie, daß es in der Verantwortung des Benutzers liegt, die Teilwortindexierung einzuschalten, wenn die Wörter der zu indexierenden Sprache nicht durch Leerzeichen voneinander getrennt sind (wie z. B. im Chinesischen, Japanischen und Thailändischen).

 

Das Indexieren ist unnötig langsam, wenn die zu indexierenden Daten auf demselben Datenträger liegen wie Ihr Fall, in dem der Index erzeugt wird. Vermeiden Sie es, mit aktiver Internet-Verbindung zu indexieren, wenn Ihr Windows-System für automatische Updates konfiguriert ist und nach der Installation von Updates den Computer evtl. selbständig neu startet.

 

Optional kann der Text in bestimmten Dateitypen zur Indexierung decodiert werden (s. Logische Suche), und es ist möglich, Indexe für ausgewählte mit einem Fall verbundenen Datenträger/Images in einem einzigen Durchgang zu erstellen. Sie können gleichzeitig in bis zu sechds verschiedenen Codepages indexieren.

 

Es ist möglich, eine Zeichenersetzungsliste in Unicode zu definieren, die bewirkt, daß bestimmte Buchstaben als andere Buchstaben indexiert werden (z. B. „é“ wie „e“). Das erlaubt es Ihnen, Varianten in der Schreibweise mit einer einzigen Index-Suche abzudecken, z. B. sowohl den Namen „René“ mit Accent also auch „Rene“ ohne. Diese Liste muß die Struktur

é>e

è>e

à>a                

...

aufweisen (d.h. 1 Ersetzung pro Zeile) und in einer Unicode-Textdatei namens „indexsub.txt“ gespeichert sein, die mit dem LE-Unicode-Zeichen 0xFF 0xFE beginnt. „indexsub.txt“ ist eine optionale Datei. Sie wird im Installationsverzeichnis von X-Ways Forensics erwartet.

 

Sie erhalten eine Warnung, wenn Sie das Leerzeichen als Teil von Wörtern definieren. Und zwar darum, weil der Zweck von Leerzeichen ist, Wörter voneinander zu trennen. Sie sind nicht selbst Teil von Wörtern. Wenn ein Leerzeichen als Teil von Wörtern definiert wird, dann bedeutet das, daß ein ganzer Satz wie "Kai Möller hat seine Kreditkarte verloren." als ein einziges Wort betrachtet wird.

 

Sie können alle Indexe eines Asservats löschen, indem Sie das Häkchen im Kontrollkästchen „Bereits erledigt?“ im Dialogfenster „Datei-Überblick erweitern“ entfernen. Dies löscht auch die individuelle Kennzeichnung der Dateien im Datei-Überblick als indexiert (sichtbar in Form eines kleinen „i“).

 

Suche in Index: Nach dem Indexieren von Dateien können Sie den Index sehr schnell nach Schlüsselwörtern durchsuchen, mit der Parallelen Suche. Wählen Sie "Suche im Index" in der aufklappbaren Liste am unteren Rand des Dialogfensters. Buchstaben in Suchbegriffen, die über die für die Indexierung verwendete Maximalwortlänge hinausragen, werden bei der Suche ignoriert (damit "Tortenheber" auch dann im Index gefunden wird, wenn das Wort im Index im Fall einer Maximallänge von 7 Buchstaben nach "Tortenh" abgeschnitten wurde). Groß- und Kleinschreibung wird nicht unterschieden, es sei denn, Sie haben den Index mit dieser Option erzeugt. Wenn das Auflisten der Suchtreffer zu lange dauert, z. B. weil Sie nur ein einziges Zeichen oder ein sehr häufiges kurzes Wort eingegeben haben, können Sie jederzeit Esc drücken oder den Fortschrittsanzeigefenster schließen, um den Vorgang abzubrechen. In einer von einer Index-Suche gefüllten Suchtrefferliste sind physische Offsets nicht verfügbar.

 

Sie können bequem Nicht-GREP-Index-Suchen nach Suchbegriffen durchführen, die Leerzeichen enthalten, genau wie in konventionellen Suche. Das ist sehr wichtig für Namen (z. B. "Hans Mustermann" oder "Brandner Bau GmbH") und für Doppelwörter im Englischen (z. B. "bank account" oder "credit card limit"), und zum Teil auch im Deutschen, dank Deppenleerzeichen. Das funktioniert auch dann, wenn die Bestandteile des Doppelworts für sich genommen die maximal indexierte Wortlänge (standardmäßig 7 Zeichen) überschreiten, so daß Sie problemlos Wörter wie "basketball positions" (10+9 Buchstaben) oder "skyscraper architecture" (10+12 Buchstaben) finden. Aber wie immer werden die Bestandteile nur bis zur indexierten Wortlänge gefunden, was kein Problem ist, weil es nicht viele andere Wörter als "basketball" und "skyscraper" gibt, die mit "basketb" bzw. "skyscra" beginnen. Tatsächlich werden neben Leerzeichen auch andere nicht indexierte Worttennzeichen gefunden, wenn Sie nach Begriffen mit Leerzeichen suchen, z. B. Bindestriche, so daß Sie auch "Spider-Man" und "Lebkuchen-Herz" finden, wenn Sie nach "spider man" und "Lebkuchen Herz" suchen, oder Unterstriche wie in "konto_nummer" (könnte in einem Dateinamen wie "konto_nummer.html" vorkommen) oder Pluszeichen wie in "credit+card" (z. B. üblich in Such-URLs von Google, wenn man nach englischen Doppelwörtern mit Leerzeichen sucht) oder Punkte wie in "Interview.pdf". Daher sind in dieser Hinsicht Index-Suchen noch mächtiger als konventionelle Suchen. Leerzeichen als Teil von Wörtern zu definieren ist falsch.