2111798

Agrep: Zeichenketten mit Tippfehlern suchen & finden

17.09.2015 | 12:33 Uhr |

Agrep ist ein cleverer Verwandter von Grep, der die ungefähre Suche nach Zeichenketten beherrscht, die sogar Tippfehler enthalten können.

Das Kommandozeilen-Tool Grep durchsucht große Mengen an Text in Dateien unschlagbar schnell und präzise. Manchmal ist aber diese Präzision nicht gefragt: Wenn es darum geht, mehrere Schreibweisen eines Worts zu finden oder Wörter mit versehentlichen Buchstaben- und Zahlendrehern, dann kommt das Gegenstück Agrep wie gerufen.

Agrep steht für „Approximate Grep“ – also für ein ungefähres Grep. Es arbeitet dazu mit Levenshtein-Distanzen, wie sie auch bei Programmen zur Rechtschreibprüfung zum Einsatz kommen, um die Ähnlichkeit von Zeichenketten festzustellen. Das Suchwerkzeug ist in den Paketquellen aller Linux-Distributionen enthalten und damit bei Bedarf schnell installiert.

In Debian / Ubuntu hilft der Befehl

sudo apt-get install tre-agrep  

und in Open Suse dieses Kommando:

sudo zypper install agrep  

Auch Fedora kennt das Paket unter diesem Namen. Dort installieren Sie es mit diesem Befehl:

sudo yum install agrep  

Trotz des zum Teil abweichenden Paketnamens handelt es sich um dasselbe Programm. Mit

tre-agrep -2 "Suchbegriff" datei.txt 

starten Sie in Debian/Ubuntu eine Grep-Suche nach dem „Suchbegriff“ in der Datei „datei.txt“ nach Zeichenketten mit maximal zwei Abweichungen. Die gewünschte Unschärfe bestimmt in diesem Beispiel der Parameter „-2“. Erlaubt ist ein Wert zwischen „-0“ bis „-9“, wobei das „-“ als Parametersignal, nicht als Minuszeichen zu lesen ist. In Open Suse, Fedora und allen Red-Hat-Varianten lautet der Programmname einfach „agrep“ ohne das Prefix „tre-“. Funktion und Parameter sind aber identisch.

Tipp: Volltextsuche - Dateien in Linux durchforsten

0 Kommentare zu diesem Artikel
2111798