Textanalyse

Wenn die eigentlichen Textinhalte vorliegen, werden sie einem so genannten Analyzer übergeben.
Die Daten werden zerlegt und in einer einheitlichen Weise für den Index aufbereitet. Dabei können Stoppwörter eliminiert oder Zeichenketten in Kleinschreibung normalisiert werden.
Lucene stellt dazu verschiedene Analyzer bereit. Diese genügen auch komplexen Anforderungen vollends. Es ist jedoch auch möglich, zusätzliche und eigene Analyzer einzubinden
Einen passenden Analyzer vorausgesetzt, lassen sich mit Lucene übrigens auch hierzulande ungewohnte Zeichensätze, wie sie im Chinesischen oder Japanischen üblich sind, hervorragend indexieren.