Architektur

  • Lucene stellt Werkzeuge zum Indexieren von Inhalten bereit.
  • Die Architektur von Lucene ist so aufgebaut, dass beliebige Filter verwendet werden können. Im Grunde kann alles verarbeitet werden, was in Textform vorliegt, also beispielsweise Text-Dateien, Datenbankfelder oder E-Mails.
  • Wer Inhalte in Formaten wie HTML, PDF, Microsoft Word oder OpenOffice verarbeiten möchte, benötigt Filter, die Text-Informationen extrahieren. Sie jedoch kein Bestandteil des Frameworks nicht integraler Bestandteil von Lucene, sondern können über diverse andere Projekte verfügbar beigezogen werden z.B. PDFBox für PDF, Apache POI für Microsoft Word etc.).