<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-15">
<META content="MSHTML 6.00.6000.17095" name=GENERATOR></HEAD>
<BODY style="MARGIN: 4px 4px 1px; FONT: 10pt Tahoma; COLOR: #000000">
<DIV>I replaced the pdfbox jar 0.7.2 with 1.5.0 and added fontbox-1.5.0.jar. It would not work unless I changed the import statements in CmsExtractorPdf.java from</DIV>
<DIV> </DIV>
<DIV>org.pdfbox.pdfparser.PDFParser;</DIV>
<DIV> </DIV>
<DIV>to</DIV>
<DIV> </DIV>
<DIV>org.apache.pdfbox.pdfparser.PDFParser</DIV>
<DIV> </DIV>
<DIV>and rebuilt OpenCMS from source. This seems to work, the content was indexed.</DIV>
<DIV> </DIV>
<DIV>Are there any plans to upgrade to a newer version of pdfbox in the future?</DIV>
<DIV> </DIV>
<DIV>Thanks!<BR>Tony<BR><BR>>>> Graeme Kidd <coolkidd3@hotmail.com> 22/Mar/2011 12:19 pm >>><BR><BR><BR>Hi,<BR><BR>It appears this is a known issue that appeared in PDFBOX before version 0.8 (OpenCms uses 0.7.2):<BR><A href="https://issues.apache.org/jira/browse/PDFBOX">https://issues.apache.org/jira/browse/PDFBOX</A>-361<BR><BR>You could try and download the latest version of PDFBOX (1.5.0) from here:<BR><A href="http://pdfbox.apache.org/download.html">http://pdfbox.apache.org/download.html</A><BR><BR>However I am not sure how much the PDFBOX API has changed so it may be that this version is not supported by OpenCms 7.<BR><BR>Graeme<BR><BR>________________________________<BR>> Date: Tue, 22 Mar 2011 11:14:27 -0600<BR>> From: TTHUL@regina.ca<BR>> To: opencms-dev@opencms.org<BR>> Subject: [opencms-dev] Adobe 9 and pdfBox<BR>><BR>> Are there any fixes available for 7.x that will allow the content to be<BR>> indexed in pdf files created with adobe 9?<BR>><BR>> This an example of the errors we are getting:<BR>><BR>> 22 Mar 2011 09:07:07,050 ERROR [rch.documents.A_CmsVfsDocument: 166]<BR>> Extracting text from resource<BR>> "/sites/Insite/hr/job_descriptions/Public_Works_Division/Water_and_Sewer_Services_Department/Water_Operations/Tradesperson_II.pdf"<BR>> failed.<BR>> org.opencms.search.CmsIndexException: Extracting text from resource<BR>> "/sites/Insite/hr/job_descriptions/Public_Works_Division/Water_and_Sewer_Services_Department/Water_Operations/Tradesperson_II_x_Plumber_Cross_Connection.pdf"<BR>> failed.<BR>> at<BR>> org.opencms.search.documents.CmsDocumentPdf.extractContent(CmsDocumentPdf.java:91)<BR>> at<BR>> org.opencms.search.documents.A_CmsVfsDocument.createDocument(A_CmsVfsDocument.java:159)<BR>> at org.opencms.search.CmsIndexingThread.run(CmsIndexingThread.java:129)<BR>> Caused by: java.lang.NullPointerException<BR>> at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:194)<BR>> at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)<BR>> at<BR>> org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:162)<BR>> at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:220)<BR>> at org.pdfbox.util.PDFTextStripper.getText(PDFTextStripper.java:140)<BR>> at<BR>> org.opencms.search.extractors.CmsExtractorPdf.extractText(CmsExtractorPdf.java:104)<BR>> at<BR>> org.opencms.search.extractors.A_CmsTextExtractor.extractText(A_CmsTextExtractor.java:72)<BR>> at<BR>> org.opencms.search.extractors.A_CmsTextExtractor.extractText(A_CmsTextExtractor.java:62)<BR>> at<BR>> org.opencms.search.documents.CmsDocumentPdf.extractContent(CmsDocumentPdf.java:78)<BR>> ... 2 more<BR>><BR>><BR>> DISCLAIMER: The information transmitted is intended only for the<BR>> addressee and may contain confidential, proprietary and/or privileged<BR>> material. Any unauthorized review, distribution or other use of or the<BR>> taking of any action in reliance upon this information is prohibited.<BR>> If you received this in error, please contact the sender and delete or<BR>> destroy this message and any copies.<BR>><BR>> _______________________________________________ This mail is sent to<BR>> you from the opencms-dev mailing list To change your list options, or<BR>> to unsubscribe from the list, please visit<BR>> <A href="http://lists.opencms.org/mailman/listinfo/opencms">http://lists.opencms.org/mailman/listinfo/opencms</A>-dev<BR>     <BR><BR>_______________________________________________<BR>This mail is sent to you from the opencms-dev mailing list<BR>To change your list options, or to unsubscribe from the list, please visit<BR><A href="http://lists.opencms.org/mailman/listinfo/opencms">http://lists.opencms.org/mailman/listinfo/opencms</A>-dev<BR></DIV><BR>

    <p>
      <font size="2" face="Tahoma"><b>DISCLAIMER:</b> The information 
      transmitted is intended only for the addressee and may contain 
      confidential, proprietary and/or privileged material. Any unauthorized 
      review, distribution or other use of or the taking of any action in 
      reliance upon this information is prohibited. If you received this in 
      error, please contact the sender and delete or destroy this message and 
      any copies. </font>
    </p>
  </BODY></HTML>