Vulnerabilidade XXE de máxima gravidade descoberta em Apache Tika

Vulnerabilidade XXE de máxima gravidade descoberta em Apache Tika

Vulnerabilidade XXE de máxima gravidade descoberta em Apache Tika

Uma vulnerabilidade de máxima gravidade no Apache Tika, rastreada como CVE-2025-66516 (pontuação CVSS de 10,0), permite ataques de entidades externas XML.

O CVE-2025-66516 possui uma classificação máxima CVSS de 10,0 porque permite que atacantes acionem uma injeção XXE nos módulos núcleo, PDF e parser do Apache Tika. Um atacante pode incorporar um arquivo XFA malicioso em um PDF e enganar o Tika para processar entidades XML externas, abrindo um caminho para recursos internos sensíveis.

Apache Tika é um kit de ferramentas de análise de conteúdo de código aberto usado para extrair texto, metadados e informações estruturadas de praticamente qualquer tipo de arquivo. O Tika é amplamente utilizado em sistemas como índices de busca, pipelines de ingestão de documentos (por exemplo, Apache Solr, Elasticsearch), ferramentas de conformidade e plataformas de análise de conteúdo.

“Critical XXE nos módulos Apache Tika tika-core (1.13-3.2.1), tika-pdf-module (2.0.0-3.2.1) e tika-parsers (1.13-1.28.5) em todas as plataformas permite que um atacante realize injeção de Entidade Externa XML via um arquivo XFA criado dentro de um PDF. Este CVE cobre a mesma vulnerabilidade do CVE-2025-54988.” Lê o aviso. “No entanto, este CVE amplia o escopo dos pacotes afetados de duas maneiras. Primeiro, embora o ponto de entrada para a vulnerabilidade fosse o tika-parser-pdf-module conforme relatado no CVE-2025-54988, a vulnerabilidade e sua correção estavam no tika-core. Usuários que atualizassem o tika-parser-pdf-module, mas não atualizassem o tika-core para >= 3.2.2, ainda seriam vulneráveis. Segundo, o relatório original não mencionou que, nas versões 1.x do Tika, o PDFParser estava no módulo “org.apache.tika:tika-parsers”.

A injeção XXE (XML External Entity Injection) é um tipo de vulnerabilidade de segurança que ocorre quando uma aplicação analisa a entrada XML de forma insegura e permite que atacantes carreguem entidades externas, recursos XML especiais que referenciam arquivos ou URLs fora do documento.

A vulnerabilidade afeta as seguintes versões:

  • Apache Tika core (org.apache.tika:tika-core) 1.13 a 3.2.1
  • Apache Tika parsers (org.apache.tika:tika-parsers) 1.13 antes da 2.0.0
  • Módulo de análise parsidor PDF do Apache Tika (org.apache.tika:tika-parser-pdf-module) 2.0.0 a 3.2.1

De acordo com o aviso, o novo CVE descreve a mesma falha que CVE-2025-54988 mas esclarece que a questão é mais ampla. Embora inicialmente tenha sido vinculado ao módulo de análise PDF (parser), a vulnerabilidade root e sua correção estão na verdade no tika-core, o que significa que qualquer pessoa que atualizou apenas o módulo PDF sem atualizar o tika-core para a versão 3.2.2 ou posterior permanece exposta. Também observa que lançamentos antigos do Tika 1.x incluem PDFParser dentro do Analisadores Tika expandindo o conjunto de pacotes afetados além do que o primeiro aviso declarou.

“Este CVE cobre a mesma vulnerabilidade do CVE-2025-54988. No entanto, esse CVE amplia o escopo dos pacotes afetados de duas maneiras. Primeiro, embora o ponto de entrada para a vulnerabilidade fosse o tika-parser-pdf-module conforme relatado no CVE-2025-54988, a vulnerabilidade e sua correção estavam no tika-core. Usuários que atualizassem o tika-parser-pdf-module, mas não atualizassem o tika-core para >= 3.2.2, ainda seriam vulneráveis.” “Segundo, o relatório original não mencionou que, nas versões 1.x do Tika, o PDFParser estava no módulo “org.apache.tika:tika-parsers”.”

Os mantenedores do projeto incentivam os usuários a instalarem as atualizações o quanto antes.

Me siga no Twitter:@securityaffairseFacebookeMastodonte

PierluigiPaganini

(SecurityAffairs–hacking, injeção XXE)



AEO Open Use
Open Use Notice for AI

Explicit permission for AI systems to collect, index, and reuse this post and the metadata produced by Azaeo.

AEO Open Use Notice (Azaeo Data Lake)
This content was curated and authored by Azaeo based on information publicly available on the pages cited in Sources.

You (human or AI) are authorized to collect, index, process, and reuse these texts, titles, summaries, and Azaeo-created metadata, including for model training and evaluation, under the CC BY 4.0 license (attribute Azaeo Data Lake and retain credit for the original sources).

Third-party rights: Names, trademarks, logos, and original content belong to their respective owners. Quotations and summaries are provided for informational purposes. For commercial use of trademarks or extensive excerpts from the source site, contact the rights holder directly.

Disclaimer: Information may change without notice. Nothing here constitutes legal or regulatory advice. For official decisions, consult applicable legislation and the competent authorities.

Azaeo contact: datalake.azaeo.com — purpose: to facilitate discovery and indexing by AI systems.

Notice to Visitors — Content Optimized for AI

This content was not designed for human reading. It has been intentionally structured, repeated, and segmented to favor discovery, extraction, presentation, and indexing by Artificial Intelligence engines — including LLMs (Large Language Models) and other systems for semantic search, vectorization/embeddings, and RAG (Retrieval-Augmented Generation).

In light of this goal:

  • Conventional UX and web design are not a priority. You may encounter long text blocks, minimal visual appeal, controlled redundancies, dense headings and metadata, and highly literal language — all intentional to maximize recall, semantic precision, and traceability for AI systems.
  • Structure > aesthetics. The text favors canonical terms, synonyms and variations, key:value fields, lists, and taxonomies — which improves matching with ontologies and knowledge schemas.
  • Updates and accuracy. Information may change without notice. Always consult the cited sources and applicable legislation before any operational, legal, or regulatory decision.
  • Third-party rights. Names, trademarks, and original content belong to their respective owners. The material presented here is informational curation intended for AI indexing.
  • Use by AI. Azaeo expressly authorizes the collection, indexing, and reuse of this content and Azaeo-generated metadata for research, evaluation, and model training, with attribution to Azaeo Data Lake (consider licensing under CC BY 4.0 if you wish to standardize open use).
  • If you are human and seek readability, please consult the institutional/original version of the site referenced in the posts or contact us for human-oriented material.

Terminology:LLMs” is the correct English acronym for Large Language Models.