Metadados em arquivos do Office 2007

Opa, e aí galera

Tudo bem?
Eu já falei aqui sobre metadados em arquivos PDF e em imagens. Mas hoje nós vamos falar sobre metadados em arquivos do Microsoft Office 2007.

Em 2009, o Kristinn Gudjonsson (autor da ferramenta log2timeline), criou um script em PERL chamado read_open_xml.pl. Essa ferramenta faz o parsing de metadados do Office 2007. Pra quem não sabe, o Office 2007 utiliza um formato denominado OpenXML. Resumindo, um documento no formato OpenXML é um arquivo "comprimido" e que faz uso do formato ZIP, podendo ser aberto por qualquer ferramenta de descompactação ZIP (é só renomear o arquivo docx para .zip e então utilizar um descompactador ZIP, por exemplo winzip ou até mesmo o winrar).

Assim, o Kristinn começou a estudar este formato ZIP e descobriu que internamente ao arquivo ZIP existem estruturas pré-definidas, em sua maioria são estruturas XML que descrevem o próprio arquivo e seu conteúdo. Portanto, pode-se usar bibliotecas escritas na linguagem PERL para ler estas estruturas. Depois de estudar o assunto o Kristinn escreveu este script que eu citei no começo do post. Para exemplificar o uso deste script, a figura1 mostra um exemplo que eu rodei em cima de um documento do Word:











Este post é um resumo do artigo Office 2007 Metadata, do próprio autor da ferramenta em uso aqui. Neste artigo, o autor demonstra com mais detalhes como foi o processo de desenvolvimento do read_open_xml. Espero que esse post sirvam para vocês

Bom, é isso!
Abração!

6 comentários:

  1. cara, excelente análise. muito boa dica!

    luiz rabelo | 4n6.cc

    ResponderExcluir
  2. Opa, Valeu Luiz

    Eu sempre passo no seu blog também, tem muita coisa legal por lá.

    Abração!

    ResponderExcluir
  3. Parabéns pelas publicações Luiz,

    Gostei do seu site, principalmente do conteúdo forense, até inspirou-me a montar um também.

    Parabéns pela iniciativa.

    Heleno Alves

    ResponderExcluir