Metadados em arquivos do Office 2007

Opa, e aí galera

Tudo bem?
Eu já falei aqui sobre metadados em arquivos PDF e em imagens. Mas hoje nós vamos falar sobre metadados em arquivos do Microsoft Office 2007.

Em 2009, o Kristinn Gudjonsson (autor da ferramenta log2timeline), criou um script em PERL chamado read_open_xml.pl. Essa ferramenta faz o parsing de metadados do Office 2007. Pra quem não sabe, o Office 2007 utiliza um formato denominado OpenXML. Resumindo, um documento no formato OpenXML é um arquivo "comprimido" e que faz uso do formato ZIP, podendo ser aberto por qualquer ferramenta de descompactação ZIP (é só renomear o arquivo docx para .zip e então utilizar um descompactador ZIP, por exemplo winzip ou até mesmo o winrar).

Assim, o Kristinn começou a estudar este formato ZIP e descobriu que internamente ao arquivo ZIP existem estruturas pré-definidas, em sua maioria são estruturas XML que descrevem o próprio arquivo e seu conteúdo. Portanto, pode-se usar bibliotecas escritas na linguagem PERL para ler estas estruturas. Depois de estudar o assunto o Kristinn escreveu este script que eu citei no começo do post. Para exemplificar o uso deste script, a figura1 mostra um exemplo que eu rodei em cima de um documento do Word:











Este post é um resumo do artigo Office 2007 Metadata, do próprio autor da ferramenta em uso aqui. Neste artigo, o autor demonstra com mais detalhes como foi o processo de desenvolvimento do read_open_xml. Espero que esse post sirvam para vocês

Bom, é isso!
Abração!