pres:gerti:servico_de_desenvolvimento_de_sistemas_de_informacao:projetos:iago-dataflow

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
pres:gerti:servico_de_desenvolvimento_de_sistemas_de_informacao:projetos:iago-dataflow [11/07/2025 00:06] mfaquinopres:gerti:servico_de_desenvolvimento_de_sistemas_de_informacao:projetos:iago-dataflow [09/09/2025 22:51] (atual) mfaquino
Linha 177: Linha 177:
 **Geração de Resumo do Documento** **Geração de Resumo do Documento**
  
-Com o texto extraido do documento e OCR, é realizado a geração de um resumo do documento e salvo no campo do elasticsearch **summary, **o resumo é feito utilizando uma LLM \\  \\ - GPT-4.1-mini atráves do serviço da OpenAI do Azure \\ - llama3.3 atráves do [[https://ollama.tce.go.gov.br|https://ollama.tce.go.gov.br]]+Com o texto extraido do documento e OCR, é realizado a geração de um resumo do documento e salvo no campo do elasticsearch **summary, **o resumo é feito utilizando uma LLM \\  \\ - GPT-4.1-mini atráves do serviço da [[:pres:gerti:servico_de_desenvolvimento_de_sistemas_de_informacao:projetos:openai|OpenAI]] do Azure \\ 
 +- llama3.3 atráves do [[https://ollama.tce.go.gov.br|https://ollama.tce.go.gov.br]]
  
 O seguinte prompt é utilizado para gerar o resumo: O seguinte prompt é utilizado para gerar o resumo:
Linha 204: Linha 205:
 **Geração de Resumo do Processo** **Geração de Resumo do Processo**
  
-Após realizado o resumo dos documentos de um processo, é realizado a geração do resumo do processo usando os resumos de documentos, o resultado é salvo em cada registro de documento no campo do elasticsearch **process_summary, **o resumo é feito utilizando uma LLM \\  \\ - GPT-4.1-mini atráves do serviço da OpenAI do Azure \\ - llama3.3 atráves do [[https://ollama.tce.go.gov.br|https://ollama.tce.go.gov.br]]+Após realizado o resumo dos documentos de um processo, é realizado a geração do resumo do processo usando os resumos de documentos, o resultado é salvo em cada registro de documento no campo do elasticsearch **process_summary, **o resumo é feito utilizando uma LLM \\  \\ - GPT-4.1-mini atráves do serviço da [[:pres:gerti:servico_de_desenvolvimento_de_sistemas_de_informacao:projetos:openai|OpenAI]] do Azure \\ 
 +- llama3.3 atráves do [[https://ollama.tce.go.gov.br|https://ollama.tce.go.gov.br]]
 <code> <code>
  
Linha 234: Linha 236:
  
 </code> </code>
-====   Carga de Dados ====+ 
 +==== Carga de Dados ====
  
 Ao final o resultado do processamento é carregado no elasticsearch, o link para visualizar os documentos carregados é: [[https://elk.tce.go.gov.br/app/discover#/view/89d03c4d-9087-4644-9300-216e1eaea51b|https://elk.tce.go.gov.br/app/discover#/view/89d03c4d-9087-4644-9300-216e1eaea51b]] Ao final o resultado do processamento é carregado no elasticsearch, o link para visualizar os documentos carregados é: [[https://elk.tce.go.gov.br/app/discover#/view/89d03c4d-9087-4644-9300-216e1eaea51b|https://elk.tce.go.gov.br/app/discover#/view/89d03c4d-9087-4644-9300-216e1eaea51b]]
  
-{{https://projetos.tce.go.gov.br/attachments/download/20180/clipboard-202505220944-yfadg.png?nolink&1871x951}}+{{https://projetos.tce.go.gov.br/attachments/download/22171/clipboard-202507102050-q99zi.png?nolink&1876x940}}
  
 ==== Pipeline no Airflow ==== ==== Pipeline no Airflow ====
Linha 248: Linha 251:
  
 {{https://projetos.tce.go.gov.br/attachments/download/20340/clipboard-202505271145-dbr3p.png?nolink&1863x951}} {{https://projetos.tce.go.gov.br/attachments/download/20340/clipboard-202505271145-dbr3p.png?nolink&1863x951}}
 +
 +==== Processos Sigilosos ====
 +
 +Diariamente é executado a pipeline de verificação de documentos sigilosos: [[https://dataflow.tce.go.gov.br/dags/iago.confidential/graph|https://dataflow.tce.go.gov.br/dags/iago.confidential/graph]] \\
 +A verificação é realizada executando a seguinte query no Oracle, que retorna todos os processos que atualmente são sigilosos:
 +<code>
 +
 +SELECT
 +   PROAUTU_ID AS PROAUTU_ID,
 +   CODG_PROCESSO_N AS PROCESSO
 +FROM TCE_GO.PRO_AUTUACAO
 +WHERE INDR_BLOQUEIODOC_A IS NOT NULL
 +ORDER BY PROAUTU_ID DESC
 +
 +</code>
 +
 +Caso seja encontrado algum desses processos no elasticsearch, o mesmo é removido da base ''iago-search-autuacao'' \\ Caso o documento se torne público posteriormente, o mesmo será incluido novamente na base pela pipeline de carga de dados diária. \\ **OBS: A atualização dos dados é assíncrona podendo levar algumas horas entre a mudança de status no Oracle e a exclusão no elasticsearch.**
 +
 +Os logs dos processos removidos são registrados no próprio Airflow, sendo possível acompanhar periodicamente os documentos processados pelos administradores da ferramenta, ou usuários apenas leitores: \\ A seguir um exemplo de log de um processo que foi removido por se tornar sigiloso: **202500047003283**
 +
 +{{https://projetos.tce.go.gov.br/attachments/download/24324/clipboard-202509091945-472hj.png?nolink&1844x889}}
  
 ==== Tabela de Controle ==== ==== Tabela de Controle ====
  • pres/gerti/servico_de_desenvolvimento_de_sistemas_de_informacao/projetos/iago-dataflow.1752192419.txt.gz
  • Última modificação: 11/07/2025 00:06
  • por mfaquino