WebScraping e acesso à informação

superando barreiras na extração de dados judiciais

Autores

DOI:

https://doi.org/10.63451/dti.v1i20.249

Palavras-chave:

Acesso à informação, Acesso a dados públicos, Ciência de dados, Tribunais de Justiça, WebScraping

Resumo

Este artigo busca demonstrar como técnicas de tecnologia podem auxiliar cientistas sociais a realizarem estudos empíricos e quantitativos, superando obstáculos como a falta de acesso a dados estruturados pelos Tribunais de Justiça, ainda que requeridas essas informações pela Lei de Acesso à Informação. O estudo almeja contribuir no incentivo à pesquisa, especialmente por meio da disponibilização de scripts automatizados que utilizam da técnica de WebScraping, promovendo a possibilidade de realização de pesquisas acadêmicas com quantitativo significativo de dados judiciais. São compartilhados, enquanto anexos a este artigo, os códigos e tutoriais de utilização visando auxiliar outros pesquisadores a replicar o processo, com exemplos práticos dos tribunais de Minas Gerais, Rondônia e Mato Grosso. Embora o trabalho explore a extração e organização de dados públicos disponíveis nos sites das Cortes, destaca-se pela inovação na forma de obtenção e agrupamento dessas informações, viabilizando uma variedade de análises qualitativas e quantitativas. Este estudo defende a necessidade de maior transparência e acessibilidade dos dados judiciais e incentiva a colaboração entre academia e instituições públicas para aprimorar o acesso a dados e, assim, contribuir para a formulação e avaliação de políticas públicas no sistema de Justiça.

 

Downloads

Não há dados estatísticos.

Biografia do Autor

Mariela Campos Rocha, Universidade Federal de Minas Gerais

Doutora em Ciência Política pela Universidade Federal de Minas Gerais (UFMG), com formação sanduíche na University of Texas em Austin. Mestrado em Ciência Política pela UFMG. Especialização em informática em Educação pela Universidade Federal de Lavras. Pesquisadora de Pós-doutorado no Instituto da Democracia e da Democratização da Comunicação (INCT/UFMG). Pesquisadora do Centro de Estudos sobre Comportamento Político (CECOMP do DCP/UFMG). E-mail: mariela.rocha@gmail.com. ID Lattes: 9177350771497696

 

Mariana Elis Campos Gomes, Universidade Federal de Minas Gerais

Mestranda em Ciência Política na Universidade Federal de Minas Gerais (UFMG); Graduada em Direito pela Pontifícia Universidade Católica de Minas Gerais (PUC Minas); Pesquisadora no Observatório da Justiça Brasileira (OJB-UFMG). E-mail: mariana.ecg@hotmail.com. ID Lattes: 8502972378621189

 

Marcella Queiroz de Castro, Universidade Federal de Minas Gerais

Graduada em Direito pela Universidade de Brasília (UnB) e em Sistemas para Internet pelo Instituto Federal de Brasília (IFB). Analista de Tecnologia no Banco do Brasil. Consultora em Bruno Bioni Consultoria - Direito Digital. Pesquisadora bolsista pelo CNPq no Observatório da Justiça Brasileira (OJB-UFMG). E-mail: mqcastro@gmail.com. ID Lattes: 7277540757618435

 

Referências

ASSOCIAÇÃO BRASILEIRA DE LAWTECHS & LEGALTECHS. Disponível em: https://ab2l.org.br/radar-lawtechs/. Acesso em: 7 jul. 2024.

AWS. What is an API? Amazon Web Services, 2024. Disponível em: https://aws.amazon.com/pt/what-is/api/#:~=API%20significa%20Application%20Programming%20Interface,de%20serviço%20entre%20duas%20aplicações. Acesso em: 2 ago. 2024.

BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. Versão 3.6, 2021. Disponível em: https://www.nltk.org/book/. Acesso em: 7 jul. 2024.

BRASIL. Conselho Nacional de Justiça. Portaria CNJ nº 160, de 9 de setembro de 2020. Diário da Justiça, Brasília, DF, 10 set. 2020. Seção 1, p. 12. Disponível em: https://atos.cnj.jus.br/atos/detalhar/3453. Acesso em: 7 jul. 2024.

BRASIL. Conselho Nacional de Justiça. DATAJUD: Base Nacional de Dados do Poder Judiciário [recurso eletrônico]. Brasília: CNJ, 2024. Disponível em: https://www.cnj.jus.br/sistemas/datajud/. Acesso em: 7 jul. 2024.

BRASIL. Decreto nº 7.724, de 16 de maio de 2012. Regulamenta a Lei nº 12.527, de 18 de novembro de 2011, que dispõe sobre o acesso a informações previsto no inciso XXXIII do caput do art. 5º, no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição. Diário Oficial da União, Brasília, DF, 17 maio 2012. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2012/decreto/d7724.htm. Acesso em: 7 jul. 2024.

BRASIL. Lei nº 12.527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5º, no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição Federal; altera a Lei nº 8.112, de 11 de dezembro de 1990; revoga a Lei nº 11.111, de 5 de maio de 2005; e dá outras providências. Diário Oficial da União, Brasília, DF, 18 nov. 2011. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm. Acesso em: 7 jul. 2024.

BRASIL. Lei nº 12.965, de 23 de abril de 2014. Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil. Diário Oficial da União, Brasília, DF, 24 abr. 2014. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2014/lei/l12965.htm. Acesso em: 7 jul. 2024.

CALÒ, Alessandro. Extração e Análise de Informações Jurídicas Públicas. 2014. 75 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2014. Disponível em: https://bccdev.ime.usp.br/tccs/2014/sandro/Monografia.pdf. Acesso em: 17 ago. 2024.

CARVALHO, Taynara de Jesus. Pesquisa e Desenvolvimento de um Sistema de Automação de Jurimetria. 2021. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia) – Universidade de Brasília, Faculdade UnB Gama, Brasília, DF, 2021. Disponível em: https://bdm.unb.br/bitstream/10483/30748/1/2021_TaynaraDeJesusCarvalho_tcc.pdf. Acesso em: 17 ago. 2024.

CASTRO, Marcella Queiroz de. “Processamento de Linguagem Natural, Segurança Jurídica e Uniformidade da Jurisprudência: Um estudo sobre a viabilidade da aplicação de técnicas de Processamento de Linguagem Natural na identificação de divergências jurisprudenciais”. Monografia Final de Curso, 2022, Faculdade de Direito, Universidade de Brasília, Brasília, DF, 78 p. Disponível em: https://bdm.unb.br/bitstream/10483/33128/1/2022_MarcellaQueirozDeCastro_tcc.pdf

Conselho Nacional de Justiça. DATAJUD: Base Nacional de Dados do Poder Judiciário [recurso eletrônico]. Brasília: CNJ, 2024. Disponível em: https://www.cnj.jus.br/sistemas/datajud/. Acesso em: 7 jul. 2024.

FELIX, Eric. Openpyxl: A Python library to read/write Excel 2010 xlsx/xlsm files. Versão 3.0.8, 2023. Disponível em: https://openpyxl.readthedocs.io/en/stable/. Acesso em: 7 jul. 2024.

KHEDER, Moaiad. Web Scraping or Web Crawling: State of Art, Techniques, Approaches and Application. International Journal of Advances in Soft Computing and its Applications, v. 13, p. 145-168, dez. 2021. DOI: 10.15849/IJASCA.211128.11.

KROTOV, V.; JOHNSON, L.; SILVA, L. Tutorial: Legality and Ethics of Web Scraping. Communications of the Association for Information Systems, v. 47, 2020. Disponível em: <https://doi.org/10.17705/1CAIS.04724>. Acesso em: 7 jul. 2024.

OLIVEIRA, F. L. de; CUNHA, L. G. Os indicadores sobre o Judiciário brasileiro: limitações, desafios e o uso da tecnologia. Revista DireitoGV, [S.l.], v.16, n.1, 2020. Acesso em: 19 jul. 2024

OLIVEIRA, R. B. Utilização de Ontologias para Busca em Base de Dados de Acórdãos do STF. 2017. 58 f. Dissertação (Mestrado) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2017. Disponível em: https://pdfs.semanticscholar.org/8072/b7b990d24d14e692b3bc8f16cf83639d1ea1.pdf. Acesso em: 18 ago 2024.

RODRIGUES, Quemuel Baruque de Freitas et al. Webscraping em R: uma abordagem para investigação em ciências sociais. Simbiótica, Vitória, v. 08, n. 04, 2021.

SELENIUM. Selenium: Browser Automation. Versão 4.0.0-alpha-7, 2023. Disponível em: https://www.selenium.dev/ . Acesso em: 7 jul. 2024.

SIRISURIYA, S. C. M. A Comparative Study on Web Scraping. In: INTERNATIONAL RESEARCH CONFERENCE - KDU, 11., 2018, Ratmalana, Sri Lanka. Anais [...]. Ratmalana: General Sir John Kotelawala Defence University, 2018. p. 59-65. Disponível em: http://ir.kdu.ac.lk/bitstream/handle/345/1051/com-059.pdf?sequence=1&isAllowed=y. Acesso em: 7 jul. 2024.

PYTHON SOFTWARE FOUNDATION. re: Regular expression operations. Versão 3.10.0, 2023. Disponível em: https://docs.python.org/3/library/re.html. Acesso em: 7 jul. 2024.

Downloads

Publicado

29-05-2025

Como Citar

ROCHA, M. C.; GOMES, M. E. C.; CASTRO, M. Q. de. WebScraping e acesso à informação: superando barreiras na extração de dados judiciais. Direito & TI, [S. l.], v. 1, n. 20, p. 1–22, 2025. DOI: 10.63451/dti.v1i20.249. Disponível em: https://direitoeti.com.br/direitoeti/article/view/249. Acesso em: 2 jun. 2025.

Edição

Seção

Artigos