WebScraping e acesso à informação
superando barreiras na extração de dados judiciais
DOI:
https://doi.org/10.63451/dti.v1i20.249Palavras-chave:
Acesso à informação, Acesso a dados públicos, Ciência de dados, Tribunais de Justiça, WebScrapingResumo
Este artigo busca demonstrar como técnicas de tecnologia podem auxiliar cientistas sociais a realizarem estudos empíricos e quantitativos, superando obstáculos como a falta de acesso a dados estruturados pelos Tribunais de Justiça, ainda que requeridas essas informações pela Lei de Acesso à Informação. O estudo almeja contribuir no incentivo à pesquisa, especialmente por meio da disponibilização de scripts automatizados que utilizam da técnica de WebScraping, promovendo a possibilidade de realização de pesquisas acadêmicas com quantitativo significativo de dados judiciais. São compartilhados, enquanto anexos a este artigo, os códigos e tutoriais de utilização visando auxiliar outros pesquisadores a replicar o processo, com exemplos práticos dos tribunais de Minas Gerais, Rondônia e Mato Grosso. Embora o trabalho explore a extração e organização de dados públicos disponíveis nos sites das Cortes, destaca-se pela inovação na forma de obtenção e agrupamento dessas informações, viabilizando uma variedade de análises qualitativas e quantitativas. Este estudo defende a necessidade de maior transparência e acessibilidade dos dados judiciais e incentiva a colaboração entre academia e instituições públicas para aprimorar o acesso a dados e, assim, contribuir para a formulação e avaliação de políticas públicas no sistema de Justiça.
Downloads
Referências
ASSOCIAÇÃO BRASILEIRA DE LAWTECHS & LEGALTECHS. Disponível em: https://ab2l.org.br/radar-lawtechs/. Acesso em: 7 jul. 2024.
AWS. What is an API? Amazon Web Services, 2024. Disponível em: https://aws.amazon.com/pt/what-is/api/#:~=API%20significa%20Application%20Programming%20Interface,de%20serviço%20entre%20duas%20aplicações. Acesso em: 2 ago. 2024.
BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. Versão 3.6, 2021. Disponível em: https://www.nltk.org/book/. Acesso em: 7 jul. 2024.
BRASIL. Conselho Nacional de Justiça. Portaria CNJ nº 160, de 9 de setembro de 2020. Diário da Justiça, Brasília, DF, 10 set. 2020. Seção 1, p. 12. Disponível em: https://atos.cnj.jus.br/atos/detalhar/3453. Acesso em: 7 jul. 2024.
BRASIL. Conselho Nacional de Justiça. DATAJUD: Base Nacional de Dados do Poder Judiciário [recurso eletrônico]. Brasília: CNJ, 2024. Disponível em: https://www.cnj.jus.br/sistemas/datajud/. Acesso em: 7 jul. 2024.
BRASIL. Decreto nº 7.724, de 16 de maio de 2012. Regulamenta a Lei nº 12.527, de 18 de novembro de 2011, que dispõe sobre o acesso a informações previsto no inciso XXXIII do caput do art. 5º, no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição. Diário Oficial da União, Brasília, DF, 17 maio 2012. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2012/decreto/d7724.htm. Acesso em: 7 jul. 2024.
BRASIL. Lei nº 12.527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5º, no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição Federal; altera a Lei nº 8.112, de 11 de dezembro de 1990; revoga a Lei nº 11.111, de 5 de maio de 2005; e dá outras providências. Diário Oficial da União, Brasília, DF, 18 nov. 2011. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm. Acesso em: 7 jul. 2024.
BRASIL. Lei nº 12.965, de 23 de abril de 2014. Estabelece princípios, garantias, direitos e deveres para o uso da Internet no Brasil. Diário Oficial da União, Brasília, DF, 24 abr. 2014. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2014/lei/l12965.htm. Acesso em: 7 jul. 2024.
CALÒ, Alessandro. Extração e Análise de Informações Jurídicas Públicas. 2014. 75 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2014. Disponível em: https://bccdev.ime.usp.br/tccs/2014/sandro/Monografia.pdf. Acesso em: 17 ago. 2024.
CARVALHO, Taynara de Jesus. Pesquisa e Desenvolvimento de um Sistema de Automação de Jurimetria. 2021. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia) – Universidade de Brasília, Faculdade UnB Gama, Brasília, DF, 2021. Disponível em: https://bdm.unb.br/bitstream/10483/30748/1/2021_TaynaraDeJesusCarvalho_tcc.pdf. Acesso em: 17 ago. 2024.
CASTRO, Marcella Queiroz de. “Processamento de Linguagem Natural, Segurança Jurídica e Uniformidade da Jurisprudência: Um estudo sobre a viabilidade da aplicação de técnicas de Processamento de Linguagem Natural na identificação de divergências jurisprudenciais”. Monografia Final de Curso, 2022, Faculdade de Direito, Universidade de Brasília, Brasília, DF, 78 p. Disponível em: https://bdm.unb.br/bitstream/10483/33128/1/2022_MarcellaQueirozDeCastro_tcc.pdf
Conselho Nacional de Justiça. DATAJUD: Base Nacional de Dados do Poder Judiciário [recurso eletrônico]. Brasília: CNJ, 2024. Disponível em: https://www.cnj.jus.br/sistemas/datajud/. Acesso em: 7 jul. 2024.
FELIX, Eric. Openpyxl: A Python library to read/write Excel 2010 xlsx/xlsm files. Versão 3.0.8, 2023. Disponível em: https://openpyxl.readthedocs.io/en/stable/. Acesso em: 7 jul. 2024.
KHEDER, Moaiad. Web Scraping or Web Crawling: State of Art, Techniques, Approaches and Application. International Journal of Advances in Soft Computing and its Applications, v. 13, p. 145-168, dez. 2021. DOI: 10.15849/IJASCA.211128.11.
KROTOV, V.; JOHNSON, L.; SILVA, L. Tutorial: Legality and Ethics of Web Scraping. Communications of the Association for Information Systems, v. 47, 2020. Disponível em: <https://doi.org/10.17705/1CAIS.04724>. Acesso em: 7 jul. 2024.
OLIVEIRA, F. L. de; CUNHA, L. G. Os indicadores sobre o Judiciário brasileiro: limitações, desafios e o uso da tecnologia. Revista DireitoGV, [S.l.], v.16, n.1, 2020. Acesso em: 19 jul. 2024
OLIVEIRA, R. B. Utilização de Ontologias para Busca em Base de Dados de Acórdãos do STF. 2017. 58 f. Dissertação (Mestrado) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2017. Disponível em: https://pdfs.semanticscholar.org/8072/b7b990d24d14e692b3bc8f16cf83639d1ea1.pdf. Acesso em: 18 ago 2024.
RODRIGUES, Quemuel Baruque de Freitas et al. Webscraping em R: uma abordagem para investigação em ciências sociais. Simbiótica, Vitória, v. 08, n. 04, 2021.
SELENIUM. Selenium: Browser Automation. Versão 4.0.0-alpha-7, 2023. Disponível em: https://www.selenium.dev/ . Acesso em: 7 jul. 2024.
SIRISURIYA, S. C. M. A Comparative Study on Web Scraping. In: INTERNATIONAL RESEARCH CONFERENCE - KDU, 11., 2018, Ratmalana, Sri Lanka. Anais [...]. Ratmalana: General Sir John Kotelawala Defence University, 2018. p. 59-65. Disponível em: http://ir.kdu.ac.lk/bitstream/handle/345/1051/com-059.pdf?sequence=1&isAllowed=y. Acesso em: 7 jul. 2024.
PYTHON SOFTWARE FOUNDATION. re: Regular expression operations. Versão 3.10.0, 2023. Disponível em: https://docs.python.org/3/library/re.html. Acesso em: 7 jul. 2024.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2025 Mariela Campos Rocha, Mariana Elis Campos Gomes, Marcella Queiroz de Castro

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.