본문 바로가기

find2

[pyhwpx] 메모 또는 메모고침표 일괄삽입하는 예제 국립국어원에서는 일본어투 생활용어와 권장표현을 정리하여 두 차례 공개한 바 있다. (아이러니하게도 최근 공개한 자료의 용어 수가 50개로 예년의 자료에 비해 훨씬 적다.) 위 문서를 다운받은 후 아래 코드를 실행하면 교정표 데이터프레임이 만들어진다. import pandas as pd from pyhwpx import Hwp hwp = Hwp() hwp.open("이제부터는 분빠이하지 말고 각자내기합시다_보도자료.hwp") df = hwp.table_to_df(-1) # 1열 제거 df.drop("", axis=1, inplace=True) # 동일명의 칼럼끼리 병합하기 df.columns = [0, 1, 2, 3] df1 = df[[0, 1]] df2 = df[[2, 3]] df1.columns = [.. 2024. 2. 10.
[HDMI] 본격적으로 xml 파헤쳐보기 지난 포스팅에서는 hwp 파일을 hwpx로 포맷변환하고, 압축을 푸는 과정을 진행해보았습니다. 이번 포스팅은 본격적으로 xml 파헤쳐보기 입니다. xml파일을 파싱하는 라이브러리는 여러 개가 있지만 우리는 xml파서의 큰형님(?)이라 불릴 수 있는 내장 패키지인 xml을 이용해보겠습니다. 그 중에서도 ElementTree라는 모듈을 사용할건데요. (ElementTree 외에도 xml 패키지 안에는 dom, parsers, sax 등의 서브패키지가 포함되어 있습니다.) 그 전에 우리가 파헤칠 header.xml 문서를 한 번 열어나 보고 시작하자구요. 포맷변환이나 압축해제 등 이전 과정을 건너뛰고 파싱에만 관심 있으신 분은 아래 첨부한 header.xml 파일만 다운받아서 실습을 진행해주시면 되겠습니다. .. 2022. 12. 7.