본문 바로가기
반응형

hwpx6

[HDMI] hwp를 hwpx로 포맷변환하고 압축 풀기 제목이 거창해 보이지만 사실 굉장히 간단한 프로세스입니다. 1. hwp를 hwpx로 포맷변환(다른 이름으로 저장) 2. hwpx파일 압축해제 이러면 제목이랑 똑같잖아!ㅜ 위 두가지 기능을 각각 구현해보겠습니다. 1. 다른이름으로 저장 한글에서 제공하는 API를 형식별로 크게 나누면 네 가지 정도가 있습니다. ①일반적인 메서드, ②프로퍼티, ③파라미터가 필요한 액션, 그리고 ④파라미터가 필요없는 액션 다른이름으로 저장하기 기능은 함수 형태의 메서드로도 구현되어 있습니다. hwp.SaveAs(파일명, 포맷)입니다. import win32com.client as win32 FILE_PATH = r"C:\Users\smj02\OneDrive\바탕 화면\빈 문서1.hwp" hwp = win32.gencache.E.. 2022. 12. 7.
[HDMI] 빈 문서1.hwpx를 분해해보면 안녕하세요? 일코입니다. HDMI(Hangul Document Manipulation and Information, 이름 참 잘 지었다!) 시리즈 예전에도 이와 관련한 포스팅을 한 번 올린 적은 있었습니다. 한/글 없이 hwpx 파일의 표를 pd.DataFrame으로 추출하는 방법 (tistory.com) 한/글 없이 hwpx 파일의 표를 pd.DataFrame으로 추출하는 방법 안녕하세요? 일상의 코딩, 일코입니다. hwpx 포맷이 만들어진지 벌써 10년도 훌쩍 넘었습니다. 한컴오피스에서는, 데이터 추출이 번거로운 기존의 hwp 포맷 대신 machine-readable한 hwpx 포맷을 사용해 martinii.fun 솔직히 말ㅆ므드리면 그 뒤로 틈틈이 파이썬의 xml 모듈 문서를 읽어보거나 튜토리얼을 .. 2022. 12. 7.
[hwpx 분석하기] HDMI 시리즈를 시작하며 잠시 과거회상 업무자동화 공부를 시작한지도 벌써 6년이 넘었습니다. 사실 업무 중에 가장 많은 시간을 썼던 코드는 아래아한글이 아니라 파이썬-셀레늄으로 브라우저(회사 그룹웨어) 작업을 자동화하는 거였어요. 이게 나름 해킹하는 느낌의 재미가 있어서 파고들게 되었습니다. 해킹이라는 표현은 좀 오바 같지만, 공기업의 그룹웨어가 이렇게 취약점이 많을 줄은 몰랐거든요. 재직 당시 보안팀에 제보했던 수십 개의 취약점 중에 굵직한 걸 꼽으라면 그룹웨어 로그인 비밀번호 입력 무력화, 로그인할 때 휴대폰 2차인증 패스, 다른 사우 사번으로 그룹웨어 및 메신저 로그인하기, 타 부서 기록물, 비공개문서 열람하기, 비밀번호 "1"로 바꾸기 등등 서비스 대부분이 주로 클라이언트 측에서 자바스크립트로 이뤄지는 구조라서 소스코드만.. 2022. 12. 7.
GetText 실행 후에 찾아가서 수정하는 방법 안녕하세요? 일상의 코딩, 일코입니다. 지난 포스팅에서는, 문자열을 단락별로 탐색해서 리턴해주는 GetText라는 메서드를 소개해 드렸습니다. 2022.02.04 - [업무자동화/파이썬-아래아한글 자동화 기초] - GetText, 한/글 자동화 고급과정의 첫걸음① GetText, 한/글 자동화 고급과정의 첫걸음① 안녕하세요? 일상의 코딩, 일코입니다. 이전 포스팅에서 찾기 후 매크로 몇 줄을 보태서 문제를 간단히 해결했습니다. 2022.02.03 - [업무자동화/파이썬-아래아한글 자동화 기초] - 찾기로 탐색한 단 martinii.fun 그런데 GetText는 의외로 싱겁습니다. 지금 탐색하고 있는 단락 상태값과, 문자열만 담백하게 리턴해줍니다. 그 문자열을 어떻게 수정해야 하는지는 내 코딩능력을 활용해.. 2022. 2. 6.
GetText, 한/글 자동화 고급과정의 첫걸음① 안녕하세요? 일상의 코딩, 일코입니다. 이전 포스팅에서 찾기 후 매크로 몇 줄을 보태서 문제를 간단히 해결했습니다. 2022.02.03 - [업무자동화/파이썬-아래아한글 자동화 기초] - 찾기로 탐색한 단어 말고 바로 뒤의 단어를 조작하고 싶다면? 찾기로 탐색한 단어 말고 바로 뒤의 단어를 조작하고 싶다면? 안녕하세요? 일상의 코딩, 일코입니다. (편하게 일코님~ 하고 불러주세요^^) 이번에 질문 주신 내용을 요약하면 "문자열 탐색 후 옆 단어를 조작하는 방법" 입니다. 지난 포스팅에서 "찾아바꾸기" martinii.fun 그럼에도 이번 응용편 포스팅을 덧붙이는 이유는, 현업에서 복잡한 작업을 다루다 보면 한/글에서 찾기(Ctrl-F)나 찾아바꾸기(Ctrl-H) 매크로만으로는 해결할 수 없는 문제가 자주.. 2022. 2. 4.
한/글 없이 hwpx 파일의 표를 pd.DataFrame으로 추출하는 방법 안녕하세요? 일상의 코딩, 일코입니다. hwpx 포맷이 만들어진지 벌써 10년도 훌쩍 넘었습니다. 한컴오피스에서는, 데이터 추출이 번거로운 기존의 hwp 포맷 대신 machine-readable한 hwpx 포맷을 사용해줄 것을 정부 및 기관에 요청한 바 있었는데요. 실제로 hwpx 포맷이 어떻게 쓰이는지 한 번 간단히 알아보고, 한/글 프로그램 없이도 한/글 문서의 표를 판다스 데이터프레임으로 추출하는 간단한 예제를 여러분께 소개하려고 합니다. 우선 추출하고자 하는 한/글 문서는 아래와 같습니다. 예제로 사용할 hwpx문서(표) 안에 들어 있는 데이터는 seaborn으로 데이터 시각화 연습하실 때 한 번쯤은 사용해보셨을 법한, seaborn_tips_dataset입니다. 데이터 출처 : seaborn_t.. 2022. 2. 2.
반응형