본문 바로가기
반응형

아래아한글 자동화256

[0/8] 문서 이미지 일괄저장시 파일명에 제목 넣기(인트로) 개요 대체로 주무부서에서는 소속팀이나 기관에 뿌렸던 문서를 취합 후 가공, 병합하여 보고서로 만드는 일이 많습니다. 이번 튜토리얼에서는 취합한 hwp 문서들의 이미지를 일괄로 추출하여 저장하되 이미지명에 해당 문단의 제목(예: "□ 제목"), 파일명(예: 부서이름), 페이지를 넣고, 제목 이름의 폴더들을 생성하여 그 안에 이미지를 저장하는 일련의 과정을 진행해보겠습니다. 예를 들자면 이런 식입니다. 아래와 같은 문서서식이 있습니다. 세 개의 팀(알파, 베타, 감마)으로부터 아래와 같은 문서를 취합하였습니다. 문서에는 각각 "나무사진", "꽃사진", "풀사진" 이라는 제목 아래에 1x2 크기의 표에 이미지가 각각 두 장씩 들어 있습니다. 위와 같은 문서에 삽입된 이미지를 아래와 같이 저장하고자 합니다. 우.. 2022. 10. 24.
1-6. 폴더에 있는 한/글 파일을 모두 열기 보호되어 있는 글 입니다. 2022. 10. 21.
1-5. 한/글 파일을 열기 보호되어 있는 글 입니다. 2022. 10. 8.
1-4. 한/글 파일을 저장하기 보호되어 있는 글 입니다. 2022. 10. 8.
1-3. 호기심 넘치는 여러분의 예습복습을 위한 한/글 API 문서! 보호되어 있는 글 입니다. 2022. 10. 7.
1-2. 파이썬으로 연 한/글 프로그램을 화면에 보이게 하는 방법 보호되어 있는 글 입니다. 2022. 10. 7.
1-1. 한/글 프로그램을 열기 보호되어 있는 글 입니다. 2022. 10. 7.
1. 한/글 파일 열고 닫기 보호되어 있는 글 입니다. 2022. 10. 7.
정부부처 보도자료에 필드가 적용되어 요약 언어모델 데이터셋 만들기 쉬워졌다 과기정통부와 행안부 보도자료를 살펴보다가 재미있는 점을 두 가지 발견했습니다. 하나는, 보도자료에 machine-readable한 hwpx 포맷으로 바뀌어가고 있다는 점이며 다른 하나는 올해 초, 1월 말 경부터 한/글 문서에 필드와 누름틀이 매겨지고 있다는 점입니다. 이 두 가지는 항상 양질의 데이터에 배고픈 요즘 시대에 아주 큰 강점이 됩니다. 예를 들어보겠습니다. 1. 뉴스기사 크롤링할 때 얼마 전부터 KoGPT나 KoBART 등 한국어 대규모 언어모델이 개발되고 있는데, 학습데이터셋 대부분은 웹에 공개된 언론 뉴스기사나 위키자료 등이죠. 크롤링으로 대규모의 자료를 스크랩해오더라도 데이터셋의 전/후처리가 쉽지 않은데, 그 이유는 언론사마다 제각각인 시맨틱 태그, 맥락없이 중간중간 삽입된 사진설명, .. 2022. 9. 22.
반응형