-
Notifications
You must be signed in to change notification settings - Fork 284
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[제안]원본 코퍼스를 수정하는 코드를 배포하는 것으로 말뭉치를 공유하는 방법 #3
Comments
안녕하세요? 임재수입니다. 말씀하시는 내용이 무엇인지 잘 알고 있으며, 그 의도에 대해서도 충분히 공감합니다. 박찬엽님이 제안하시는 방법으로 저희가 1년 전에 국립국어원에 공개 질의를 하였고 답변은 확인하신 바와 같습니다. 이와 더불어 수정 내용(패치)과 패치를 적용하는 코드를 배포하는 것에 대해 내부적으로 법률팀에 자문을 하였습니다. 저희 법률팀에서는 아래와 같은 결론을 내린 바 있습니다.
그 자세한 이유에 대해서 혹시 궁금하시면 제가 메일과 같은 다른 매체로 전달해 드릴 수 있을 것 같습니다. (회사 내부 내용을 이곳에 공개적으로 옮기는 것에 대한 확신이 없어서 그런 점 양해를 부탁드립니다.) 저희가 공개하고 그와 더불어 여러 분들과 함께 데이터를 구축해 갔으면 하는 바람이 있는데요,
1)에 대해서는 비공개 저장소에서 진행하거나, 저작권 침해로부터 자유로울 수 있는 방법이 없을 지 한번 더 알아보도록 하겠습니다. 2)에 대해서는 공개에 문제가 없는 지 저희 법률팀에 자문을 구한 뒤 공개하는 방향으로 진행해 보도록 하겠습니다. (만약 법률적인 다른 이슈가 있다면 공개가 힘들 수도 있을 것입니다.) |
안녕하세요, 우선 논문 내용을 보지 않고 이슈를 작성하여 대단히 죄송합니다. 많은 고려를 하신 후 진행하신 것이라 생각하여, 기대감에 작성한 것이라 이해해주시면 감사하겠습니다. 2)에 대해서는 당연히 그렇게 해야 한다고 생각합니다. 자연어 연구팀의 기여에 대해 다시 한번 감사드립니다. |
논문의 내용이 들어가는게 오해를 줄일 수 있을꺼 같아 첨부합니다. 공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 본 논문의 요지는 2가지 프로그램을 작성, 공유하는 것입니다. 여기서 패치 파일이란 수정을 위해 필요한 파일을 뜻합니다. 수정본 자체를 공유하는 것은 저작권 이슈가 발생하나, |
위에서 제가 말씀드린 2가지 공개 대상에 대해 회사내 법률팀에 자문한 결과 모두 공개가 불가하다고 답변을 받았습니다. 저희도 안타까운 마음입니다만, 회사로서 리스크에 따른 법률적 판단은 저희의 마음과는 다를 것이라 십분 이해도 갑니다. 기대에 부응하는 답변을 드리지 못해 죄송하다는 말씀을 드리며, 데이터 공개에 대한 부분을 마무리 해야할 것 같습니다. |
@krikit 안녕하세요 노력해주신 부분, 충분히 이해하였습니다. 그동안의 노고에 감사드립니다. 혹시 패치 생성 스크립트와 패치 적용 스크립트만 따로 공개해주시는걸 고려해봐주실 수 있나요? |
패치를 제외하고 코드 부분만 이곳에 첨부하려다 생각해보니, 그 코드들도 제가 업무 중에 작성한 것으로 원칙적으로 회사 소유란 생각이 들었습니다. 그래서 코드에 대한 공개 여부도 일단 회사의 허락을 받아야 할 것이므로, 회사 내에서 승인 절차를 거쳐 말씀 드리도록 하겠습니다. |
네 맞습니다. 확인하고 부탁드리겠습니다. |
생각해보니 이곳에 공유드린 적이 없네요. 답변이 늦어져서 죄송합니다. 패치를 생성하고 적용하는 코드, 그리고 코퍼스와 관련한 기계적 수정 내용을 담은 스크립트들은 학습 코퍼스를 공개할 때 함께 공개하는 것으로 회사에 허락을 받은 상황입니다. 다만, 학습 코드를 정리하는 과정에서 몇가지 이슈로 인해 좀 늦어지고 있는데요, 이 부분은 어쨌든 v0.3에서 공개될 예정이니 조금만 여유를 갖고 기다려 주시길 부탁드립니다. |
@krikit 감사합니다. 이슈 닫으면서 v0.3 기대하도록 하겠습니다. 앞으로도 많은 활동 부탁드리면서 응원하겠습니다. |
국립국어원 측에서 문제삼는 부분이 또, 해당 패치파일의 다운로드를 할 때에 동의하여야 하는
|
@krikit 국립국어원의 회원자료실에 수정내용(패치)를 업로드할 경우 관리자와 업로드한 사용자만 확인이 가능한 상태로, 관리자의 승인이 있은 후에 게시가 되나 세종 말뭉치의 수정한 파일을 공유하는 것 또한 저작권 문제가 발생하기에 관리자가 확인 후에 관리자 이름으로 대신하여 게시하여 주신다고 하였습니다. 따라서 사용자게시판을 수정내용의 저장소 정도의 개념으로 사용할 수 있다는 답변을 받았습니다. 또한, 관리자의 승인 전에는 해당 내용이 관리자와 게시자 만이 확인 가능하며, 직접 게시의 승인 가능성이 없기에 저작권 문제가 발생할 소지가 없다고 생각됩니다. @coolengineer 님이 공유해주신 sejong-corpus 프로젝트의 22.download.sh 스크립트를 수정하여 수정내용 저장소로 사용되는 회원자료실의 수정내용을 전부 내려 받아 적용하는 방식으로 공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선이 이뤄질 수 있다고 생각합니다. 검토 부탁드리고 싶습니다. |
@chanil1218 회사 내부적으로 논의해 보고 말씀 드리도록 하겠습니다. 이번 주에 휴가이신 분이 많아 다음주까지 늦어질 수 있는 점 양해 부탁드립니다. |
내부 사정상 답변이 늦어진 점 죄송합니다. 일단 결론을 말씀드리면 유감스럽게도 제안하신 방법으로는 진행하지 않는 것이 좋겠다는 내부 의견이 있었습니다. 국립국어원 외부 공간(저희도 github을 염두해 뒀습니다)에 코퍼스나 패치를 올리는 것을 국립국어원에서도, 저희 내부 법률팀에서도 저작권 위반 행위로 보고 있어 엄격히 금지하고 있는 것으로 이미 결론이 난 상황입니다. chanil1218님께서 제안하신 방법은 패치를 국립국어원 언어정보나눔터 게시판을 통해 공유하자는 의견이신데요. 이 불편한 방법으로 과연 "협업"과 "참여"가 원활할 지 의문이 든다는 것이 저희 내부적인 결론입니다. |
@krikit Github를 통해 사용자가 만든 패치가 PR의 형태로 공유되면 수정 내용에 대한 리뷰와 전체 수정 내용이 일관되게 유지될 수 있어 말씀하신 "협업"과 "참여"가 원활하게 이루어질 수 있을 것 같은데 저작권 문제 때문에 반쪽짜리 방법으로 밖에 가능하지 않다는 것이 아쉽네요. 카카오에서 구축한 수정 내용을 한국어 자연어처리 커뮤니티에 공유 또한 어렵다는 결론인 것이겠죠? |
@chanil1218 네. 안타깝지만 현재로서는 어려울 것 같습니다. |
@krikit |
안녕하세요, 좋은 내용 공유해주셔서 감사합니다.
저는 부족한 개인자원으로 한글 데이터 공유를 위한 단체인 ForkonLP를 운영하고 있는 박찬엽입니다.
코퍼스 공유 문제에 대해서, 언급하신 내용과 국립국어원의 답변을 잘 보았습니다.
현 상황에 대해서 음성 자료의 경우에서는 기본 자료를 수정하는 코드를 공유해주시는 사례를 보았습니다.
혹시 가능하시다면 세종 코퍼스의 카카오 내부 변환 또한 같은 방식을 사용할 수 있지 않을까 제안해봅니다.
원자료의 수정된 버전을 배포하는 것 또한 효율적인 방법이겠으나, 저작권이 특히 문제가 된다면 고려해볼 수 있지 않을까 생각합니다.
현재 원본 코퍼스 자체를 재배포하는 것은 대부분의 형태 분석 말뭉치가 채택하고 있는 cc-by-nc-nd를 볼 때 가능합니다.
국립국어원>데이터베이스 자료 > 말뭉치 파일
위 저작권은 저작권 표시, 비영리, 원본그대로 공유시 **복제, 배포, 전시, 공연 및 공중송신 (포맷 변경도 포함)**를 허용하고 있습니다.
포맷 변경 또한 내용의 변경이 없다면 허용하고 있기 때문에, 카카오 내의 코퍼스 배포는 아래 배포방법으로 가능해 보입니다.
카카오측의 적극적인 검토 부탁드립니다.
감사합니다.
p.s 모든 형태소 분석 코퍼스가 위의 라이선스를 따르는지는 확인하지 않았습니다. 의사가 있으시다면, 전수 조사하겠습니다.
The text was updated successfully, but these errors were encountered: