나무위키 문서 임베드를 알아보다가

윤삼

2022.06.09 13:00

4,045

오랜만에 잠깐 짬이 나서 미디어 임베드 애드온을 몰래 업데이트했는데 몰래가 안 되네요.

무려 다섯분이나 벌써 다운로드를ㅋㅋ

암튼 이번에 위키피디아 문서도 임베드가 가능하게 됐는데요.

혹시 몰라 나무위키도 되나 봤더니 본문만 가져올 수 있는 엔드포인트는 없는 것 같더군요;;;

심지어 텔레그램에서 문서 링크를 복붙하는 경우에도 링크 프리뷰가 안 뜰 정도입니다.

파이썬 같은 걸로 따로 크롤링하지 않는 이상 메타 태그도 못 가져오는 모양이에요. 크으으..

서버 리소스 보호짱!

그 대신 몇 기가 짜리 무슨무슨 덤프 파일을 받아서 자체적으로 활용하라고 하는 것 같은데, 용량이 어마무시합니다.

그러므로 나무위키 임베드는 포기ㅋㅎ

근데 링크에 링크를 타고 가다보니 덤프파일 다운로드 받을 수 있는 서버의 운영자 중에 낯익은 분이 있더군요.

그 이름을 이렇게 접하게 되다니 반가웠습니다ㅎㅎ

윤삼 Lv. 19

아무래도 중급 초반 수준의 코딩 오타쿠인 것 같습니다.

이니스프리

2022.06.09 13:11 #1691322

안녕하세요? ^^
미디어 임베드 애드온 업데이트 감사드립니다 :)

참고로 나무위키는 Python의 Requests나 Requests_HTML 모듈로도 곧바로 접근할 수 없습니다 ㅠㅠ
Selenium을 사용하여 브라우저를 조작하거나

다음과 같은 방법으로 Cloudscraper 등 모듈을 사용하여 Cloudflare를 우회하여야 합니다.

import cloudscraper

scraper = cloudscraper.create_scraper()
with scraper as s:
r = s.get('크롤링할나무위키URL')

그럼 편안한 저녁 되시고, 불금까지 화이팅입니다! ^-^

추천 0
윤삼

2022.06.09 13:15 #1691333

아 맞아요. 클라우드플레어 우회해야 한다는 이야길 어디선가 봤던 것 같아요. 번잡하군요 힝

추천 0
YJSoft

2022.06.09 13:15 #1691329

https://doc.theseed.io/

API 자체는 존재합니다만, 계정에 권한이 존재해야 하며 API도 편집전 본문을 받아올 목적의 것만 존재해서 일반적인 사용 목적으로는 부적합하겠습니다.

추천 0
윤삼

2022.06.09 13:20 #1691339

그렇군요. 단순무식 애드온이어서 토큰이나 키 같은 거 있으면 바로바로 포기입니다 gg~

추천 0
람보

2022.06.09 22:54 #1691378

단순 크롤링도 좋긴하지만, 저작권 관련 이슈도 문제가 되기에 실제 공식 api 를 이용하여 배포하는편이 추후 크롤링과 임베드 관련 시스템을 사용하는데 있어서 개발에 제약(또는 문제발생)이 덜합니다.

추천 0
윤삼

2022.06.10 02:32 #1691401

네 가급적이면 피해야죠. 그리고 크롤링은 실력도 없어서 어차피 잘 하지도 못해요ㅎㅎ

추천 0