Back to Question Center
0

Посібник для початківців від Semalt на веб-сторінці Скребком

1 answers:

Дані та інформація в Інтернеті зростають з кожним днем. В даний час більшість людей використовують Google як перше джерело знань, незалежно від того, чи шукають вони відгуки про компанію чи намагаються зрозуміти новий термін.

З великою кількістю даних, доступних в Інтернеті, це відкриває багато можливостей для вчених даних. На жаль, більшість даних в Інтернеті не є доступними. Він представлений у неструктурованому форматі, який називається форматом HTML, який не можна завантажувати. Таким чином, це вимагає знань і досвіду вченого даних, щоб використовувати його.

Web-скребком є ​​процес перетворення даних у форматі HTML у структурований формат, який можна легко отримати та використовувати. Майже всі мови програмування можуть бути використані для правильного відторгнення веб-сторінок. Однак у цій статті ми будемо використовувати мову R.

Існує декілька способів видалення даних з Інтернету. Деякі з найпопулярніших з них включають:

1. Копія-паста людини

Це повільна, але дуже ефективна методика вискоблювання даних з Інтернету. У цій техніці людина аналізує дані самостійно, а потім копіює її до локального сховища.

( 19) 2. Збіг тексту тексту

Це ще один простий, але потужний підхід до вилучення інформації з Інтернету. Для цього потрібні засоби, що відповідають мові програмування, з регулярним виразом

3. Інтерфейс API

Багато сайтів, такі як Twitter, Facebook, LinkedIn тощо, надають вам загальнодоступні або приватні API, які можуть бути викликані з використанням стандартних кодів для отримання даних у встановленому форматі.

4. DOM Parsing

Зауважте, що деякі програми можуть отримувати динамічний вміст, створений сценаріями на стороні клієнта. Можна розділити сторінки в дереві DOM, що базується на програмах, які ви можете використовувати для вилучення деяких частин цих сторінок. )

Перш ніж почати скребком у R, вам потрібно мати базові знання про R. Якщо ви є новачком, є багато чудових джерел, які можуть допомогти. Крім того, ви повинні мати знання про HTML та CSS. Однак, оскільки більшість вчених даних не дуже надійні з технічними знаннями HTML та CSS, ви можете використовувати відкрите програмне забезпечення, таке як гаджет Selector.

Наприклад, якщо ви збираєте дані на веб-сайті IMDB для 100 найпопулярніших фільмів, випущених за певний період, вам слід скобити наступні дані з сайту: опис, час виконання, жанр, рейтинг, голосування , валовий заробіток, режисер та актор. Після того, як ви скасували дані, ви можете проаналізувати його різними способами. Наприклад, ви можете створити ряд цікавих візуалізацій Source . Тепер, коли ви маєте загальне уявлення про те, що таке зняття даних, ви можете перейти до неї!

December 7, 2017