大型開源軟體 Proposal

Introduction

這是這學期大型開源軟體課程的Project Site，我們打算利用網路上的Data作些有趣的分析

Project Goal

找出現在的新聞記者都是上PTT抄新聞的證據，並分析出這些抄的新聞是否佔有很大的比例

Data Source

各大新聞網站（如: Yahoo、ETtoday)
PTT或是非官方的網頁版PTT

Motivation

觀察現在素質低落的網路記者抄新聞的現象，然後笑一笑

Develop Environment

Language: Java and Python
Development Tool: Eclipse
Version Control Host: GitHub

Expected Function

每天自動蒐集data並存入資料庫
自動列出抄PTT的新聞
如果最後呈現內容的方式是網頁的話，可以新增評論功能

Implementation Detail

先寫一個web crawler去抓出網路新聞的資料，再用同樣的方式抓取telnet ptt的資料。如果telnet 抓取太難，可考慮一樣用web crawler去爬非官方網頁版的Ptt 取得文章。之後作一些前處理，把raw data 弄成方便後續分析的clean data存入database。比對文章標題和文章內容的詞彙重複程度，判斷是否是同一篇文章。詞彙重複可以分為日常用語以及專門用語，如的、了這些即為所謂口頭用語，並非判斷文章語意的重要詞彙，而油品、有毒這些即為專門用語，在相同領域的文章中較容易出現，因此我們會設計一個評量規則，為每個詞彙打分，藉以判斷其相同程度。

Team Members

詹上潁、曾與聖、鄭翔元、荊士懷

12

Name		Name	Last commit message	Last commit date
Latest commit History 60 Commits
LOS_HW1		LOS_HW1
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大型開源軟體 Proposal

Introduction

Project Goal

Data Source

Motivation

Develop Environment

Expected Function

Implementation Detail

Team Members

About

Releases

Packages

Contributors 3

Languages

cdfq152313/Large-and-open-source-project-7

Folders and files

Latest commit

History

Repository files navigation

大型開源軟體 Proposal

Introduction

Project Goal

Data Source

Motivation

Develop Environment

Expected Function

Implementation Detail

Team Members

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages