G
GiaLanh
New Member
Nhồi nhét từ khóa . Kỹ thuật này gồm việc đặt các từ khóa có tính toán trong một trang để nâng cao số lượng, tính đa dạng và mật độ từ khóa trong trang web. Điều này hữu dụng để làm một trang web xuất hiện liên quan với crawler web (phần mềm thu thập nội dungweb) sao cho có thể để được tìm thấy nhiều hơn.
Ví dụ: Một người khởi xướng hệ thống Ponzi muốn thu hút những người lướt web vào một site nơi mà anh ta quảng cáo mưu đồ đen tối của mình. Anh ta đặt text ẩn phù hợp với một trang dành cho người hâm hộ nhóm nhạc thịnh hành trên trang web của anh ta, hyvọng rằng trang này sẽ được liệt kê là trang dành cho người hâm mộ và nhận được nhiều cuộc viếngthăm từ những người yêu âm nhạc. Các phiên bản cũ hơn của các chương trình lập chỉ mục đơn giản là đếm tần suất một từ khoá xuất hiện, và sử dụng điều này để thể hiện các mức độ liên quan. Phần lớn các bộ máy tìm kiếm hiệnđại có khả năng phân tích một trang để phát hiện việc nhồi nhét từ khoá và quyết định liệu tần suất có giống những trang khác được tạo ra một cách đặc biệt nhằm thu hút lưu lượng từ các bộ máy tìm kiếm không.
Đoạn text ẩn hoặc không liên quan được che giấu đi . Việc phân biệt các từ khoá và các cụm từ khoá bằng việc làm chúng có màu sắc tương tự màu nền, sử dụng cỡfont nhỏ li ti hoặc giấu chúng trong mã HTML như các mục “no frame”, thuộc tính alt, đặt chiều cao/chiều rộng bằng 0 các thẻ div, và các mục “no script”. Tuy nhiên, đoạn text ẩn không phải luôn luôn là một “chiêu” spam: nó có thể được sử dụng để mở rộng khả năng truy cập. Mọi người ghé thămwebsite từ một công cụ tìm kiếm có thể tạm thời hoặc vĩnh viễn chặn toàn bộ website vì có đoạn text ẩn trên một số trang web.
Nhồi nhét thẻ meta tag . Việc lặp lại các từ khóa trong các thẻ meta tag và sử dụng các từ khóa meta không liên quan tới nội dung của site. Thủ thuật này đã trở nên vô hiệu từ năm 2005. “Gateway” hay các trang cổng vào tạo ra các trangweb chất lượng thấp chứa rất ít nội dung nhưng thay vào đó là nhồi nhét với các từ và cụm từ khóa tương tự. Chúng được thiết kế để xếp hạng cao trong kết quả tìm kiếm, chứ không phải mục đíchđể mọi người tìm kiếm thông tin. Một trang doorway nhìn chung sẽ để dòng “hãy click vào đây” trên trang web. Các site Scraper, còn được biết đến với việc tồn tại chỉ để chạy chương trình quảng cáo Adsense, được tạo ra sử dụng vài chương trình được thiết kế để mon men vào các trang kết quả tìm kiếm hoặc các nguồn nội dungkhác và tạo ra “nội dung” cho website dành cho việc “quảng cáo click chuột trả tiền”, hoặc định hướng người sử dụng đến các trang web khác. Một số site scraper thậm chí còn được xếp trên website thông thường cho tên tổ chức và thông tin riêng của nó. Sự giới thiệu đặc biệt về nội dung trên những site này là duy nhất nhưng gần như được pha trộn về nội dung được lấy từ các nguồn khác, thông thường là không được phép. Những loại trang web này nói chung đầy rẫy những quảng cáo.
Link Spam
Davison định nghĩa việc spam các đường link (ông gọi là “các đường link nepotistic”) là các đường link giữa các trang xuất hiện vì các lý do nào đó chứ không phải sự cần thiết. Việc spam các đường link tậndụng thuật toán xếp hạng dựa trên đường link ví dụ thuật toán Google Page Rank. Thuật toán này mang cho một website thứ hạng ởtrên so với các website khác có thứ hạng cao hơn dẫn tới nó. Các kỹ thuật này cũng nhằm vào việc tác động đến những kỹ thuật xếp hạng khác dựa trên các đườn link khác như thuật toán HITS.
Link farms . Liên quan đến việc tạo các cộng đồng các trang đan xen chặt chẽ tham chiếu đến nhau và cũng được biết đến khôi hài như làcác cộng đồng quan tâm đến PDF (1.55 MiB)
Các đường link ẩn . Đặt các đường link tại nơi mà khách viếng thăm không trong thấy chúng để tăng sự phổ biến các liên kết. Đoạn text trong đường link được tô đậm có thể giúp tăng thứ hạng trang web khi tìm kiếm cụm từ tương ứng.
“Cuộc tấn công Sybil” . Đây là việc áp đặt đa nhận dạng nhằm ý đồ xấu, được đặt tên theo bệnh nhân đa nhân cách nổi tiếng “Sybil” (Shirley Ardell Mason). Một spammer có thể tạo nhiều trang web tại các tên miền khác nhau mà liên kế với nhau như những blog giả mạo được biết tới như là các spam blogs.
Spam blogs . Còn được biết đến là splogs, là các blog lừa gạt được tạora chỉ cho mục đích spam. Về bản chất chúng tương tự như các link farms.
Page hijacking . Điều này đạt đượcbằng việc tạo ra một bản copy lừa đảo của một website nổi tiếng có nội dung tương tự website gốc nhưng định hướng người lướt web vào những website độc hại hoặc không liên quan.
Mua các tên miền hết hạn . Một sốlink spammer theo dõi các bản ghi DNS cho các tên miền sẽ sớm hết hạn, rồi mua chúng khi chúng hết hạn và thay thế các trang web bằng các đường link đến trang củamình. Tuy nhiên, Google đặt lại dữ liệu liên kết trên các tên miền hết hạn.
Một số của những kỹ thuật này có thể được áp dụng dành cho việc tạo một quả bom Google nhằm hợp tác với những người dùng khác để đẩy thứ hạng của một trang đặc biệt nào đó khi gõ một truy vấn tìm kiếm nhất định.
----------> Bổ sung bài viết lúc 18:50 <----------> Bài viết trước lúc 18:49 <----------
Spam trong các trang blog . Đây làviệc đặt hoặc xúi giục đặt các đường link một cách ngẫu nhiên trên các site khác, đặt một từ khóa mong muốn vào đoạn text của đường liên kết trong đường liên kết bên trong website. Các quyển sách, diễn đàn, trang blog, và bất cứ website nào chấp nhận các bình luận của khách ghé thăm là các mục tiêu đặc biệt và thường là các nạn nhân của chương trình spam tự động tạo ra các bài viết vớvẩn có các đường liên kết thường là không liên quan và không mongmuốn.
Spam bình luận . Comment spam làmột dạng link spam mà xuất hiện nhiều trong các trang web cho phép người sử dụng năng động biên tập như wikis, các blog và các loại sách có thể biên tập. Điều này khó có thể giải quyết được bởi vì các agent có thể được viết và tự động lựa chọn ngẫu nhiên một trang web được biên tập bởi người sử dụng ví dụ như một bài viết trên Wikipedia và thêm vào cácđường link dành cho việc spam.
Wiki spam . Sử dụng khả năng biên tập mở của các hệ thống wiki để đặt các đường link từ site wiki đến site spam. Chủ đề của site spam thường không liên quan đếntrang wiki nơi mà đường link được thêm vào. Vào đầu năm 2005, Wikipedia đã thực hiện giá trị “nofollow” đối với thuộc tính HTML “rel”. Các đường link có thuộc tính này bị thuật toán Google PageRank lờ đi. Những nhà điều hành của diễn đàn và Wiki có thể dùng những điều này để chấm dứt hoặc hạn chế Wiki spam.
Referrer log spamming . Khi ai đó truy cập một trang web, ví dụ phầntham khảo, bằng việc theo một đường link từ trang web khác, giả dụ người tham khảo, thì phần tham khảo được đưa ra địa chỉ củangười tham khảo bằng trình duyệtinternet của người này. Bằng việc truy cập ngẫu nhiên nhiều websiteđủ số lần nhất định, với một địa chỉđặc biệt hoặc một thông điệp được đưa ra như người tham khảo, thì thông điệp hay địa chỉ internet đó rồi sẽ xuất hiện trong phần log tham khảo của những site có các referrer log. Từ khi một số bộ máy tìm kiếm căn cứ vào tầmquan trọng của các site bằng số lượng các site khác nhau liên kết đến chúng, thì referer-log spam được sử dụng để làm tăng thứ hạng trên các bộ máy tìm kiếm củacác site của spammer, bằng việc cócác refferer logs của nhiều site liênkết đến chúng.
Các loại spamdexing
Mirror websites . Lưu trữ nhiều website với nội dung tương tự nhau nhưng sử dụng các đường dẫn URL khác nhau. Một số bộ máytìm kiếm mang lại thứ hạng cao hơn cho các kết quả mà từ khóa được tìm kiếm nằm trong URL.
Định hướng lại URL . Đưa người sửdụng đến trang khác mà không phải theo chủ ý của họ ví dụ sử dụng các thẻ refresh META, Jave, Java Script hoặc định hướng lại Server side.
Cloaking . Cloaking tham chiếu đếnbất cứ phương tiện nào để phục vụ một trang dành cho spider của công cụ tìm kiếm. Điều này khác hẳn với trang dành cho người đọc.Nó có thể là một nỗ lực để đánh lừa các bộ máy tìm kiếm liên quan đến nội dung trên một trang web đặc biệt. Tuy nhiên, cloaking có thểcũng được sử dụng để tăng sự truy cập vào một site đối với ngườisử dụng khuyết tật hoặc cung cấp cho người sử dụng các nội dung mà các bộ máy tìm kiếm không thểxử lý hoặc phân tích cú pháp. Nó cũng được sử dụng để chuyển nội dung được dựa trên địa điểm của người sử dụng. Bản thân Google sử dụng việc chuyển giao địa chỉ IP, một dạng của cloaking, để chuyển giao các kết quả. Dạng khác của cloaking là code swapping, ví dụ tối ưu hóa một trang để lọt vào các thứ hạng hàngđầu rồi lại đặt trang khác tại vị trí đạt được thứ hạng hàng đầu.
Ví dụ: Một người khởi xướng hệ thống Ponzi muốn thu hút những người lướt web vào một site nơi mà anh ta quảng cáo mưu đồ đen tối của mình. Anh ta đặt text ẩn phù hợp với một trang dành cho người hâm hộ nhóm nhạc thịnh hành trên trang web của anh ta, hyvọng rằng trang này sẽ được liệt kê là trang dành cho người hâm mộ và nhận được nhiều cuộc viếngthăm từ những người yêu âm nhạc. Các phiên bản cũ hơn của các chương trình lập chỉ mục đơn giản là đếm tần suất một từ khoá xuất hiện, và sử dụng điều này để thể hiện các mức độ liên quan. Phần lớn các bộ máy tìm kiếm hiệnđại có khả năng phân tích một trang để phát hiện việc nhồi nhét từ khoá và quyết định liệu tần suất có giống những trang khác được tạo ra một cách đặc biệt nhằm thu hút lưu lượng từ các bộ máy tìm kiếm không.
Đoạn text ẩn hoặc không liên quan được che giấu đi . Việc phân biệt các từ khoá và các cụm từ khoá bằng việc làm chúng có màu sắc tương tự màu nền, sử dụng cỡfont nhỏ li ti hoặc giấu chúng trong mã HTML như các mục “no frame”, thuộc tính alt, đặt chiều cao/chiều rộng bằng 0 các thẻ div, và các mục “no script”. Tuy nhiên, đoạn text ẩn không phải luôn luôn là một “chiêu” spam: nó có thể được sử dụng để mở rộng khả năng truy cập. Mọi người ghé thămwebsite từ một công cụ tìm kiếm có thể tạm thời hoặc vĩnh viễn chặn toàn bộ website vì có đoạn text ẩn trên một số trang web.
Nhồi nhét thẻ meta tag . Việc lặp lại các từ khóa trong các thẻ meta tag và sử dụng các từ khóa meta không liên quan tới nội dung của site. Thủ thuật này đã trở nên vô hiệu từ năm 2005. “Gateway” hay các trang cổng vào tạo ra các trangweb chất lượng thấp chứa rất ít nội dung nhưng thay vào đó là nhồi nhét với các từ và cụm từ khóa tương tự. Chúng được thiết kế để xếp hạng cao trong kết quả tìm kiếm, chứ không phải mục đíchđể mọi người tìm kiếm thông tin. Một trang doorway nhìn chung sẽ để dòng “hãy click vào đây” trên trang web. Các site Scraper, còn được biết đến với việc tồn tại chỉ để chạy chương trình quảng cáo Adsense, được tạo ra sử dụng vài chương trình được thiết kế để mon men vào các trang kết quả tìm kiếm hoặc các nguồn nội dungkhác và tạo ra “nội dung” cho website dành cho việc “quảng cáo click chuột trả tiền”, hoặc định hướng người sử dụng đến các trang web khác. Một số site scraper thậm chí còn được xếp trên website thông thường cho tên tổ chức và thông tin riêng của nó. Sự giới thiệu đặc biệt về nội dung trên những site này là duy nhất nhưng gần như được pha trộn về nội dung được lấy từ các nguồn khác, thông thường là không được phép. Những loại trang web này nói chung đầy rẫy những quảng cáo.
Link Spam
Davison định nghĩa việc spam các đường link (ông gọi là “các đường link nepotistic”) là các đường link giữa các trang xuất hiện vì các lý do nào đó chứ không phải sự cần thiết. Việc spam các đường link tậndụng thuật toán xếp hạng dựa trên đường link ví dụ thuật toán Google Page Rank. Thuật toán này mang cho một website thứ hạng ởtrên so với các website khác có thứ hạng cao hơn dẫn tới nó. Các kỹ thuật này cũng nhằm vào việc tác động đến những kỹ thuật xếp hạng khác dựa trên các đườn link khác như thuật toán HITS.
Link farms . Liên quan đến việc tạo các cộng đồng các trang đan xen chặt chẽ tham chiếu đến nhau và cũng được biết đến khôi hài như làcác cộng đồng quan tâm đến PDF (1.55 MiB)
Các đường link ẩn . Đặt các đường link tại nơi mà khách viếng thăm không trong thấy chúng để tăng sự phổ biến các liên kết. Đoạn text trong đường link được tô đậm có thể giúp tăng thứ hạng trang web khi tìm kiếm cụm từ tương ứng.
“Cuộc tấn công Sybil” . Đây là việc áp đặt đa nhận dạng nhằm ý đồ xấu, được đặt tên theo bệnh nhân đa nhân cách nổi tiếng “Sybil” (Shirley Ardell Mason). Một spammer có thể tạo nhiều trang web tại các tên miền khác nhau mà liên kế với nhau như những blog giả mạo được biết tới như là các spam blogs.
Spam blogs . Còn được biết đến là splogs, là các blog lừa gạt được tạora chỉ cho mục đích spam. Về bản chất chúng tương tự như các link farms.
Page hijacking . Điều này đạt đượcbằng việc tạo ra một bản copy lừa đảo của một website nổi tiếng có nội dung tương tự website gốc nhưng định hướng người lướt web vào những website độc hại hoặc không liên quan.
Mua các tên miền hết hạn . Một sốlink spammer theo dõi các bản ghi DNS cho các tên miền sẽ sớm hết hạn, rồi mua chúng khi chúng hết hạn và thay thế các trang web bằng các đường link đến trang củamình. Tuy nhiên, Google đặt lại dữ liệu liên kết trên các tên miền hết hạn.
Một số của những kỹ thuật này có thể được áp dụng dành cho việc tạo một quả bom Google nhằm hợp tác với những người dùng khác để đẩy thứ hạng của một trang đặc biệt nào đó khi gõ một truy vấn tìm kiếm nhất định.
----------> Bổ sung bài viết lúc 18:50 <----------> Bài viết trước lúc 18:49 <----------
Spam trong các trang blog . Đây làviệc đặt hoặc xúi giục đặt các đường link một cách ngẫu nhiên trên các site khác, đặt một từ khóa mong muốn vào đoạn text của đường liên kết trong đường liên kết bên trong website. Các quyển sách, diễn đàn, trang blog, và bất cứ website nào chấp nhận các bình luận của khách ghé thăm là các mục tiêu đặc biệt và thường là các nạn nhân của chương trình spam tự động tạo ra các bài viết vớvẩn có các đường liên kết thường là không liên quan và không mongmuốn.
Spam bình luận . Comment spam làmột dạng link spam mà xuất hiện nhiều trong các trang web cho phép người sử dụng năng động biên tập như wikis, các blog và các loại sách có thể biên tập. Điều này khó có thể giải quyết được bởi vì các agent có thể được viết và tự động lựa chọn ngẫu nhiên một trang web được biên tập bởi người sử dụng ví dụ như một bài viết trên Wikipedia và thêm vào cácđường link dành cho việc spam.
Wiki spam . Sử dụng khả năng biên tập mở của các hệ thống wiki để đặt các đường link từ site wiki đến site spam. Chủ đề của site spam thường không liên quan đếntrang wiki nơi mà đường link được thêm vào. Vào đầu năm 2005, Wikipedia đã thực hiện giá trị “nofollow” đối với thuộc tính HTML “rel”. Các đường link có thuộc tính này bị thuật toán Google PageRank lờ đi. Những nhà điều hành của diễn đàn và Wiki có thể dùng những điều này để chấm dứt hoặc hạn chế Wiki spam.
Referrer log spamming . Khi ai đó truy cập một trang web, ví dụ phầntham khảo, bằng việc theo một đường link từ trang web khác, giả dụ người tham khảo, thì phần tham khảo được đưa ra địa chỉ củangười tham khảo bằng trình duyệtinternet của người này. Bằng việc truy cập ngẫu nhiên nhiều websiteđủ số lần nhất định, với một địa chỉđặc biệt hoặc một thông điệp được đưa ra như người tham khảo, thì thông điệp hay địa chỉ internet đó rồi sẽ xuất hiện trong phần log tham khảo của những site có các referrer log. Từ khi một số bộ máy tìm kiếm căn cứ vào tầmquan trọng của các site bằng số lượng các site khác nhau liên kết đến chúng, thì referer-log spam được sử dụng để làm tăng thứ hạng trên các bộ máy tìm kiếm củacác site của spammer, bằng việc cócác refferer logs của nhiều site liênkết đến chúng.
Các loại spamdexing
Mirror websites . Lưu trữ nhiều website với nội dung tương tự nhau nhưng sử dụng các đường dẫn URL khác nhau. Một số bộ máytìm kiếm mang lại thứ hạng cao hơn cho các kết quả mà từ khóa được tìm kiếm nằm trong URL.
Định hướng lại URL . Đưa người sửdụng đến trang khác mà không phải theo chủ ý của họ ví dụ sử dụng các thẻ refresh META, Jave, Java Script hoặc định hướng lại Server side.
Cloaking . Cloaking tham chiếu đếnbất cứ phương tiện nào để phục vụ một trang dành cho spider của công cụ tìm kiếm. Điều này khác hẳn với trang dành cho người đọc.Nó có thể là một nỗ lực để đánh lừa các bộ máy tìm kiếm liên quan đến nội dung trên một trang web đặc biệt. Tuy nhiên, cloaking có thểcũng được sử dụng để tăng sự truy cập vào một site đối với ngườisử dụng khuyết tật hoặc cung cấp cho người sử dụng các nội dung mà các bộ máy tìm kiếm không thểxử lý hoặc phân tích cú pháp. Nó cũng được sử dụng để chuyển nội dung được dựa trên địa điểm của người sử dụng. Bản thân Google sử dụng việc chuyển giao địa chỉ IP, một dạng của cloaking, để chuyển giao các kết quả. Dạng khác của cloaking là code swapping, ví dụ tối ưu hóa một trang để lọt vào các thứ hạng hàngđầu rồi lại đặt trang khác tại vị trí đạt được thứ hạng hàng đầu.